Przykładowe zestawy danych
Istnieją różne przykładowe zestawy danych udostępniane przez usługę Azure Databricks i udostępniane przez inne firmy, których można używać w obszarze roboczym usługi Azure Databricks.
Zestawy danych wykazu aparatu Unity
Wykaz aparatu Unity zapewnia dostęp do wielu przykładowych zestawów danych w samples
katalogu. Możesz przejrzeć te zestawy danych w interfejsie użytkownika Eksploratora wykazu i odwołać się do nich bezpośrednio w notesie lub w edytorze SQL przy użyciu <catalog-name>.<schema-name>.<table-name>
wzorca.
nyctaxi
Schemat (znany również jako baza danych) zawiera tabelę trips
, która zawiera szczegółowe informacje o przejazdach taksówkami w Nowym Jorku. Poniższa instrukcja zwraca pierwsze 10 rekordów w tej tabeli:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Schemat tpch
zawiera dane z testu porównawczego TPC-H. Aby wyświetlić listę tabel w tym schemacie, uruchom polecenie:
SHOW TABLES IN samples.tpch
Przykładowe zestawy danych innych firm w formacie CSV
Usługa Azure Databricks ma wbudowane narzędzia do szybkiego przekazywania przykładowych zestawów danych innych firm jako plików wartości rozdzielanych przecinkami (CSV) do obszarów roboczych usługi Azure Databricks. Niektóre popularne przykładowe zestawy danych innych firm dostępne w formacie CSV:
Przykładowy zestaw danych | Aby pobrać przykładowy zestaw danych jako plik CSV... |
---|---|
Spis wiewiórki | Na stronie Dane kliknij pozycję Park Data (Dane parkowe), Wiewiórka dane lub historie. |
Kolekcja zestawów danych OWID | W repozytorium GitHub kliknij folder zestawy danych. Kliknij podfolder zawierający docelowy zestaw danych, a następnie kliknij plik CSV zestawu danych. |
zestawy danych csv Data.gov | Na stronie wyników wyszukiwania kliknij docelowy wynik wyszukiwania, a następnie obok ikony CSV kliknij pozycję Pobierz. |
Diamenty (wymaga konta Kaggle ) | Na stronie internetowej zestawu danych na karcie Dane na karcie Dane obok diamonds.csv kliknij ikonę Pobierz. |
Czas trwania przejazdu taksówką w Nowym Jorku (wymaga konta Kaggle ) | Na stronie internetowej zestawu danych na karcie Dane obok sample_submission.zip kliknij przycisk Ikona pobierania . Aby znaleźć pliki CSV zestawu danych, wyodrębnia zawartość pobranego pliku ZIP. |
Aby użyć przykładowych zestawów danych innych firm w obszarze roboczym usługi Azure Databricks, wykonaj następujące czynności:
- Postępuj zgodnie z instrukcjami innych firm, aby pobrać zestaw danych jako plik CSV na komputer lokalny.
- Przekaż plik CSV z komputera lokalnego do obszaru roboczego usługi Azure Databricks.
- Aby pracować z zaimportowanymi danymi, użyj usługi Databricks SQL do wykonywania zapytań dotyczących danych. Możesz też użyć notesu, aby załadować dane jako ramkę danych.
Przykładowe zestawy danych innych firm w bibliotekach
Niektóre inne firmy obejmują przykładowe zestawy danych w bibliotekach, takie jak pakiety PyPI (Python Package Index) lub kompleksowe pakiety CRAN (R Archive Network). Aby uzyskać więcej informacji, zobacz dokumentację dostawcy biblioteki.
- Aby zainstalować bibliotekę w klastrze usługi Azure Databricks przy użyciu interfejsu użytkownika klastra , zobacz Biblioteki klastra.
- Aby zainstalować bibliotekę języka Python przy użyciu notesu usługi Azure Databricks, zobacz Notebook-scoped Python libraries (Biblioteki języka Python o zakresie notesu).
- Aby zainstalować bibliotekę języka R przy użyciu notesu usługi Azure Databricks, zobacz Notebook-scoped R libraries (Biblioteki języka R o zakresie notesu).
Zestawy danych usługi Databricks (databricks-datasets) zainstalowane w systemie plików DBFS
Usługa Azure Databricks zaleca używanie systemu plików DBFS i zainstalowanego magazynu obiektów w chmurze w większości przypadków użycia w obszarach roboczych usługi Databricks z obsługą wykazu aparatu Unity. Niektóre przykładowe zestawy danych zainstalowane w systemie dbFS są dostępne w usłudze Azure Databricks
Uwaga
Dostępność i lokalizacja zestawów danych usługi Databricks mogą ulec zmianie bez powiadomienia.
Przeglądanie zainstalowanych zestawów danych usługi Databricks w systemie plików DBFS
Aby przeglądać te pliki z notesu Python, Scala lub R, możesz użyć odwołania do narzędzi usługi Databricks (dbutils). Poniższy kod zawiera listę wszystkich dostępnych zestawów danych usługi Databricks.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"