Udostępnij za pośrednictwem


Przykładowe zestawy danych

Istnieją różne przykładowe zestawy danych udostępniane przez usługę Azure Databricks i udostępniane przez inne firmy, których można używać w obszarze roboczym usługi Azure Databricks.

Zestawy danych wykazu aparatu Unity

Wykaz aparatu Unity zapewnia dostęp do wielu przykładowych zestawów danych w samples katalogu. Możesz przejrzeć te zestawy danych w interfejsie użytkownika Eksploratora wykazu i odwołać się do nich bezpośrednio w notesie lub w edytorze SQL przy użyciu <catalog-name>.<schema-name>.<table-name> wzorca.

nyctaxi Schemat (znany również jako baza danych) zawiera tabelę trips, która zawiera szczegółowe informacje o przejazdach taksówkami w Nowym Jorku. Poniższa instrukcja zwraca pierwsze 10 rekordów w tej tabeli:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Schemat tpch zawiera dane z testu porównawczego TPC-H. Aby wyświetlić listę tabel w tym schemacie, uruchom polecenie:

SHOW TABLES IN samples.tpch

Przykładowe zestawy danych innych firm w formacie CSV

Usługa Azure Databricks ma wbudowane narzędzia do szybkiego przekazywania przykładowych zestawów danych innych firm jako plików wartości rozdzielanych przecinkami (CSV) do obszarów roboczych usługi Azure Databricks. Niektóre popularne przykładowe zestawy danych innych firm dostępne w formacie CSV:

Przykładowy zestaw danych Aby pobrać przykładowy zestaw danych jako plik CSV...
Spis wiewiórki Na stronie Dane kliknij pozycję Park Data (Dane parkowe),
Wiewiórka dane lub historie.
Kolekcja zestawów danych OWID W repozytorium GitHub kliknij folder zestawy danych. Kliknij podfolder zawierający docelowy zestaw danych, a następnie kliknij plik CSV zestawu danych.
zestawy danych csv Data.gov Na stronie wyników wyszukiwania kliknij docelowy wynik wyszukiwania, a następnie obok ikony CSV kliknij pozycję Pobierz.
Diamenty (wymaga konta Kaggle ) Na stronie internetowej zestawu danych na karcie Dane na karcie Dane obok diamonds.csv kliknij ikonę Pobierz.
Czas trwania przejazdu taksówką w Nowym Jorku (wymaga konta Kaggle ) Na stronie internetowej zestawu danych na karcie Dane obok sample_submission.zip kliknij przycisk
Ikona pobierania . Aby znaleźć pliki CSV zestawu danych, wyodrębnia zawartość pobranego pliku ZIP.

Aby użyć przykładowych zestawów danych innych firm w obszarze roboczym usługi Azure Databricks, wykonaj następujące czynności:

  1. Postępuj zgodnie z instrukcjami innych firm, aby pobrać zestaw danych jako plik CSV na komputer lokalny.
  2. Przekaż plik CSV z komputera lokalnego do obszaru roboczego usługi Azure Databricks.
  3. Aby pracować z zaimportowanymi danymi, użyj usługi Databricks SQL do wykonywania zapytań dotyczących danych. Możesz też użyć notesu, aby załadować dane jako ramkę danych.

Przykładowe zestawy danych innych firm w bibliotekach

Niektóre inne firmy obejmują przykładowe zestawy danych w bibliotekach, takie jak pakiety PyPI (Python Package Index) lub kompleksowe pakiety CRAN (R Archive Network). Aby uzyskać więcej informacji, zobacz dokumentację dostawcy biblioteki.

Zestawy danych usługi Databricks (databricks-datasets) zainstalowane w systemie plików DBFS

Usługa Azure Databricks zaleca używanie systemu plików DBFS i zainstalowanego magazynu obiektów w chmurze w większości przypadków użycia w obszarach roboczych usługi Databricks z obsługą wykazu aparatu Unity. Niektóre przykładowe zestawy danych zainstalowane w systemie dbFS są dostępne w usłudze Azure Databricks

Uwaga

Dostępność i lokalizacja zestawów danych usługi Databricks mogą ulec zmianie bez powiadomienia.

Przeglądanie zainstalowanych zestawów danych usługi Databricks w systemie plików DBFS

Aby przeglądać te pliki z notesu Python, Scala lub R, możesz użyć odwołania do narzędzi usługi Databricks (dbutils). Poniższy kod zawiera listę wszystkich dostępnych zestawów danych usługi Databricks.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"