Ukázkové datové sady
Azure Databricks poskytuje celou řadu ukázkových datových sad a zpřístupnil je třetí strany, které můžete použít ve svém pracovním prostoru Azure Databricks.
Datové sady katalogu Unity
Katalog Unity poskytuje přístup k řadě ukázkových datových sad v samples
katalogu. Tyto datové sady můžete zkontrolovat v uživatelském rozhraní Průzkumníka katalogu a odkazovat na ně přímo v poznámkovém bloku nebo v editoru SQL pomocí <catalog-name>.<schema-name>.<table-name>
vzoru.
Schéma nyctaxi
(označované také jako databáze) obsahuje tabulku trips
, která obsahuje podrobnosti o jízdách taxíkem v New Yorku. Následující příkaz vrátí prvních 10 záznamů v této tabulce:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Schéma tpch
obsahuje data z srovnávacího testu TPC-H. Pokud chcete zobrazit seznam tabulek v tomto schématu, spusťte:
SHOW TABLES IN samples.tpch
Ukázkové datové sady třetích stran ve formátu CSV
Azure Databricks má integrované nástroje pro rychlé nahrání ukázkových datových sad třetích stran jako soubory hodnot oddělených čárkami (CSV) do pracovních prostorů Azure Databricks. Některé oblíbené ukázkové datové sady třetích stran dostupné ve formátu CSV:
Ukázková datová sada | Stažení ukázkové datové sady jako souboru CSV... |
---|---|
Veverka Sčítání lidu | Na webové stránce Data klikněte na Park Data, Data veverka nebo příběhy. |
Kolekce datových sad OWID | V úložišti GitHub klikněte na složku datových sad. Klikněte na podsložku obsahující cílovou datovou sadu a potom klikněte na soubor CSV datové sady. |
Data.gov datových sad CSV | Na webové stránce výsledků hledání klikněte na cílový výsledek hledání a vedle ikony CSV klikněte na Tlačítko Stáhnout. |
Kosočtverce (vyžaduje účet Kaggle ) | Na webové stránce datové sady klikněte na kartě Data na kartě Data vedle diamonds.csv na ikonu Stáhnout. |
NYC Taxi Trip Duration (Vyžaduje účet Kaggle ) | Na webové stránce datové sady klikněte na kartě Data vedle sample_submission.zip Ikona pro stažení Pokud chcete najít soubory CSV datové sady, extrahuje obsah staženého souboru ZIP. |
Pokud chcete v pracovním prostoru Azure Databricks použít ukázkové datové sady třetích stran, postupujte takto:
- Podle pokynů třetích stran si datovou sadu stáhněte jako soubor CSV do místního počítače.
- Nahrajte soubor CSV z místního počítače do pracovního prostoru Azure Databricks.
- Pokud chcete pracovat s importovanými daty, použijte Databricks SQL k dotazování dat. Nebo můžete použít poznámkový blok k načtení dat jako datového rámce.
Ukázkové datové sady třetích stran v knihovnách
Některé třetí strany zahrnují ukázkové datové sady v knihovnách, jako jsou balíčky PyPI (Python Package Index) nebo balíčky CRAN (Comprehensive R Archive Network). Další informace najdete v dokumentaci poskytovatele knihovny.
- Pokud chcete nainstalovat knihovnu do clusteru Azure Databricks pomocí uživatelského rozhraní clusteru, přečtěte si téma Knihovny clusteru.
- Pokud chcete nainstalovat knihovnu Pythonu pomocí poznámkového bloku Azure Databricks, přečtěte si téma Knihovny Pythonu v oboru poznámkového bloku.
- Pokud chcete nainstalovat knihovnu R pomocí poznámkového bloku Azure Databricks, přečtěte si téma Knihovny jazyka R s oborem poznámkového bloku.
Datové sady Databricks (datové sady Databricks) připojené k DBFS
Azure Databricks doporučuje používat DBFS a připojené cloudové úložiště objektů pro většinu případů použití v pracovních prostorech Databricks s podporou katalogu Unity. Některé ukázkové datové sady připojené k DBFS jsou k dispozici v Azure Databricks.
Poznámka:
Dostupnost a umístění datových sad Databricks se můžou bez předchozího upozornění změnit.
Procházení databází připojených k datovým sadám Databricks
K procházení těchto souborů z poznámkového bloku Python, Scala nebo R můžete použít referenční informace k nástrojům Databricks (dbutils). Následující kód obsahuje seznam všech dostupných datových sad Databricks.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"