Примеры наборов данных
Существует множество примеров наборов данных, предоставляемых Azure Databricks и предоставляемых сторонними лицами, которые можно использовать в рабочей области Azure Databricks.
Наборы данных каталога Unity
Каталог Unity предоставляет доступ к ряду примеров наборов данных в каталоге samples
. Эти наборы данных можно просмотреть в пользовательском интерфейсе обозревателя каталогов и ссылаться на них непосредственно в записной книжке или в редакторе SQL с помощью <catalog-name>.<schema-name>.<table-name>
шаблона.
Схема nyctaxi
(также известная как база данных) содержит таблицу trips
, которая содержит сведения о поездках на такси в Нью-Йорке. Следующая инструкция возвращает первые 10 записей в этой таблице:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Схема tpch
содержит данные из TPC-H Benchmark. Чтобы получить список таблиц в этой схеме, выполните следующую команду:
SHOW TABLES IN samples.tpch
Сторонние примеры наборов данных в формате CSV
Azure Databricks имеет встроенные средства для быстрого отправки сторонних примеров наборов данных в виде файлов с разделием запятыми (CSV) в рабочие области Azure Databricks. Некоторые популярные сторонние примеры наборов данных, доступные в формате CSV:
Пример набора данных | Скачивание примера набора данных в виде CSV-файла... |
---|---|
Перепись белка | На веб-странице "Данные" щелкните "Парк данных", Беличьи данные или истории. |
Коллекция наборов данных OWID | В репозитории GitHub щелкните папку наборов данных. Щелкните вложенную папку, содержащую целевой набор данных, и выберите CSV-файл набора данных. |
наборы данных DATA.GOV CSV | На веб-странице результатов поиска щелкните целевой результат поиска и рядом с значком CSV нажмите кнопку "Скачать". |
Алмазы (требуется учетная запись Kaggle) | На веб-странице набора данных на вкладке "Данные" на вкладке "Данные" рядом с diamonds.csv щелкните значок "Скачать". |
Длительность поездки в такси Нью-Йорка (требуется учетная запись Kaggle ) | На веб-странице набора данных на вкладке "Данные" рядом с sample_submission.zip щелкните Значок скачивания . Чтобы найти CSV-файлы набора данных, извлекает содержимое скачаированного ZIP-файла. |
Чтобы использовать сторонние примеры наборов данных в рабочей области Azure Databricks, сделайте следующее:
- Следуйте инструкциям сторонних разработчиков, чтобы скачать набор данных в виде CSV-файла на локальный компьютер.
- Отправьте CSV-файл с локального компьютера в рабочую область Azure Databricks.
- Чтобы работать с импортированными данными, используйте Databricks SQL для запроса данных. Также можно использовать записную книжку для загрузки данных в виде кадра данных.
Сторонние примеры наборов данных в библиотеках
Некоторые третьи стороны включают примеры наборов данных в библиотеках, таких как пакеты индексов пакетов Python (PyPI) или комплексные пакеты архивной сети R (CRAN). Дополнительные сведения см. в документации поставщика библиотеки.
- Сведения об установке библиотеки в кластере Azure Databricks с помощью пользовательского интерфейса кластера см. в разделе "Библиотеки кластеров".
- Сведения об установке библиотеки Python с помощью записной книжки Azure Databricks см. в библиотеках Python с областью записной книжки.
- Чтобы установить библиотеку R с помощью записной книжки Azure Databricks, ознакомьтесь с библиотеками R с областью действия записной книжки.
Наборы данных Databricks (databricks-datasets), подключенные к DBFS
Azure Databricks рекомендует использовать DBFS и подключенное облачное хранилище объектов для большинства вариантов использования в рабочих областях с поддержкой каталога Unity Databricks. Некоторые примеры наборов данных, подключенных к DBFS , доступны в Azure Databricks
Примечание.
Доступность и расположение наборов данных Databricks могут изменяться без уведомления.
Обзор подключенных наборов данных Databricks DBFS
Чтобы просмотреть эти файлы из записной книжки Python, Scala или R, можно использовать ссылку Databricks Utilities (dbutils). В следующем коде перечислены все доступные наборы данных Databricks.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"