Что такое Azure Databricks?

Статья
02/14/2025

Azure Databricks — это единая, открытая платформа аналитики для создания, развертывания, совместного использования и обслуживания корпоративных данных, аналитики и решений искусственного интеллекта в масштабе. Платформа аналитики данных Databricks интегрируется с облачным хранилищем и безопасностью в облачной учетной записи, а также управляет и развертывает облачную инфраструктуру от вашего имени.

Как работает платформа аналитики данных?

Azure Databricks использует генеративный ИИ вместе с лейкхаусом данных для понимания уникальной семантики ваших данных. Затем она автоматически оптимизирует производительность и управляет инфраструктурой в соответствии с потребностями бизнеса.

Обработка естественного языка учит язык вашего бизнеса, поэтому вы можете искать и обнаруживать данные, задавая вопрос в собственных словах. Помощь по естественному языку помогает писать код, устранять ошибки и находить ответы в документации.

Наконец, ваши приложения и данные и ИИ могут полагаться на надежное управление и безопасность. Вы можете интегрировать ТАКИЕ API, как OpenAI, без ущерба для конфиденциальности данных и управления IP-адресами.

Для чего используется Azure Databricks?

Azure Databricks предоставляет средства, которые помогают подключать источники данных к одной платформе для обработки, хранения, совместного использования, анализа, моделирования и монетизации наборов данных с помощью решений бизнес-аналитики для создания искусственного интеллекта.

Рабочая область Azure Databricks предоставляет единый интерфейс и средства для большинства задач данных, в том числе:

Планирование обработки данных и управление ими, в частности ETL
Создание панелей мониторинга и визуализаций
Управление безопасностью, управлением, высоким уровнем доступности и аварийным восстановлением
Обнаружение данных, заметка и исследование
Моделирование, отслеживание и обслуживание моделей машинного обучения
Решения для создания искусственного интеллекта

Управляемая интеграция с открытым исходным кодом

Databricks имеет сильную приверженность сообществу с открытым исходным кодом. Databricks управляет обновлениями интеграций с открытым исходным кодом в выпусках Databricks Runtime. Следующие технологии — проекты с открытым исходным кодом, изначально созданные сотрудниками Databricks.

Средства и программный доступ

Azure Databricks поддерживает ряд собственных средств, которые интегрируют и расширяют эти технологии, чтобы добавить оптимизированную производительность и простоту использования, например следующие:

Помимо пользовательского интерфейса рабочей области, вы можете взаимодействовать с Azure Databricks программными средствами:

REST API
Интерфейс командной строки (CLI)
Terraform

Как Azure Databricks работает с Azure?

Архитектура платформы Azure Databricks состоит из двух основных частей:

Инфраструктура, используемая Azure Databricks для развертывания, настройки и управления платформой и службами.
Инфраструктура, принадлежащая клиенту, совместно управляемая Azure Databricks и вашей компанией.

В отличие от многих корпоративных компаний, Azure Databricks не заставляет вас переносить данные в собственные системы хранения для использования платформы. Вместо этого вы настраиваете рабочую область Azure Databricks, настраивая безопасные интеграции между платформой Azure Databricks и облачной учетной записью, а затем Azure Databricks развертывает вычислительные кластеры с помощью облачных ресурсов в учетной записи для обработки и хранения данных в хранилище объектов и других интегрированных службах, которые вы контролируете.

Каталог Unity расширяет эту связь, позволяя управлять разрешениями для доступа к данным с помощью знакомого синтаксиса SQL из Azure Databricks.

Рабочие области Azure Databricks соответствуют требованиям к безопасности и сети некоторых крупнейших и наиболее защищенных компаний в мире. Azure Databricks упрощает работу новых пользователей на платформе. Он устраняет множество сложностей и забот, связанных с облачной инфраструктурой, не ограничивая настройки и контроль, необходимые опытным командам по работе с данными, операциями и безопасности.

Каковы распространенные варианты использования Azure Databricks?

Варианты использования на Azure Databricks так же разнообразны, как данные, обработанные на платформе, и множество разных ролей сотрудников, которые работают с данными как с основной частью своей работы. В следующих случаях использования описано, как пользователи в вашей организации могут использовать Azure Databricks для выполнения задач, необходимых для обработки, хранения и анализа данных, которые используют критически важные бизнес-функции и решения.

Создание корпоративного озера данных

Data lakehouse объединяет сильные стороны корпоративных хранилищ данных и озер данных для ускорения, упрощения и объединения корпоративных решений данных. Инженеры данных, специалисты по обработке и анализу данных, аналитики и производственные системы могут использовать озера данных в качестве одного источника истины, что позволяет своевременно получать доступ к согласованным данным и уменьшать сложности строительства, обслуживания и синхронизации многих распределенных систем данных. См. Что такое озеро данных?.

ETL и инжиниринг данных

Независимо от того, создаете ли вы панели мониторинга или работаете с приложениями искусственного интеллекта, проектирование данных обеспечивает основу для компаний, ориентированных на данные, обеспечивая доступность, очистку и хранение данных в моделях данных, которые позволяют эффективно обнаруживать и использовать их. Azure Databricks объединяет возможности Apache Spark с Delta Lake и набором собственных инструментов для обеспечения несравненного опыта ETL (извлечение, преобразование, загрузка). Вы можете использовать SQL, Python и Scala для создания логики ETL, а затем оркестрировать запланированное развертывание заданий с помощью нескольких щелчков мыши.

DLT упрощает ETL еще больше путем интеллектуального управления зависимостями между наборами данных и автоматического развертывания и масштабирования рабочей инфраструктуры для обеспечения своевременной и точной доставки данных в соответствии с вашими спецификациями.

Azure Databricks предоставляет ряд пользовательских средств приема данных, включая Auto Loader — эффективный и масштабируемый инструмент для пошаговой и идемпотентной загрузки данных из облачного хранилища объектов и озер данных в озеро данных.

Машинное обучение, ИИ и обработка и анализ данных

Машинное обучение Azure Databricks расширяет основные функциональные возможности платформы с помощью набора инструментов, адаптированных к потребностям специалистов по обработке и анализу данных и инженеров машинного обучения, включая MLflow и Databricks Runtime для Машинное обучение.

Крупные языковые модели и генерируемый ИИ

Databricks Runtime для машинного обучения включает библиотеки, такие как Hugging Face Transformers, которые позволяют интегрировать существующие предварительно обученные модели или другие библиотеки с открытым кодом в рабочий процесс. Интеграция Databricks MLflow упрощает работу с службой отслеживания MLflow вместе с конвейерами трансформера, моделями и компонентами обработки. Кроме того, вы можете интегрировать модели Или решения OpenAI от партнеров, таких как John Snow Labs в рабочих процессах Databricks .

С помощью Azure Databricks вы можете настроить модель LLM на ваших данных для выполнения конкретной задачи. Благодаря поддержке инструментов с открытым исходным кодом, таких как Hugging Face и DeepSpeed, вы можете эффективно использовать базовую LLM и начать обучение с собственными данными, чтобы повысить точность для вашей сферы и потока работ.

Кроме того, Azure Databricks предоставляет функции искусственного интеллекта, которые аналитики данных SQL могут использовать для доступа к моделям LLM, в том числе из OpenAI, непосредственно в своих конвейерах данных и рабочих процессах. См. применение ИИ к данным с помощью функций ИИ Azure Databricks.

Хранение данных, аналитика и бизнес-аналитика

Azure Databricks объединяет пользовательские интерфейсы с экономичными вычислительными ресурсами и бесконечно масштабируемым, доступным хранилищем, чтобы обеспечить мощную платформу для выполнения аналитических запросов. Администраторы настраивают масштабируемые вычислительные кластеры в качестве хранилищ SQL, позволяя конечным пользователям выполнять запросы, не беспокоясь о каких-либо сложностях работы в облаке. Пользователи SQL могут выполнять запросы к данным в lakehouse с помощью редактора SQL-запросов или в тетрадях. Записные книжки поддерживают Python, R и Scala в дополнение к SQL и позволяют пользователям внедрять те же визуализации , доступные на устаревших панелях мониторинга вместе со ссылками, изображениями и комментариями, написанными в markdown.

Каталог Unity предоставляет единую модель управления данными для озера данных. Администраторы облака настраивают и интегрируют разрешения на управление доступом для каталога Unity, а затем администраторы Azure Databricks могут управлять разрешениями для команд и отдельных лиц. Привилегии управляются списками управления доступом (ACL) с помощью пользовательских интерфейсов или синтаксиса SQL, что упрощает доступ администраторов баз данных к данным без необходимости масштабировать управление доступом к данным в облаке (IAM) и сети.

Каталог Unity упрощает выполнение безопасной аналитики в облаке и разделяет ответственность для ограничения необходимости в переобучении или повышении квалификации для администраторов и конечных пользователей платформы. См. статью Что такое каталог Unity?.

Платформа Lakehouse упрощает совместное использование данных в вашей организации, делая его таким же простым, как предоставление доступа к таблице или представлению для выполнения запросов. Для совместного использования за пределами защищенной среды каталог Unity предоставляет управляемую версию Delta Sharing.

DevOps, CI/CD и оркестрация задач

Жизненные циклы разработки для конвейеров ETL, моделей машинного обучения и панелей мониторинга аналитики представляют свои уникальные проблемы. Azure Databricks позволяет всем пользователям использовать один источник данных, что снижает дублирование усилий и не синхронизированные отчеты. Кроме того, предоставляя набор общих средств для управления версиями, автоматизации, планирования, развертывания кода и рабочих ресурсов, вы можете упростить затраты на мониторинг, оркестрацию и операции. Задания выполняются по расписанию: ноутбуки Azure Databricks, запросы SQL и другой произвольный код. папки Git позволяют синхронизировать проекты Azure Databricks с несколькими популярными провайдерами Git. Полный обзор инструментов см. в разделе Локальные средства разработки.

Аналитика в режиме реального времени и потоковой передачи

Azure Databricks использует структурированную потоковую передачу Apache Spark для работы с потоковыми данными и добавочными изменениями данных. Структурированная потоковая передача тесно интегрируется с Delta Lake, и эти технологии предоставляют основы для DLT и автозагрузчика. См. раздел Потоковая аналитика в Azure Databricks.

Поделиться через

Что такое Azure Databricks?

Как работает платформа аналитики данных?

Для чего используется Azure Databricks?

Управляемая интеграция с открытым исходным кодом

Средства и программный доступ

Как Azure Databricks работает с Azure?

Каковы распространенные варианты использования Azure Databricks?

Создание корпоративного озера данных

ETL и инжиниринг данных

Машинное обучение, ИИ и обработка и анализ данных

Крупные языковые модели и генерируемый ИИ

Хранение данных, аналитика и бизнес-аналитика

DevOps, CI/CD и оркестрация задач

Аналитика в режиме реального времени и потоковой передачи

Обратная связь

Дополнительные ресурсы

Поделиться через

Что такое Azure Databricks?

Как работает платформа аналитики данных?

Для чего используется Azure Databricks?

Управляемая интеграция с открытым исходным кодом

Средства и программный доступ

Как Azure Databricks работает с Azure?

Каковы распространенные варианты использования Azure Databricks?

Создание корпоративного озера данных

ETL и инжиниринг данных

Машинное обучение, ИИ и обработка и анализ данных

Крупные языковые модели и генерируемый ИИ

Хранение данных, аналитика и бизнес-аналитика

Управление данными и безопасный обмен данными

DevOps, CI/CD и оркестрация задач

Аналитика в режиме реального времени и потоковой передачи

Обратная связь

Дополнительные ресурсы