Что такое Azure Databricks?
Azure Databricks — это единая, открытая платформа аналитики для создания, развертывания, совместного использования и обслуживания корпоративных данных, аналитики и решений искусственного интеллекта в масштабе. Платформа аналитики данных Databricks интегрируется с облачным хранилищем и безопасностью в облачной учетной записи, а также управляет и развертывает облачную инфраструктуру от вашего имени.
Как работает платформа аналитики данных?
Azure Databricks использует генеративный ИИ вместе с лейкхаусом данных для понимания уникальной семантики ваших данных. Затем она автоматически оптимизирует производительность и управляет инфраструктурой в соответствии с потребностями бизнеса.
Обработка естественного языка учит язык вашего бизнеса, поэтому вы можете искать и обнаруживать данные, задавая вопрос в собственных словах. Помощь по естественному языку помогает писать код, устранять ошибки и находить ответы в документации.
Наконец, ваши приложения и данные и ИИ могут полагаться на надежное управление и безопасность. Вы можете интегрировать ТАКИЕ API, как OpenAI, без ущерба для конфиденциальности данных и управления IP-адресами.
Для чего используется Azure Databricks?
Azure Databricks предоставляет средства, которые помогают подключать источники данных к одной платформе для обработки, хранения, совместного использования, анализа, моделирования и монетизации наборов данных с помощью решений бизнес-аналитики для создания искусственного интеллекта.
Рабочая область Azure Databricks предоставляет единый интерфейс и средства для большинства задач данных, в том числе:
- Планирование обработки данных и управление ими, в частности ETL
- Создание панелей мониторинга и визуализаций
- Управление безопасностью, управлением, высоким уровнем доступности и аварийным восстановлением
- Обнаружение данных, заметка и исследование
- Моделирование, отслеживание и обслуживание моделей машинного обучения
- Решения для создания искусственного интеллекта
Управляемая интеграция с открытым исходным кодом
Databricks имеет сильную приверженность сообществу с открытым исходным кодом. Databricks управляет обновлениями интеграций с открытым исходным кодом в выпусках Databricks Runtime. Следующие технологии — проекты с открытым исходным кодом, изначально созданные сотрудниками Databricks.
Средства и программный доступ
Azure Databricks поддерживает ряд собственных средств, которые интегрируют и расширяют эти технологии, чтобы добавить оптимизированную производительность и простоту использования, например следующие:
Помимо пользовательского интерфейса рабочей области, вы можете взаимодействовать с Azure Databricks программными средствами:
- REST API
- Интерфейс командной строки (CLI)
- Terraform
Как Azure Databricks работает с Azure?
Архитектура платформы Azure Databricks состоит из двух основных частей:
- Инфраструктура, используемая Azure Databricks для развертывания, настройки и управления платформой и службами.
- Инфраструктура, принадлежащая клиенту, совместно управляемая Azure Databricks и вашей компанией.
В отличие от многих корпоративных компаний, Azure Databricks не заставляет вас переносить данные в собственные системы хранения для использования платформы. Вместо этого вы настраиваете рабочую область Azure Databricks, настраивая безопасные интеграции между платформой Azure Databricks и облачной учетной записью, а затем Azure Databricks развертывает вычислительные кластеры с помощью облачных ресурсов в учетной записи для обработки и хранения данных в хранилище объектов и других интегрированных службах, которые вы контролируете.
Каталог Unity расширяет эту связь, позволяя управлять разрешениями для доступа к данным с помощью знакомого синтаксиса SQL из Azure Databricks.
Рабочие области Azure Databricks соответствуют требованиям к безопасности и сети некоторых крупнейших и наиболее защищенных компаний в мире. Azure Databricks упрощает работу новых пользователей на платформе. Он устраняет множество сложностей и забот, связанных с облачной инфраструктурой, не ограничивая настройки и контроль, необходимые опытным командам по работе с данными, операциями и безопасности.
Каковы распространенные варианты использования Azure Databricks?
Варианты использования на Azure Databricks так же разнообразны, как данные, обработанные на платформе, и множество разных ролей сотрудников, которые работают с данными как с основной частью своей работы. В следующих случаях использования описано, как пользователи в вашей организации могут использовать Azure Databricks для выполнения задач, необходимых для обработки, хранения и анализа данных, которые используют критически важные бизнес-функции и решения.
Создание корпоративного озера данных
Data lakehouse объединяет сильные стороны корпоративных хранилищ данных и озер данных для ускорения, упрощения и объединения корпоративных решений данных. Инженеры данных, специалисты по обработке и анализу данных, аналитики и производственные системы могут использовать озера данных в качестве одного источника истины, что позволяет своевременно получать доступ к согласованным данным и уменьшать сложности строительства, обслуживания и синхронизации многих распределенных систем данных. См. Что такое озеро данных?.
ETL и инжиниринг данных
Независимо от того, создаете ли вы панели мониторинга или работаете с приложениями искусственного интеллекта, проектирование данных обеспечивает основу для компаний, ориентированных на данные, обеспечивая доступность, очистку и хранение данных в моделях данных, которые позволяют эффективно обнаруживать и использовать их. Azure Databricks объединяет возможности Apache Spark с Delta Lake и набором собственных инструментов для обеспечения несравненного опыта ETL (извлечение, преобразование, загрузка). Вы можете использовать SQL, Python и Scala для создания логики ETL, а затем оркестрировать запланированное развертывание заданий с помощью нескольких щелчков мыши.
DLT упрощает ETL еще больше путем интеллектуального управления зависимостями между наборами данных и автоматического развертывания и масштабирования рабочей инфраструктуры для обеспечения своевременной и точной доставки данных в соответствии с вашими спецификациями.
Azure Databricks предоставляет ряд пользовательских средств приема данных, включая Auto Loader — эффективный и масштабируемый инструмент для пошаговой и идемпотентной загрузки данных из облачного хранилища объектов и озер данных в озеро данных.
Машинное обучение, ИИ и обработка и анализ данных
Машинное обучение Azure Databricks расширяет основные функциональные возможности платформы с помощью набора инструментов, адаптированных к потребностям специалистов по обработке и анализу данных и инженеров машинного обучения, включая MLflow и Databricks Runtime для Машинное обучение.
Крупные языковые модели и генерируемый ИИ
Databricks Runtime для машинного обучения включает библиотеки, такие как Hugging Face Transformers, которые позволяют интегрировать существующие предварительно обученные модели или другие библиотеки с открытым кодом в рабочий процесс. Интеграция Databricks MLflow упрощает работу с службой отслеживания MLflow вместе с конвейерами трансформера, моделями и компонентами обработки. Кроме того, вы можете интегрировать модели Или решения OpenAI от партнеров, таких как John Snow Labs в рабочих процессах Databricks .
С помощью Azure Databricks вы можете настроить модель LLM на ваших данных для выполнения конкретной задачи. Благодаря поддержке инструментов с открытым исходным кодом, таких как Hugging Face и DeepSpeed, вы можете эффективно использовать базовую LLM и начать обучение с собственными данными, чтобы повысить точность для вашей сферы и потока работ.
Кроме того, Azure Databricks предоставляет функции искусственного интеллекта, которые аналитики данных SQL могут использовать для доступа к моделям LLM, в том числе из OpenAI, непосредственно в своих конвейерах данных и рабочих процессах. См. функции ИИ в Azure Databricks.
Хранение данных, аналитика и бизнес-аналитика
Azure Databricks объединяет пользовательские интерфейсы с экономичными вычислительными ресурсами и бесконечно масштабируемым, доступным хранилищем, чтобы обеспечить мощную платформу для выполнения аналитических запросов. Администраторы настраивают масштабируемые вычислительные кластеры в качестве хранилищ SQL, позволяя конечным пользователям выполнять запросы, не беспокоясь о каких-либо сложностях работы в облаке. Пользователи SQL могут выполнять запросы к данным в lakehouse с помощью редактора SQL-запросов или в тетрадях. Записные книжки поддерживают Python, R и Scala в дополнение к SQL и позволяют пользователям внедрять те же визуализации , доступные на устаревших панелях мониторинга вместе со ссылками, изображениями и комментариями, написанными в markdown.
Управление данными и безопасный обмен данными
Каталог Unity предоставляет единую модель управления данными для озера данных. Администраторы облака настраивают и интегрируют разрешения на управление доступом для каталога Unity, а затем администраторы Azure Databricks могут управлять разрешениями для команд и отдельных лиц. Привилегии управляются списками управления доступом (ACL) с помощью пользовательских интерфейсов или синтаксиса SQL, что упрощает доступ администраторов баз данных к данным без необходимости масштабировать управление доступом к данным в облаке (IAM) и сети.
Каталог Unity упрощает выполнение безопасной аналитики в облаке и разделяет ответственность для ограничения необходимости в переобучении или повышении квалификации для администраторов и конечных пользователей платформы. См. статью Что такое каталог Unity?.
Платформа Lakehouse упрощает совместное использование данных в вашей организации, делая его таким же простым, как предоставление доступа к таблице или представлению для выполнения запросов. Для совместного использования за пределами защищенной среды каталог Unity предоставляет управляемую версию Delta Sharing.
DevOps, CI/CD и оркестрация задач
Жизненные циклы разработки для конвейеров ETL, моделей машинного обучения и панелей мониторинга аналитики представляют свои уникальные проблемы. Azure Databricks позволяет всем пользователям использовать один источник данных, что снижает дублирование усилий и не синхронизированные отчеты. Кроме того, предоставляя набор общих средств для управления версиями, автоматизации, планирования, развертывания кода и рабочих ресурсов, вы можете упростить затраты на мониторинг, оркестрацию и операции. Задания выполняются по расписанию: ноутбуки Azure Databricks, запросы SQL и другой произвольный код. папки Git позволяют синхронизировать проекты Azure Databricks с несколькими популярными провайдерами Git. Полный обзор инструментов см. в разделе Локальные средства разработки.
Аналитика в режиме реального времени и потоковой передачи
Azure Databricks использует структурированную потоковую передачу Apache Spark для работы с потоковыми данными и добавочными изменениями данных. Структурированная потоковая передача тесно интегрируется с Delta Lake, и эти технологии предоставляют основы для DLT и автозагрузчика. См. раздел Потоковая аналитика в Azure Databricks.