Рекомендации по взаимодействию и удобства использования
В этой статье рассматриваются рекомендации по взаимодействию и удобства использования, упорядоченные по принципам архитектуры, перечисленным в следующих разделах.
1. Определение стандартов интеграции
Использование стандартных и повторно используемых шаблонов интеграции для внешней интеграции
Стандарты интеграции важны, поскольку они предоставляют рекомендации по представлению, обмену и обработке данных в разных системах и приложениях. Эти стандарты помогают обеспечить совместимость данных, высокое качество и взаимодействие между различными источниками и назначениями.
Databricks Lakehouse поставляется с комплексным REST API , который позволяет программно управлять почти всеми аспектами платформы. Сервер REST API выполняется в плоскости управления и предоставляет единую конечную точку для управления платформой Azure Databricks.
REST API обеспечивает самый низкий уровень интеграции, который всегда можно использовать. Однако предпочтительным способом интеграции с Azure Databricks является использование абстракций более высокого уровня, таких как пакеты SDK Databricks или средства CLI. Средства CLI основаны на оболочке и позволяют легко интегрировать платформу Databricks в рабочие процессы CI/CD и MLOps.
Использование оптимизированных соединителей для приема источников данных в lakehouse
Azure Databricks предлагает различные способы приема данных в Delta Lake.
Databricks предоставляет оптимизированные соединители для потоковых служб обмена сообщениями, таких как Apache Kafka для приема данных практически в реальном времени.
Databricks обеспечивает встроенную интеграцию со многими облачными системами данных и расширяемой поддержкой JDBC для подключения к другим системам данных.
Одним из вариантов интеграции источников данных без ETL является Федерация Lakehouse. Федерация Lakehouse — это платформа федерации запросов для Databricks. Федерация запросов терминов описывает коллекцию функций, которые позволяют пользователям и системам выполнять запросы к нескольким источникам данных без необходимости переносить все данные в единую систему. Databricks использует каталог Unity для управления федерацией запросов. Средства управления данными и происхождения данных каталога Unity гарантируют, что доступ к данным управляется и проверяется для всех федеративных запросов, выполняемых пользователями в рабочих областях Databricks.
Примечание.
Любой запрос на платформе Databricks, использующий источник федерации Lakehouse, отправляется в этот источник. Убедитесь, что исходная система может обрабатывать нагрузку. Кроме того, помните, что если исходная система развернута в другом облачном регионе или облаке, для каждого запроса требуется стоимость исходящего трафика.
Рассмотрите возможность разгрузки доступа к базовым базам данных с помощью материализованных представлений , чтобы избежать высокой и параллельной нагрузки на операционные базы данных и сократить затраты на исходящий трафик.
Использование сертифицированных партнерских средств
Организации имеют разные потребности, и ни одно средство не может удовлетворить их всем. Partner Connect позволяет изучить и легко интегрироваться с нашими партнерами, которые охватывают все аспекты lakehouse: прием данных, подготовка и преобразование, бизнес-аналитика и визуализация, машинное обучение, качество данных и многое другое. Partner Connect позволяет создавать пробные учетные записи с выбранными партнерами по технологиям Databricks и подключать рабочую область Azure Databricks к партнерским решениям из пользовательского интерфейса Azure Databricks. Попробуйте использовать партнерские решения с помощью данных в Databricks lakehouse, а затем принять решения, которые лучше всего соответствуют вашим бизнес-потребностям.
Сокращение сложности конвейеров проектирования данных
Инвестиции в снижение сложности конвейеров проектирования данных позволяют масштабируемости, гибкости и гибкости быстрее расширять и внедрять инновации. Упрощенные конвейеры упрощают управление и адаптацию всех операционных потребностей конвейера проектирования данных: оркестрация задач, управление кластерами, мониторинг, качество данных и обработка ошибок.
Разностные динамические таблицы — это платформа для создания надежных, обслуживаемых и тестируемых конвейеров обработки данных. Вы определяете преобразования, которые необходимо выполнить для данных, и Delta Live Tables обрабатывает оркестрацию задач, управление кластерами, мониторинг, качество данных и обработку ошибок. См. раздел "Что такое разностные динамические таблицы?".
Автозагрузчик постепенно и эффективно обрабатывает новые файлы данных по мере их поступления в облачное хранилище. Он может надежно считывать файлы данных из облачного хранилища. Важным аспектом как разностных динамических таблиц, так и автозагрузчика является их декларативный характер: без них необходимо создавать сложные конвейеры, которые интегрируют различные облачные службы, такие как служба уведомлений и служба очередей, для надежного чтения облачных файлов на основе событий и надежного объединения источников пакетной и потоковой передачи.
Автозагрузчик и разностные динамические таблицы снижают системные зависимости и сложность и значительно повышают взаимодействие с облачным хранилищем и между различными парадигмами, такими как пакетная передача и потоковая передача. В качестве побочных эффектов простота конвейеров повышает удобство использования платформы.
Использование инфраструктуры в качестве кода (IaC) для развертываний и обслуживания
HashiCorp Terraform — это популярное средство с открытым кодом, позволяющее создавать безопасную и предсказуемую облачную инфраструктуру в средах различных поставщиков облачных служб. См. статью " Операционное превосходство: использование инфраструктуры в качестве кода для развертываний и обслуживания"
2. Использование открытых интерфейсов и открытых форматов данных
Использование открытых форматов данных
Использование открытого формата данных означает отсутствие ограничений на его использование. Это важно, так как это устраняет барьеры для доступа к данным и использования данных для анализа и вождения бизнес-аналитики. Открытые форматы, такие как встроенные в Apache Spark, также добавляют функции, повышающие производительность с поддержкой транзакций ACID, унифицированной потоковой передачи и пакетной обработки данных. Кроме того, открытый код управляется сообществом, что означает, что сообщество постоянно работает над улучшением существующих функций и добавлением новых функций, что упрощает для пользователей получать больше всего из своих проектов.
Основной формат данных, используемый в платформе аналитики данных, — Delta Lake, полностью открытый формат данных, который предлагает множество преимуществ, от функций надежности до улучшений производительности, см. в статье "Использование формата данных, поддерживающего транзакции ACID и рекомендации по повышению производительности".
Из-за его открытой природы Delta Lake поставляется с большой экосистемой. Десятки сторонних средств и приложений поддерживают Delta Lake.
Для дальнейшего повышения взаимодействия универсальный формат Delta (UniForm) позволяет читать таблицы Delta с клиентами средства чтения Iceberg. UniForm автоматически создает метаданные Айсберга асинхронно, не перезаписывая данные, чтобы клиенты Айсберга могли читать таблицы Delta, как если бы они были таблицами Iceberg. Одна копия файлов данных служит обоим форматам.
Включение безопасного доступа к данным и ИИ для всех ресурсов данных
Предоставление общего доступа к данным и ресурсам ИИ может привести к улучшению совместной работы и принятия решений. Однако при совместном использовании данных важно поддерживать контроль, защищать данные и обеспечивать соответствие соответствующим законам и нормативным требованиям.
Delta Sharing — это открытый протокол, разработанный Databricks для безопасного обмена данными с другими организациями независимо от используемых вычислительных платформ. Если вы хотите поделиться данными с пользователями за пределами рабочей области Databricks независимо от того, используют ли они Databricks, вы можете использовать разностный общий доступ для безопасного совместного использования данных. Если вы хотите поделиться данными с пользователями, у которых есть рабочая область Databricks, включенная для каталога Unity, можно использовать Databricks to Databricks Delta Sharing.
В обоих случаях можно совместно использовать таблицы, представления, тома, модели и записные книжки.
Используйте открытый протокол Delta Sharing для совместного использования данных с партнерами.
Delta Sharing предоставляет открытое решение для безопасного совместного использования динамических данных из lakehouse на любую вычислительную платформу. Получатели не должны находиться на платформе Databricks, в одном облаке или в любом облаке. Delta Sharing изначально интегрируется с каталогом Unity, позволяя организациям централизованно управлять общими данными и ресурсами ИИ в организации и уверенно обмениваться данными и ресурсами ИИ, которые соответствуют требованиям безопасности и соответствия требованиям.
Поставщики данных могут совместно использовать динамические данные и модели ИИ, из которых они хранятся на платформе данных без репликации или перемещения в другую систему. Этот подход снижает операционные затраты на доступ к данным и ИИ, так как поставщики данных не должны реплицировать данные несколько раз в облаках, географических регионах или платформах данных для каждого из своих потребителей данных.
Используйте databricks to Databricks Delta Sharing между пользователями Databricks.
Если вы хотите предоставить доступ к данным пользователям, у которых нет доступа к хранилищу метаданных каталога Unity, можно использовать Databricks to Databricks Delta Sharing, если получатели имеют доступ к рабочей области Databricks, которая включена для каталога Unity. Совместное использование Databricks в Databricks позволяет обмениваться данными с пользователями в других учетных записях Databricks, в облачных регионах и между поставщиками облачных служб. Это отличный способ безопасного совместного использования данных в разных хранилищах метаданных каталога Unity в собственной учетной записи Databricks.
Использование открытых стандартов для управления жизненным циклом машинного обучения
Как и использование формата данных открытый код, использование открытых стандартов для рабочих процессов искусственного интеллекта имеет аналогичные преимущества с точки зрения гибкости, гибкости, стоимости и безопасности.
MLflow — это платформа открытый код для управления жизненным циклом машинного обучения и искусственного интеллекта. Databricks предлагает полностью управляемую и размещенную версию MLflow, интегрированную с корпоративными функциями безопасности, высокой доступностью и другими функциями рабочей области Databricks, такими как эксперимент и отслеживание изменений записной книжки.
Основными компонентами являются отслеживание экспериментов для автоматического регистрации и отслеживания моделей машинного обучения и глубокого обучения, моделей в качестве стандартного формата для упаковки моделей машинного обучения, реестра моделей, интегрированного с каталогом Unity, и масштабируемой модели корпоративного уровня.
3. Упрощение новой реализации варианта использования
Предоставление самообслуживания на платформе
Существует несколько преимуществ платформы, в которой пользователи имеют автономию для использования инструментов и возможностей в зависимости от их потребностей. Инвестиции в создание платформы самообслуживания упрощают масштабирование для обслуживания большего объема пользователей и повышения эффективности, минимизируя необходимость участия человека в подготовке пользователей, устранении проблем и обработке запросов на доступ.
Платформа аналитики данных Databricks имеет все возможности, необходимые для самообслуживания. Хотя существует обязательный шаг утверждения, рекомендуется полностью автоматизировать настройку, когда подразделение запрашивает доступ к lakehouse. Автоматическая подготовка новой среды, синхронизация пользователей и использование единого входа для проверки подлинности, предоставление управления доступом к общим данным и отдельным хранилищам объектов для собственных данных и т. д. Вместе с центральным каталогом данных семантической согласованности и готовых к бизнесу наборов данных новые бизнес-единицы могут быстро и безопасно получать доступ к возможностям lakehouse и нужным данным.
Использование бессерверных вычислений
Для бессерверных вычислений на платформе Azure Databricks уровень вычислений выполняется в учетной записи Клиента Databricks. Администраторы облака больше не должны управлять сложными облачными средами, требующими корректировки квот, создания и обслуживания сетевых ресурсов и подключения к источникам выставления счетов. Пользователи получают преимущества от задержки запуска кластера почти нулевой и улучшенной параллелизма запросов.
Использование стандартных шаблонов вычислений
Предопределенные шаблоны помогают управлять тем, как вычислительные ресурсы можно использовать или создавать пользователями: ограничить создание пользовательского кластера определенными параметрами или определенным числом, упростить пользовательский интерфейс или управлять затратами, ограничив максимальные затраты на кластер.
Платформа аналитики данных выполняет это двумя способами:
- Предоставьте общие кластеры в качестве непосредственных сред для пользователей. В этих кластерах используйте автоматическое масштабирование до очень минимального количества узлов, чтобы избежать больших затрат на простой.
- Для стандартизированной среды используйте политики вычислений для ограничения размера кластера или компонентов или определения кластеров размера футболки (S, M, L).
Использование возможностей искусственного интеллекта для повышения производительности
Помимо повышения производительности средства искусственного интеллекта также могут помочь определить шаблоны ошибок и предоставить дополнительные аналитические сведения на основе входных данных. В целом, включение этих средств в процесс разработки может значительно снизить ошибки и упростить принятие решений , что приводит к более быстрому выпуску.
Databricks IQ, подсистема знаний, на основе искусственного интеллекта, находится в центре платформы аналитики данных. Он использует метаданные каталога Unity для понимания таблиц, столбцов, описаний и популярных ресурсов данных в организации для предоставления персонализированных ответов. Она обеспечивает несколько функций, которые повышают производительность при работе с платформой, например:
- Помощник по Databricks позволяет запрашивать данные через диалоговый интерфейс, что делает вас более продуктивным в Databricks. Описать задачу на английском языке и позволить мастеру создавать запросы SQL, объяснять сложный код и автоматически устранять ошибки.
- Примечания , созданные ИИ для любого столбца таблицы или таблицы, управляемого каталогом Unity, ускоряют процесс управления метаданными. Однако модели искусственного интеллекта не всегда являются точными, а перед сохранением необходимо проверить комментарии. Databricks настоятельно рекомендует человеческий обзор созданных ИИ комментариев, чтобы проверить наличие неточностей.
4. Обеспечение согласованности и удобства использования данных
Предложение повторно используемых данных как продуктов, которые бизнес может доверять
Организациям, стремящимся стать искусственным интеллектом и данными, часто необходимо предоставить своим внутренним командам высококачественные надежные данные. Одним из подходов к приоритету качества и удобства использования является применение мышления продукта к опубликованным ресурсам данных путем создания четко определенных "продуктов данных". Создание таких продуктов данных гарантирует, что организации устанавливают стандарты и надежную основу бизнес-истины для своих данных и целей искусственного интеллекта. Продукты данных в конечном счете обеспечивают ценность, когда пользователи и приложения имеют правильные данные в нужное время с правильным качеством в правильном формате. Хотя это значение традиционно было реализовано в виде более эффективных операций с помощью более низких затрат, более быстрых процессов и снижения риска, современные продукты данных также могут проложить путь к новым предложениям и возможностям совместного использования данных в отрасли или партнерской экосистеме организации.
См. запись блога о создании высококачественных и надежных продуктов данных с помощью Databricks.
Публикация продуктов данных семантической согласованности в организации
Озеро данных обычно содержит данные из нескольких исходных систем. Эти системы могут иметь разные имена для одной концепции (например, customer vs . account) или использовать один и тот же идентификатор для ссылки на различные понятия. Таким образом, чтобы бизнес-пользователи могли легко объединять эти наборы данных в понятном виде, данные должны быть однородными для всех источников, чтобы быть семантические. Кроме того, для того чтобы некоторые данные были ценными для анализа, внутренние бизнес-правила, такие как распознавание доходов, должны применяться правильно. Чтобы все пользователи использовали правильно интерпретированные данные, наборы данных с этими правилами должны быть доступны и опубликованы в каталоге Unity. Доступ к исходным данным должен быть ограничен командами, которые понимают правильное использование.
Предоставление центрального каталога для обнаружения и происхождения
Центральный каталог для обнаружения и происхождения данных помогает потребителям данных получать доступ к данным из нескольких источников по всей организации, что позволяет сократить операционные издержки для центральной группы управления.
В каталоге Unity администраторы и управляющие данными управляют пользователями и их доступом к данным централизованно во всех рабочих областях в учетной записи Azure Databricks. Пользователи в разных рабочих областях могут совместно использовать одни и те же данные, и в зависимости от привилегий пользователей, предоставляемых в каталоге Unity, могут совместно получать доступ к данным.
Для обнаружения данных каталог Unity поддерживает пользователей с такими возможностями, как:
- Обозреватель каталогов — это основной пользовательский интерфейс для многих функций каталога Unity. Обозреватель каталогов можно использовать для просмотра сведений о схеме, предварительного просмотра примеров данных и просмотра сведений о таблице и свойствах. Администраторы могут просматривать и изменять владельцев, а также администраторов и владельцев объектов данных могут предоставлять и отзывать разрешения. Вы также можете использовать databricks Search, что позволяет пользователям легко и легко находить ресурсы данных (например, таблицы, столбцы, представления, панели мониторинга, модели и т. д.). Пользователи отображают результаты, относящиеся к их поисковым запросам и к которым у них есть доступ.
- Происхождение данных во всех запросах выполняется в кластере Azure Databricks или хранилище SQL. Происхождение поддерживается для всех языков и записывается до уровня столбца. Данные происхождения включают записные книжки, задания и панели мониторинга, связанные с запросом. Происхождение можно визуализировать в обозревателе каталогов практически в реальном времени и получить с помощью REST API Azure Databricks.
Чтобы позволить предприятиям предоставлять пользователям целостное представление обо всех данных на всех платформах данных, каталог Unity обеспечивает интеграцию с корпоративными каталогами данных (иногда называемым каталогом каталогов).