Качество данных для бессерверных и хранилища данных Microsoft Synapse
Azure Synapse Analytics — это служба корпоративной аналитики, которая ускоряет анализ в хранилищах данных и системах больших данных. Она объединяет лучшие технологии SQL, используемые в хранилище корпоративных данных, технологии Apache Spark для больших данных и azure Data Explorer для аналитики журналов и временных рядов.
Azure Synapse — это служба безграничной аналитики, которая объединяет корпоративные хранилища данных и аналитику больших данных. Это дает вам возможность запрашивать данные на ваших условиях, используя бессерверные или выделенные ресурсы в большом масштабе. Дополнительные сведения о Azure Synapse см. в документации по Fabric.
Пример рабочей области synapse с экземпляром выделенной Data Warehouse Synapse (DWH) Table EMPLOYEE и бессерверной базой данных (SQL_ON_DEMAND) с таблицей SynapseSalesDelta.
После сканирования ресурсы будут доступны в Microsoft Purview. Ниже приведен пример выделенного экземпляра "Таблица сотрудников" в Synapse Analytics.
аналитика Azure Synapse (Data Warehouse)
Настройка сканирования карты данных
Чтобы проверить Azure Synapse Analytics Dedicated (Data Warehouse), следуйте инструкциям в документации. Чтобы предоставить необходимые разрешения mi для выделенного экземпляра DWH, следуйте инструкциям в документации.
После сканирования ресурсы будут доступны в каталоге Microsoft Purview. Ниже приведен пример выделенного экземпляра "Таблица сотрудников" в Synapse Analytics.
Настройка подключения к выделенному хранилищу данных Synapse
На этом этапе у нас есть отсканированный ресурс, готовый к каталогизации и управлению. Свяжите отсканированный ресурс с продуктом данных в системе домена управления. На вкладке Качество данных добавьте новый Azure SQL подключение к базе данных: Получите имя базы данных, введенное вручную.
Выберите вкладку Управление доменом управления качеством >> данных, чтобы создать подключение.
Настройка подключения на странице подключения.
- Добавьте имя и описание подключения.
- Выберите тип источника Azure Synapse Analytics.
- Выберите Подписка Azure.
- Выберите Имя рабочей области.
- Выберите Выделенная конечная точка SQL.
- Выберите бессерверную конечную точку SQL.
- Выберите Тип конечной точки.
- Выберите База данных.
- Добавьте MSI в качестве учетных данных.
Проверьте подключение. После настройки подключения к источнику данных и его успешного тестирования можно перейти к настройке и запуску профилирования данных и проверки качества данных.
Если источник данных Synapse расположен за частной конечной точкой, необходимо включить управляемую виртуальную сеть. Следуйте инструкциям по настройке управляемой виртуальной сети.
Важно!
Администраторам по качеству данных требуется доступ только на чтение к выделенному хранилищу данных Synapse для настройки подключения к качеству данных. При настройке управляемой виртуальной сети вы не сможете проверить подключение.
Профилирование и проверка качества данных в выделенном хранилище данных Synapse
После успешной настройки подключения можно профилировать, создавать и применять правила, а также выполнять проверку DQ данных в хранилище Synapse. Следуйте пошаговому руководству, описанному в следующих документах:
Важно!
- Производительность запросов и даже их успешное выполнение зависят от конфигурации хранилища данных, которая имеется у клиентов для выделенных экземпляров базы данных.
- Соответствующие задания оценки DQ или любое другое задание DQ вызывает подключение к выделенному хранилище данных и может завершиться ошибкой, если экземпляр подготовлен или не соответствует ограничениям параллелизма, клиенты должны знать о конфигурации хранилища данных. Его параллелизм имеет очень жесткие ограничения для любого экземпляра во времени.
- Ограничения параллелизма могут привести к завершению задания. Ограничения dw (например, 1000 DW) обеспечивают возможности для выполнения запросов.
- Поддержка виртуальной сети доступна в предварительной версии с поддержкой общедоступного уровня.
Бессерверная аналитика Azure Synapse
Настройка сканирования карты данных
Чтобы проверить Azure Synapse Аналитика бессерверным способом, следуйте инструкциям в документации. Чтобы предоставить необходимые разрешения для выделенного экземпляра DWH, следуйте инструкциям в документации. После сканирования бессерверные ресурсы будут доступны в каталоге Microsoft Purview.
Настройка подключения к бессерверному synapse
На этом этапе у нас есть отсканированный ресурс, готовый к каталогизации и управлению. Свяжите отсканированный ресурс с продуктом данных в системе домена управления. В разделе Качество данных добавьте новый Azure SQL Подключение к базе данных: Получите имя базы данных, введенное вручную.
Выберите вкладкуУправление доменомуправления качеством>>данных, чтобы создать подключение.
Настройка подключения на странице подключения.
- Добавьте имя и описание подключения.
- Выберите тип источника Azure Synapse Analytics.
- Выберите Подписка Azure.
- Выберите Имя рабочей области.
- Выберите Выделенная конечная точка SQL.
- Выберите бессерверную конечную точку SQL.
- Выберите Тип конечной точки.
- Выберите База данных.
- Добавьте MSI в качестве учетных данных.
Проверьте подключение. После настройки подключения к источнику данных и его успешного тестирования можно перейти к настройке и запуску профилирования данных и проверки качества данных.
Если источник данных Synapse расположен за частной конечной точкой, необходимо включить управляемую виртуальную сеть. Следуйте инструкциям по настройке управляемой виртуальной сети.
Важно!
- Администраторам по качеству данных требуется доступ только на чтение к выделенному хранилищу данных Synapse для настройки подключения к качеству данных.
- В бессерверной настройке Synapse внешняя таблица указывает на разностные данные, хранящиеся в ADLS 2-го поколения.
- Поддержка виртуальной сети доступна в закрытой предварительной версии. Обратитесь в группу продаж Purview, чтобы разрешить список клиентов для закрытой предварительной версии.
- Соединитель Synapse обнаруживает и поддерживает только sql.azuresynapse.net. Если полное имя (FQN), созданное при проверке Mmap данных, содержит database.windows.net, подключение Synapse для проверки DQ завершится ошибкой.
Профилирование и проверка качества данных (DQ) на наличие данных в бессерверном synapse
После успешной настройки подключения можно профилировать, создавать и применять правила, а также выполнять проверку качества данных (DQ) данных в хранилище synapse. Следуйте пошаговому руководству, описанному в следующих документах:
Важно!
- Оценки DQ, профилирование запускаются в Spark в фоновом режиме, клиенты будут иметь несколько подключений, где каждый узел Spark будет иметь SPID подключения, поэтому DWH может столкнуться с текущими ограничениями запросов, если они используются или запланированы за пределами dw, что приводит к сбоям. Но для Azure Synapse бессерверной таблицы SQL — такие ограничения параллелизма не применяются. Это полностью зависит от оптимизации бессерверного разностного parquet, который клиенты имеют в экземпляре ADLS 2-го поколения. Можно считать, что подсистема тесно резонирует бессерверное хранилище Databricks и работает во внешних источниках Lakehouse, таких как таблицы формата DELTA.