Источники данных, которые подключаются к схеме данных

Статья
03/04/2025

В этой статье перечислены поддерживаемые источники данных, типы файлов и основные понятия сканирования в Схема данных Microsoft Purview.

Перечисление источников данных по типу

В приведенных ниже таблицах показаны все источники данных с техническими метаданными, доступными в Схема данных Microsoft Purview, а также другие поддерживаемые возможности. Выберите имя источника данных в столбце Источник данных , чтобы получить инструкции по подключению этого источника к схеме данных.

Microsoft Azure
База данных
Файл
Службы и приложения

Azure

Ресурсы Azure доступны только в том же клиенте, что и учетная запись Microsoft Purview, если на странице каждого источника данных не указано иное.

Источник данных	Может автоматически применять классификации	Может применять метки конфиденциальности к ресурсам карты данных	Может применять политики	Происхождение данных	Доступные в режиме реального времени
Выберите ссылку для инструкций по подключению и проверке.	Выберите Да для инструкций по проверке. Узнайте, как классификации применяются во время сканирования.	Сведения о метках конфиденциальности (предварительная версия).	Выберите Да , чтобы просмотреть поддерживаемые политики; например, владелец данных, самостоятельный доступ или защита.	Выберите Да , чтобы получить дополнительные сведения.	Сведения о динамическом представлении.
Несколько источников	Да	Зависимость от источника	Да	Нет	Ограниченная функциональность
Хранилище BLOB-объектов Azure	Да	Да	Да (предварительная версия)	Ограниченный*	Да
Azure Cosmos DB (API для NoSQL)	Да	Нет	Нет	Нет*	Нет
Azure Data Explorer	Да	Нет	Нет	Нет*	Нет
Фабрика данных Azure	Нет	Нет	Нет	Да	Нет
Azure Data Lake Storage 2-го поколения	Да	Да	Да (предварительная версия)	Ограниченный*	Да
Azure Data Share	Нет	Нет	Нет	Да	Нет
База данных Azure для MySQL	Да	Нет	Нет	Нет*	Нет
База данных Azure для PostgreSQL	Да	Нет	Нет	Нет*	Нет
Хранилище метаданных Hive в Azure Databricks	Нет	Нет	Нет	Да	Нет
Каталог Unity Azure Databricks	Да	Нет	Нет	Нет	Нет
Выделенный пул SQL Azure (ранее — SQL DW)	Да	Нет	Нет	Нет*	Нет
Файлы Azure	Да	Да	Нет	Ограниченный*	Нет
Машинное обучение Azure	Нет	Нет	Нет	Да	Нет
База данных SQL Azure	Да	Да	Да	Да (предварительная версия)	Да
Управляемый экземпляр SQL Azure	Да	Нет	Да	Нет*	Нет
аналитика Azure Synapse (рабочая область)	Да	Нет	Нет	Да — конвейеры Synapse	Нет

* Помимо происхождения данных в ресурсах в источнике данных, также поддерживается происхождение, если набор данных используется в качестве источника или приемника в фабрике данных или конвейере Synapse.

База данных

Источник данных	Может автоматически применять классификации	Может применять метки конфиденциальности к ресурсам карты данных	Может применять политики	Происхождение данных	Доступные в режиме реального времени
Выберите ссылку для инструкций по подключению и проверке.	Выберите Да для инструкций по проверке. Узнайте, как классификации применяются во время сканирования.	Сведения о метках конфиденциальности (предварительная версия).	Выберите Да , чтобы просмотреть поддерживаемые политики; например, владелец данных, самостоятельный доступ или защита.	Выберите Да , чтобы получить дополнительные сведения.	Сведения о динамическом представлении.
Amazon RDS	Да	Нет	Нет	Нет	Нет
Amazon Redshift	Нет	Нет	Нет	Нет	Нет
Cassandra	Нет	Нет	Нет	Да	Нет
Db2	Нет	Нет	Нет	Да	Нет
Google BigQuery	Нет	Нет	Нет	Да	Нет
База данных хранилища метаданных Hive	Нет	Нет	Нет	Да*	Нет
MongoDB	Нет	Нет	Нет	Нет	Нет
MySQL	Нет	Нет	Нет	Да	Нет
Oracle	Да	Нет	Нет	Да*	Нет
PostgreSQL	Нет	Нет	Нет	Да	Нет
Хранилище SAP для бизнеса	Нет	Нет	Нет	Нет	Нет
SAP HANA	Нет	Нет	Нет	Нет	Нет
Снежинка	Да	Нет	Нет	Да	Нет
Сервер SQL Server.	Да	Нет	Нет	Нет*	Нет
SQL Server в Azure-Arc	Да	Нет	Да	Нет*	Нет
Teradata	Да	Нет	Нет	Да*	Нет

File

Источник данных	Может автоматически применять классификации	Может применять метки конфиденциальности к ресурсам карты данных	Может применять политики	Происхождение данных	Доступные в режиме реального времени
Выберите ссылку для инструкций по подключению и проверке.	Выберите Да для инструкций по проверке. Узнайте, как классификации применяются во время сканирования.	Сведения о метках конфиденциальности (предварительная версия).	Выберите Да , чтобы просмотреть поддерживаемые политики; например, владелец данных, самостоятельный доступ или защита.	Выберите Да , чтобы получить дополнительные сведения.	Сведения о динамическом представлении.
Amazon S3	Да	Нет	Нет	Ограниченный*	Нет
Распределенная файловая система Hadoop (HDFS)	Да	Нет	Нет	Нет	Нет

Службы и приложения

Источник данных	Может автоматически применять классификации	Может применять метки конфиденциальности к ресурсам карты данных	Может применять политики	Происхождение данных	Доступные в режиме реального времени
Выберите ссылку для инструкций по подключению и проверке.	Выберите Да для инструкций по проверке. Узнайте, как классификации применяются во время сканирования.	Сведения о метках конфиденциальности (предварительная версия).	Выберите Да , чтобы просмотреть поддерживаемые политики; например, владелец данных, самостоятельный доступ или защита.	Выберите Да , чтобы получить дополнительные сведения.	Сведения о динамическом представлении.
Воздушный поток	Нет	Нет	Нет	Да	Нет
Dataverse	Да	Нет	Нет	Нет	Нет
Erwin	Нет	Нет	Нет	Да	Нет
Ткань	Нет	Нет	Нет	Да	Да
Looker	Нет	Нет	Нет	Да	Нет
Power BI	Нет	Нет	Нет	Да	Да**
Qlik Sense	Нет	Нет	Нет	Нет	Нет
Salesforce	Нет	Нет	Нет	Нет	Нет
SAP ECC	Нет	Нет	Нет	Да*	Нет
SAP S/4HANA	Нет	Нет	Нет	Да*	Нет
Tableau	Нет	Нет	Нет	Нет	Нет

** Элементы Power BI в клиенте Fabric доступны в динамическом режиме.

Примечание.

В настоящее время Схема данных Microsoft Purview не может сканировать ресурс с /именем , \или # . Чтобы область проверку и избежать сканирования ресурсов с этими символами в имени ресурса, используйте пример в разделе Регистрация и проверка базы данных Azure SQL.

Важно!

Если вы планируете использовать локальную среду выполнения интеграции, сканирование некоторых источников данных требует дополнительной настройки на локальном компьютере среды выполнения интеграции. Например, JDK, Распространяемый компонент Visual C++ или конкретный драйвер. Сведения о необходимых компонентах см. в каждой статье. Все требования перечислены в разделе Предварительные требования .

Регионы сканера карты данных

Ниже приведен список всех регионов источника данных Azure (центра обработки данных), в которых работает сканер Схема данных Microsoft Purview. Если источник данных Azure находится в регионе за пределами этого списка, средство проверки будет выполняться в регионе экземпляра Microsoft Purview.

Восток Австралии
Юго-восток Австралии
Южная Бразилия
Центральная Канада
Восточная Канада
Центральная Индия
Северный Китай 3
Восточная Азия
Восточная часть США
Восточная часть США 2
Центральная Франция
Центрально-Западная Германия
Восточная Япония
Центральная Корея
Центрально-северная часть США
Северная Европа
Центральный Катар
Северная часть Южной Африки
Центрально-южная часть США
Юго-Восточная Азия
Северная Швейцария
Север ОАЭ
Южная часть Соединенного Королевства
USGov Вирджиния
Центрально-западная часть США
Западная Европа
Западная часть США
Западная часть США 2
Западная часть США 3

Типы файлов, поддерживаемые для сканирования

Перечисленные ниже типы файлов поддерживаются для сканирования, извлечения схемы и классификации, если применимо. Кроме того, карта данных поддерживает пользовательские расширения файлов и настраиваемые средства синтаксического анализа.

Форматы структурированных файлов, поддерживаемые расширением, включают сканирование, извлечение схемы, а также классификацию на уровне активов и столбцов:

AVRO
CSV
GZIP
JSON
ОРК
ПАРКЕТ
PSV
SSV
TSV
TXT
XML

Форматы файлов документов, поддерживаемые расширением, включают сканирование и классификацию на уровне ресурсов:

ДОКТОР
DOCM
DOCX
ТОЧКА
ODP
ODS
ODT
PDF
ГОРШОК
PPS
PPSX
PPT
PPTM
PPTX
XLC
XLS
XLSB
XLSM
XLSX
XLT

Примечание.

Известные ограничения:

Сканер Схема данных Microsoft Purview поддерживает извлечение схемы только для перечисленных выше структурированных типов файлов.
Для типов файлов AVRO, ORC и PARQUET сканер не поддерживает извлечение схемы для файлов, содержащих сложные типы данных (например, MAP, LIST, STRUCT).
Сканер поддерживает сканирование сжатых типов PARQUET для извлечения и классификации схемы.
Для типов файлов GZIP GZIP должен быть сопоставлен с одним CSV-файлом внутри. На файлы Gzip распространяются системные и пользовательские правила классификации. В настоящее время мы не поддерживаем сканирование GZIP-файла, сопоставленного с несколькими файлами внутри или с файлами любого типа, кроме CSV.
Для файлов с разделителями (CSV, PSV, SSV, TSV, TXT):
- Файлы с разделителями только с 1 столбцом не могут быть определены как CSV-файлы и не будут иметь схему.
- Мы не поддерживаем обнаружение типов данных. Тип данных будет указан как строка для всех столбцов.
- В качестве разделителей поддерживаются только запятая(','), точка(';') с запятой, вертикальная черта('|') и tab('\t').
- Файлы с разделителями с менее чем тремя строками не могут быть определены как CSV-файлы, если они используют настраиваемый разделитель. Например, файлы с разделителем ~ и менее трех строк не смогут быть определены как CSV-файлы.
- Если поле содержит двойные кавычки, двойные кавычки могут отображаться только в начале и конце поля и должны совпадать. Двойные кавычки, которые отображаются в середине поля или отображаются в начале и конце, но не совпадают, будут распознаны как недопустимые данные, и схема не будет проанализирована из файла. Строки, количество столбцов которых отличается от числа строк заголовка, будут рассматриваться как строки ошибок. (число строк ошибок или число строк, выбранных в выборке ) должно быть меньше 0,1.
Для файлов Parquet, если вы используете локальную среду выполнения интеграции, необходимо установить на компьютере IR 64-разрядную версию JRE 11 (среда выполнения Java) или OpenJDK . Ознакомьтесь с разделом Среда выполнения Java в нижней части страницы , чтобы ознакомиться с руководством по установке.
В настоящее время разностный формат не поддерживается. При сканировании разностного формата непосредственно из источника данных хранилища, например Azure Data Lake Storage (ADLS 2-го поколения), набор файлов Parquet из разностного формата будет проанализирован и обработан как набор ресурсов, как описано в разделе Общие сведения о наборах ресурсов. Кроме того, столбцы, используемые для секционирования, не будут распознаны как часть схемы для набора ресурсов.

Извлечение схемы

Для источников данных, поддерживающих извлечение схемы во время сканирования, схема активов не будет напрямую усечена на количество столбцов.

Вложенные данные

Вложенные данные поддерживаются только для содержимого JSON. Для всех поддерживаемых системой типов файлов, если в столбце есть вложенное содержимое JSON, средство проверки анализирует вложенные данные JSON и отображает их на вкладке схемы ресурса.

Вложенные данные или синтаксический анализ вложенной схемы не поддерживается в SQL. Столбец со вложенными данными будет сообщаться и классифицироваться как есть, а подданные не будут анализироваться.

Выборка данных для классификации

В терминологии карты данных:

Проверка L1: извлекает основные сведения и метаданные, такие как имя файла, размер и полное имя.
Проверка L2: извлекает схему для структурированных типов файлов и таблиц баз данных
Проверка L3: извлекает схему, если применимо, и подвергает выборку файла системным и пользовательским правилам классификации.

Дополнительные сведения о настройке уровней сканирования.

Для всех форматов структурированных файлов Схема данных Microsoft Purview сканировать файлы следующим образом:

Для структурированных типов файлов он отсортирует первые 128 строк в каждом столбце или первые 1 МБ в зависимости от того, какая из них меньше.
Для форматов файлов документов он отытет первые 20 МБ каждого файла.
- Если размер файла документа превышает 20 МБ, он не подлежит глубокой проверке (при классификации). В этом случае Microsoft Purview записывает только базовые метаданные, такие как имя файла и полное имя.
Для табличных источников данных (SQL) он отсортирует первые 128 строк.
Для Azure Cosmos DB для NoSQL для схемы будет собрано до 300 отдельных свойств из первых 10 документов в контейнере. Для каждого свойства будут использоваться значения от 128 документов или первые 1 МБ.

Выборка файла набора ресурсов

Папка или группа файлов секционирования обнаруживается как набор ресурсов в Схема данных Microsoft Purview, если он соответствует политике набора системных ресурсов или политике набора ресурсов, определенной клиентом. При обнаружении набора ресурсов средство проверки проверяет каждую папку, которая в нем содержится. Дополнительные сведения о наборах ресурсов см. здесь.

Выборка файлов для наборов ресурсов по типам файлов:

Файлы с разделителями (CSV, PSV, SSV, TSV) — 1 из 100 файлов получают выборку (проверка L3) в папке или группе файлов секций, которые считаются набором ресурсов.
Типы файлов Data Lake (Parquet, Avro, Orc) — 1 в 18446744073709551615 (длинное максимальное число) файлов (проверка L3) в папке или группе файлов секций, которые считаются набором ресурсов.
Другие структурированные типы файлов (JSON, XML, TXT) — 1 из 100 файлов используются для выборки (проверка L3) в папке или группе файлов секционирования, которые считаются набором ресурсов.
Объекты SQL и сущности Azure Cosmos DB — каждый файл сканируется L3.
Типы файлов документов — каждый файл сканируется L3. Шаблоны набора ресурсов не применяются к этим типам файлов.

Поделиться через