Работа с озерами Microsoft Fabric
Теперь, когда вы понимаете основные возможности Microsoft Fabric lakehouse, давайте рассмотрим, как работать с ним.
Создание и изучение озера
При создании нового lakehouse вы автоматически создали три разных элемента данных в рабочей области.
- Lakehouse содержит ярлыки, папки, файлы и таблицы.
- Семантическая модель (по умолчанию) предоставляет простой источник данных для разработчиков отчетов Power BI.
- Конечная точка аналитики SQL позволяет получать доступ только для чтения к данным запроса с помощью SQL.
Вы можете работать с данными в lakehouse в двух режимах:
- lakehouse позволяет добавлять и взаимодействовать с таблицами, файлами и папками в lakehouse.
- Конечная точка аналитики SQL позволяет использовать SQL для запроса таблиц в lakehouse и управления реляционной семантической моделью.
Прием данных в озеро
Прием данных в lakehouse — это первый шаг процесса ETL. Используйте любой из следующих методов для переноса данных в lakehouse.
- Отправка: отправка локальных файлов.
- Потоки данных 2-го поколения: импорт и преобразование данных с помощью Power Query.
- Записные книжки: используйте Apache Spark для приема, преобразования и загрузки данных.
- Конвейеры фабрики данных: используйте действие копирования данных.
Затем эти данные можно загрузить непосредственно в файлы или таблицы. Рассмотрите шаблон загрузки данных при приеме данных, чтобы определить, следует ли загружать все необработанные данные в качестве файлов перед обработкой или использовать промежуточные таблицы.
Определения заданий Spark также можно использовать для отправки заданий пакетной или потоковой передачи в кластеры Spark. Отправляя двоичные файлы из выходных данных компиляции различных языков (например, .jar из Java), можно применить другую логику преобразования к данным, размещенным в lakehouse. Помимо двоичного файла, можно дополнительно настроить поведение задания, отправив дополнительные библиотеки и аргументы командной строки.
Примечание.
Дополнительные сведения см. в документации по созданию определения задания Apache Spark.
Доступ к данным с помощью сочетаний клавиш
Другим способом доступа и использования данных в Fabric является использование сочетаний клавиш. Сочетания клавиш позволяют интегрировать данные в lakehouse, сохраняя их в внешнем хранилище.
Сочетания клавиш полезны, если требуется источник данных, которые находятся в другой учетной записи хранения или даже другом поставщике облачных служб. В lakehouse вы можете создавать ярлыки, указывающие на разные учетные записи хранения и другие элементы Fabric, такие как хранилища данных, базы данных KQL и другие озера.
Разрешения и учетные данные источника управляются OneLake. При доступе к данным через ярлык к другому расположению OneLake удостоверение вызывающего пользователя будет использоваться для авторизации доступа к данным в целевом пути ярлыка. Пользователь должен иметь разрешения в целевом расположении для чтения данных.
Ярлыки можно создавать как в лейкхаусах, так и в базах данных KQL, а также в виде папки в озере. Это позволяет Spark, SQL, аналитике в режиме реального времени и службам Analysis Services использовать сочетания клавиш при запросе данных.
Примечание.
Дополнительные сведения об использовании сочетаний клавиш см . в документации по сочетаниям клавиш OneLake в документации по Microsoft Fabric.