Изучение Microsoft Fabric Lakehouse
Lakehouse представляет собой базу данных и строится на основе озера данных с помощью таблиц формата Delta. Lakehouses объединяет аналитические возможности на основе SQL реляционного хранилища данных и гибкость и масштабируемость озера данных. Lakehouses хранит все форматы данных и может использоваться с различными средствами аналитики и языками программирования. Как облачные решения, lakehouses могут автоматически масштабироваться и обеспечивать высокий уровень доступности и аварийное восстановление.
Некоторые преимущества lakehouse включают:
- Lakehouses использует обработчики Spark и SQL для обработки крупномасштабных данных и поддержки машинного обучения или прогнозной аналитики моделирования.
- Данные Lakehouse организованы в формате схемы в режиме чтения, что означает, что схема определяется по мере необходимости, а не имеет предопределенную схему.
- Lakehouses поддерживает транзакции ACID (атомарность, согласованность, изоляция, устойчивость) через таблицы с форматированными Delta Lake для согласованности и целостности данных.
- Lakehouses — это единственное расположение для инженеров данных, специалистов по обработке и анализу данных для доступа к данным и их использования.
Lakehouse — отличный вариант, если требуется масштабируемое решение аналитики, которое поддерживает согласованность данных. Важно оценить конкретные требования, чтобы определить, какое решение лучше всего подходит.
Загрузка данных в lakehouse
Lakehouses Fabric — это центральный элемент для решения аналитики. Вы можете следовать процессу ETL (извлечение, преобразование, загрузка) для приема и преобразования данных перед загрузкой в lakehouse.
Вы можете получать данные во многих распространенных форматах из различных источников, включая локальные файлы, базы данных или API. Вы также можете создавать сочетания клавиш Fabric для данных во внешних источниках, таких как Azure Data Lake Store 2-го поколения или OneLake. Используйте обозреватель Lakehouse для просмотра файлов, папок, ярлыков и таблиц и просмотра их содержимого на платформе Fabric.
Данные приема можно преобразовать, а затем загрузить с помощью Apache Spark с записными книжками или потоками данных 2-го поколения. Используйте конвейеры Фабрики данных, чтобы управлять различными действиями ETL и приземлять подготовленные данные в озеро.
Примечание.
Потоки данных 2-го поколения основаны на Power Query — знакомом инструменте для аналитиков данных с помощью Excel или Power BI, который предоставляет визуальное представление преобразований в качестве альтернативы традиционному программированию.
Вы можете использовать lakehouse по многим причинам, в том числе:
- Анализ с помощью SQL.
- Обучение моделей машинного обучения.
- Анализ данных в режиме реального времени.
- Разработка отчетов в Power BI.
Защита озера
Доступ к Lakehouse управляется с помощью рабочей области или общего доступа на уровне элементов. Роли рабочих областей должны использоваться для участников совместной работы, так как эти роли предоставляют доступ ко всем элементам в рабочей области. Общий доступ на уровне элементов лучше всего использовать для предоставления доступа только для чтения, например аналитики или разработки отчетов Power BI.
Fabric lakehouses также поддерживает функции управления данными, включая метки конфиденциальности, и могут быть расширены с помощью Microsoft Purview с клиентом Fabric.
Примечание.
Дополнительные сведения см . в документации по безопасности в Microsoft Fabric .