Изучение Microsoft Fabric Lakehouse
Lakehouse представляет собой базу данных и строится на основе озера данных с помощью таблиц разностного формата. Lakehouses объединяет аналитические возможности на основе SQL реляционного хранилища данных и гибкость и масштабируемость озера данных. Lakehouses хранит все форматы данных и может использоваться с различными средствами аналитики и языками программирования. Как облачные решения, lakehouses могут автоматически масштабироваться и обеспечивать высокий уровень доступности и аварийное восстановление.
Некоторые преимущества lakehouse включают:
- Lakehouses использует обработчики Spark и SQL для обработки крупномасштабных данных и поддержки машинного обучения или прогнозной аналитики моделирования.
- Данные Lakehouse организованы в формате схемы в режиме чтения, что означает, что схема определяется по мере необходимости, а не имеет предопределенную схему.
- Lakehouses поддерживает транзакции ACID (атомарность, согласованность, изоляция, устойчивость) через таблицы с форматированными Delta Lake для согласованности и целостности данных.
- Lakehouses — это единственное расположение для инженеров данных, специалистов по обработке и анализу данных для доступа к данным и их использования.
Lakehouse — отличный вариант, если требуется масштабируемое решение аналитики, которое поддерживает согласованность данных. Важно оценить конкретные требования, чтобы определить, какое решение лучше всего подходит.
Microsoft Fabric Lakehouses
В Microsoft Fabric вы можете создать lakehouse в любой рабочей области уровня "Премиум ". После создания lakehouse можно загрузить данные в любом общем формате из различных источников; включая локальные файлы, базы данных или API. Прием данных также можно автоматизировать с помощью конвейеров фабрики данных или потоков данных (2-го поколения) в Microsoft Fabric. Кроме того, можно создать ярлыки Fabric для данных во внешних источниках, например Azure Data Lake Store 2-го поколения или расположение Microsoft OneLake за пределами собственного хранилища Lakehouse. Обозреватель Lakehouse позволяет просматривать файлы, папки, ярлыки и таблицы, а также просматривать их содержимое на платформе Fabric.
После приема данных в Lakehouse можно использовать записные книжки или потоки данных (2-го поколения) для изучения и преобразования данных.
Примечание.
Потоки данных (2-го поколения) основаны на Power Query — знакомом инструменте для аналитиков данных с помощью Excel или Power BI, который предоставляет визуальное представление преобразований в качестве альтернативы традиционному программированию.
Конвейеры фабрики данных можно использовать для оркестрации Spark, потока данных и других действий; позволяет реализовать сложные процессы преобразования данных.
После преобразования данных вы можете запросить его с помощью SQL, обучить модели машинного обучения, выполнять аналитику в режиме реального времени или разрабатывать отчеты в Power BI.
Вы также можете применить политики управления данными к Lakehouse, например классификацию данных и управление доступом.