Изучение Microsoft Fabric Lakehouse

Завершено

Lakehouse представляет собой базу данных и строится на основе озера данных с помощью таблиц разностного формата. Lakehouses объединяет аналитические возможности на основе SQL реляционного хранилища данных и гибкость и масштабируемость озера данных. Lakehouses хранит все форматы данных и может использоваться с различными средствами аналитики и языками программирования. Как облачные решения, lakehouses могут автоматически масштабироваться и обеспечивать высокий уровень доступности и аварийное восстановление.

Схема озера, отображающая структуру папок озера данных и реляционные возможности хранилища данных.

Некоторые преимущества lakehouse включают:

  • Lakehouses использует обработчики Spark и SQL для обработки крупномасштабных данных и поддержки машинного обучения или прогнозной аналитики моделирования.
  • Данные Lakehouse организованы в формате схемы в режиме чтения, что означает, что схема определяется по мере необходимости, а не имеет предопределенную схему.
  • Lakehouses поддерживает транзакции ACID (атомарность, согласованность, изоляция, устойчивость) через таблицы с форматированными Delta Lake для согласованности и целостности данных.
  • Lakehouses — это единственное расположение для инженеров данных, специалистов по обработке и анализу данных для доступа к данным и их использования.

Lakehouse — отличный вариант, если требуется масштабируемое решение аналитики, которое поддерживает согласованность данных. Важно оценить конкретные требования, чтобы определить, какое решение лучше всего подходит.

Microsoft Fabric Lakehouses

В Microsoft Fabric вы можете создать lakehouse в любой рабочей области уровня "Премиум ". После создания lakehouse можно загрузить данные в любом общем формате из различных источников; включая локальные файлы, базы данных или API. Прием данных также можно автоматизировать с помощью конвейеров фабрики данных или потоков данных (2-го поколения) в Microsoft Fabric. Кроме того, можно создать ярлыки Fabric для данных во внешних источниках, например Azure Data Lake Store 2-го поколения или расположение Microsoft OneLake за пределами собственного хранилища Lakehouse. Обозреватель Lakehouse позволяет просматривать файлы, папки, ярлыки и таблицы, а также просматривать их содержимое на платформе Fabric.

После приема данных в Lakehouse можно использовать записные книжки или потоки данных (2-го поколения) для изучения и преобразования данных.

Примечание.

Потоки данных (2-го поколения) основаны на Power Query — знакомом инструменте для аналитиков данных с помощью Excel или Power BI, который предоставляет визуальное представление преобразований в качестве альтернативы традиционному программированию.

Конвейеры фабрики данных можно использовать для оркестрации Spark, потока данных и других действий; позволяет реализовать сложные процессы преобразования данных.

После преобразования данных вы можете запросить его с помощью SQL, обучить модели машинного обучения, выполнять аналитику в режиме реального времени или разрабатывать отчеты в Power BI.

Вы также можете применить политики управления данными к Lakehouse, например классификацию данных и управление доступом.