Поделиться через


Терминология Microsoft Fabric

Сведения о определениях терминов, используемых в Microsoft Fabric, включая термины, относящиеся к хранилищу данных Fabric, проектированию данных Fabric, обработке и анализу данных fabric, Real-Time аналитике, фабрике данных и Power BI.

Общие термины

  • Вместимость: Вместимость означает выделенный набор ресурсов, доступных в определенное время для использования. Емкость определяет способность ресурса выполнять действие или производить выходные данные. Разные элементы используют другую емкость в определенное время. Fabric предлагает емкость через SKU Fabric и пробные версии. Дополнительные сведения см. в разделе Что такое емкость?

  • Опыт: набор возможностей, ориентированных на определенную функциональность. Возможности структуры включают хранилище данных Fabric, проектирование данных Fabric, науку о данных Fabric, Real-Time Intelligence, фабрику данных и Power BI.

  • элемент: элемент — это набор возможностей в опыте. Пользователи могут создавать, изменять и удалять их. Каждый тип элемента предоставляет различные возможности. Например, опыт работы в области проектирования данных включает в себя такие элементы, как лакехаус, "ноутбук" и определение заданий Spark.

  • Арендатор: Арендатор является отдельно выделенным экземпляром Fabric для организации и связан с идентификатором Microsoft Entra.

  • Рабочая область: рабочая область — это коллекция элементов, объединяющих различные функциональные возможности в одной среде, предназначенной для совместной работы. Он выступает в качестве контейнера, использующего емкость для выполняемой работы, и предоставляет элементы управления для доступа к элементам в нем. Например, в рабочей области пользователи создают отчеты, записные книжки, семантические модели и т. д. Для получения дополнительной информации см. статью рабочие области.

Проектирование данных Fabric

  • Lakehouse: Lakehouse — это коллекция файлов, папок и таблиц, представляющих базу данных на озере данных, используемом движком Apache Spark и движком SQL для обработки больших данных. Lakehouse включает расширенные возможности для транзакций ACID при использовании таблиц в открытом формате Delta. Элемент Lakehouse размещается в уникальной папке рабочего пространства в Microsoft OneLake. Он содержит файлы в различных форматах (структурированных и неструктурированных) в папках и вложенных папках. Дополнительные сведения см. в разделе Что такое хранилище озера?

  • Записная книжка: Fabric — это мультиязычная интерактивная программа с обширными функциями для программирования. К ним относятся разработка кода и markdown, выполнение и мониторинг задания Spark, просмотр и визуализация результатов, а также совместная работа с командой. Это помогает инженерам по обработке данных и специалистам по анализу данных изучать и обрабатывать данные, а также создавать эксперименты машинного обучения как с использованием кода, так и с применением интерфейсов без кода. Его можно легко преобразовать в действие конвейера для оркестрации.

  • приложение Spark: приложение Apache Spark — это программа, написанная пользователем с помощью одного из языков API Spark (Scala, Python, Spark SQL или Java) или добавленных корпорацией Майкрософт языков (.NET с C# или F#). При запуске приложения оно делится на одно или несколько заданий Spark, которые выполняются параллельно для обработки данных быстрее. Для получения дополнительной информации см. раздел Мониторинг приложений Spark.

  • Apache Spark: задача Spark является частью приложения Spark, которое запускается параллельно с сопутствующими задачами в этом приложении. Задание состоит из нескольких задач. Дополнительные сведения см. раздел по мониторингу заданий Spark.

  • определение задания Apache Spark: Определение задания Spark — это набор параметров, заданных пользователем, указывающий, как должно выполняться приложение Spark. Он позволяет отправлять пакетные или потоковые задания в кластер Spark. Дополнительные сведения см. в разделе Что такое определение задания Apache Spark?

  • V-order: Оптимизация записи в формате файла Parquet, которая позволяет более быстрое считывание, обеспечивает экономичность и более высокую производительность. Все подсистемы Fabric по умолчанию записывают v-упорядоченные файлы parquet.

Фабрика данных

  • соединитель : фабрика данных предлагает широкий набор соединителей, которые позволяют подключаться к различным типам хранилищ данных. После подключения можно преобразовать данные. Более подробную информацию см. в разделе о соединителях.

  • Конвейер данных: В Data Factory конвейер данных используется для управления перемещением и преобразованием данных. Эти каналы отличаются от каналов развертывания в Fabric. Дополнительные сведения см. в разделе Конвейеры в обзоре фабрики данных.

  • Dataflow Gen2: потоки данных предоставляют интерфейс с низким уровнем кода для приема данных из сотен источников данных и преобразования ваших данных. Потоки данных в Fabric называются потоком данных 2-го поколения. Поток данных 1-го поколения существует в Power BI. Поток данных 2-го поколения предоставляет дополнительные возможности по сравнению с потоками данных в Фабрике данных Azure или Power BI. Невозможно обновить с 1-го поколения до 2-го поколения. Дополнительные сведения см. в потоках данных в обзоре Фабрики данных.

  • триггер : возможность автоматизации в фабрике данных, которая инициирует конвейеры на основе определенных условий, таких как расписания или доступность данных.

Платформа Data Science

  • Data Wrangler: Data Wrangler — это средство на основе записных книжек, которое предоставляет пользователям иммерсивный интерфейс для проведения анализа аналитических данных. Эта функция объединяет отображение данных, например сетки, с динамической сводной статистикой и набором общих операций очистки данных, доступных с несколькими выбранными значками. Каждая операция создает код, который можно сохранить обратно в записную книжку в качестве многократно используемых скриптов.

  • Эксперимент: эксперимент машинного обучения является основной единицей организации и контроля для всех связанных запусков машинного обучения. Дополнительные сведения см. в экспериментах машинного обучения в Microsoft Fabric.

  • модель: модель машинного обучения — это файл, обученный распознавать определенные типы шаблонов. Вы обучаете модель на наборе данных и предоставляете ей алгоритм, который она использует для анализа и обучения на основе этого набора данных. Дополнительные сведения см. в модели машинного обучения.

  • Запуск: Запуск соответствует однократному выполнению кода модели. В MLflowотслеживание основано на экспериментах и прогонах.

Хранилище данных Fabric

  • конечная точка аналитики SQL: Каждый Lakehouse имеет конечную точку аналитики SQL, которая позволяет пользователю запрашивать данные delta-таблицы с помощью TSQL через TDS. Дополнительные сведения см. в конечной точке аналитики SQL.

  • Хранилище данных Fabric: Хранилище данных Fabric работает в качестве традиционного хранилища данных и поддерживает все возможности T-SQL транзакций, которые вы ожидаете от корпоративного хранилища данных. Дополнительные сведения см. в хранилище данных Fabric.

Интеллект Real-Time

  • Активатор: Активатор — это инструмент для разработки без кода и с небольшим количеством кода, позволяющий создавать оповещения, триггеры и действия в ваших данных. Активатор используется для создания оповещений в потоках данных. Для получения дополнительной информации см. раздел Активатор.

  • Eventhouse: Eventhouses предоставляет решение для обработки и анализа больших объемов данных, особенно в сценариях, требующих аналитики и изучения в режиме реального времени. Они предназначены для эффективной обработки потоков данных в режиме реального времени, что позволяет организациям выполнять прием, обработку и анализ данных в режиме реального времени. Одна рабочая область может содержать несколько центров событий, хранилище событий может содержать несколько баз данных KQL, и каждая база данных может содержать несколько таблиц. Дополнительные сведения см. в обзоре Eventhouse.

  • поток событий: компонент событий Microsoft Fabric предоставляет централизованное место на платформе Fabric для записи, преобразования и маршрутизации событий в режиме реального времени в назначения без программирования. Поток событий состоит из различных источников данных потоковой передачи, назначений приема и обработчика событий при необходимости преобразования. Дополнительные сведения см. в потоках событий Microsoft Fabric.

  • KQL Database: База данных KQL содержит данные в формате, по которому можно делать запросы KQL. Базы данных KQL — это элементы в Eventhouse. Дополнительные сведения см. в разделе базы данных KQL.

  • набор запросов KQL: набор запросов KQL используется для выполнения запросов, просмотра результатов и управления результатами запросов из базы данных Data Explorer. Набор запросов включает базы данных и таблицы, запросы и результаты. Набор запросов KQL позволяет сохранять запросы для дальнейшего использования или экспортировать и совместно использовать запросы с другими пользователями. Дополнительную информацию см. в разделе Запрос данных в наборе запросов KQL

центр Real-Time

  • Real-Time хаб: Real-Time хаб — это единое место для всех данных в движении во всей вашей организации. Каждый клиент Microsoft Fabric автоматически подготавливается к работе с центром. Дополнительные сведения см. в обзоре концентратора Real-Time.

OneLake

  • ярлык: ярлыки — это внедренные ссылки в OneLake, указывающие на другие расположения хранилища файлов. Они предоставляют способ подключения к существующим данным без необходимости напрямую копировать их. Для получения дополнительной информации см. ярлыки OneLake.