Добавьте пункт назначения "озерный дом" к потоку событий
В этой статье показано, как добавить lakehouse в качестве конечного пункта назначения для потоков событий в Microsoft Fabric. Для оптимизации производительности потоковой передачи и запросов в режиме реального времени рассмотрите возможность потоковой передачи данных в Eventhouse с добавлением назначения Eventhouse в поток событий, а затем включите доступность Eventhouse OneLake.
Примечание.
Расширенные возможности включены по умолчанию при создании потоков событий. Если у вас есть потоки событий, созданные с помощью стандартных возможностей, эти потоки событий будут продолжать работать. Вы по-прежнему можете изменять и использовать их как обычно. Рекомендуется создать новый поток событий для замены стандартных потоков событий, чтобы воспользоваться дополнительными возможностями и преимуществами расширенных потоков событий.
Внимание
Существует принудительное применение схемы для записи данных в целевую таблицу Lakehouse. Все новые записи в таблицу должны быть совместимы с схемой целевой таблицы во время записи, обеспечивая качество данных.
При записи выходных данных в новую разностную таблицу схема таблицы создается на основе первой записи. Все записи выходных данных проецируются на схему существующей таблицы.
Если входящие данные содержат столбцы, не имеющиеся в существующей схеме таблицы, дополнительные столбцы не включаются в данные, записанные в таблицу. Аналогичным образом, если входящие данные отсутствуют в существующей схеме таблицы, отсутствующие столбцы записываются в таблицу со значениями null.
Предварительные условия
- Доступ к рабочей области в режиме лицензии емкости Fabric или режиме пробной лицензии с разрешениями уровня участника или выше.
- Доступ к рабочей области, в которой находится lakehouse, с правами участника или выше.
Примечание.
Максимальное количество источников и назначений для одного потока событий — 11.
Добавьте дом у озера как место назначения
Чтобы добавить Lakehouse в качестве пункта назначения для потока событий по умолчанию или производного потока, выполните следующие действия.
В режиме редактирования для потока событий выберите "Добавить назначение " на ленте и выберите Lakehouse из раскрывающегося списка.
Подключите узел Lakehouse к узлу потока или оператору.
На экране конфигурации Lakehouse выполните следующие сведения:
- Введите имя назначения.
- Выберите рабочую область , содержащую озеро.
- Выберите существующий Lakehouse из указанной рабочей области.
- Выберите существующую таблицу Delta или создайте новую для получения данных.
- Выберите формат входных данных, отправляемый в lakehouse. Поддерживаемые форматы данных : JSON, Avro и CSV (с заголовком).
Выберите Дополнительно.
Существуют два режима загрузки для озёрного дома в качестве назначения. В зависимости от сценария настройте эти режимы, чтобы оптимизировать потоки событий Fabric, записываемые в lakehouse.
Минимальное количество строк — это минимальное количество строк, которое лейкхаус поглощает в одном файле. Минимальное значение — 1 строка, а максимальное — 2 миллиона строк на файл. Чем меньше минимальное количество строк, тем больше файлов создается в lakehouse во время загрузки.
Максимальная длительность — это максимальная длительность приема одного файла. Минимальное значение составляет 1 минуту, а максимальное — 2 часа. Чем дольше продолжительность, тем больше строк загружается в файл.
Выберите Сохранить.
Чтобы реализовать только что добавленное назначение lakehouse, нажмите кнопку "Опубликовать".
После выполнения этих шагов, объект назначения lakehouse доступен для визуализации в режиме реального времени. В области Details вы можете выбрать ярлык Optimize table in notebook для запуска задания Apache Spark в записной книжке, которое объединяет небольшие потоковые файлы в целевой таблице из озера данных (lakehouse).
Примечание.
При настройке потока событий источник, логика преобразования и назначение обычно добавляются вместе. По умолчанию при публикации потока событий серверные службы для приема данных и маршрутизации данных начинаются с Теперь соответственно. Однако прием данных может начинаться быстрее, чем маршрутизация данных, что приводит к приему некоторых данных в eventstream до полной инициализации маршрутизации. В результате эти данные могут не направляться в место назначения.
Типичным примером является источник CDC базы данных, где исходные данные моментального снимка могут оставаться в потоке событий без перенаправления в место назначения.
Чтобы устранить эту проблему, выполните следующие действия.
При настройке Eventhouse (обработка событий перед приемом данных) или точки назначения Lakehouse снимите флажок Активировать сбор данных после добавления источника данных.
Активируйте инжестию вручную после публикации Eventstream.
Используйте параметр пользовательского времени, чтобы выбрать более раннюю метку времени, обеспечивая правильную обработку и маршрутизацию исходных данных.
Дополнительные сведения см. в статье Приостановка и возобновление потоков данных
Связанный контент
Чтобы узнать, как добавить другие пункты назначения в поток событий, смотрите следующие статьи:
Предварительные условия
Перед началом работы необходимо выполнить следующие предварительные требования:
- Доступ к рабочей области в режиме лицензии емкости Fabric или режиме пробной лицензии с разрешениями участника или более высокого уровня.
- Получите доступ к рабочей области с разрешениями уровня участника или выше, где находится ваш дейтахаб.
Примечание.
Максимальное количество источников и назначений для одного потока событий — 11.
Добавьте дом у озера в качестве назначения
Если у вас есть lakehouse, созданный в рабочей области, выполните следующие действия, чтобы добавить lakehouse в поток событий в качестве места назначения:
Выберите новое назначение на ленте или "+" на холсте основного редактора, а затем выберите Lakehouse. Откроется экран конфигурации конечного пункта Lakehouse.
Введите имя назначения потока событий и заполните информацию о вашем озерном доме.
Lakehouse: выберите существующий Lakehouse в указанной рабочей области.
Разностная таблица: выберите существующую разностную таблицу или создайте новую для получения данных.
Примечание.
При записи данных в таблицу Lakehouse применяется контроль схемы. Это означает, что все новые записи в таблицу должны быть совместимы со схемой целевой таблицы во время записи, обеспечивая качество данных.
Все записи выходных данных проецируются на схему существующей таблицы. При записи выходных данных в новую разностную таблицу схема таблицы создается на основе первой записи. Если входящие данные имеют дополнительный столбец по сравнению с существующей схемой таблицы, она записывается в таблицу без включения дополнительного столбца. И наоборот, если входящие данные отсутствуют в столбце по сравнению с существующей схемой таблицы, она записывается в таблицу со значением столбца, равным NULL.
Формат входных данных: выберите формат данных (входных данных), отправляемых в lakehouse.
Примечание.
Поддерживаемые форматы входных событий : JSON, Avro и CSV (с заголовком).
Обработка событий: Вы можете использовать редактор обработки событий, чтобы указать, как данные должны обрабатываться перед отправкой в "lakehouse". Выберите "Открыть обработчик событий" , чтобы открыть редактор обработки событий. Дополнительные сведения об обработке в режиме реального времени с помощью обработчика событий см. в разделе "Обработка данных о событиях с помощью редактора обработчика событий". Когда вы закончите работу с редактором, нажмите кнопку "Готово ", чтобы вернуться на экран конфигурации назначения Lakehouse .
Два режима приема доступны для целевого объекта "lakehouse". Выберите один из этих режимов, чтобы оптимизировать способ записи потоков событий Fabric в Lakehouse в зависимости от вашего сценария.
Строки для каждого файла — минимальное количество строк, которые Лейкхаус загружает в одном файле. Чем меньше минимальное количество строк, тем больше файлов Lakehouse создает во время загрузки. Минимальное значение — 1 строка. Максимальное значение — 2M строк на файл.
Длительность — максимальное время обработки одного файла. Чем дольше длительность, тем больше строк загружается в файл. Минимальное значение составляет 1 минуту, а максимальное — 2 часа.
Нажмите «Добавить», чтобы добавить место назначения «Дом у озера».
Ярлык оптимизации таблицы доступен в месте назначения Lakehouse. Это решение упрощает запуск задания Spark в записной книжке, которая объединяет эти небольшие потоковые файлы в целевой таблице Lakehouse.
Место назначения дом у озера появляется на холсте с индикатором загрузки. Система занимает несколько минут, чтобы изменить состояние на "Активный".
Управление назначением
Изменение и удаление: можно изменить или удалить назначение потока событий с помощью области навигации или холста.
При нажатии кнопки "Изменить" откроется область редактирования в правой части основного редактора. Вы можете изменить конфигурацию по желанию, включая логику преобразования событий с помощью редактора обработчика событий.
Связанный контент
Чтобы узнать, как добавить другие направления в поток событий, см. в следующих статьях: