Извлечение ключевых фраз из текста
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Извлекает ключевые фразы из заданного текста
категория: Анализ текста
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Обзор модуля
в этой статье объясняется, как использовать модуль извлечения ключевых фраз из текстового модуля в Машинное обучение Studio (классическая модель) для предварительной обработки текстового столбца. При наличии столбца с текстом на естественном языке модуль извлекает одну или несколько значимых фраз. Фраза может представлять собой одно слово, Составное существительное, модификатор и существительное.
Этот модуль является оболочкой для API-интерфейсов обработки естественного языка для извлечения ключевых фраз. Фразы анализируются как потенциально значимые в контексте предложения по различным причинам:
- Фраза записывается в раздел предложения.
- Фраза содержит сочетание модификатора и существительного, которое указывает на тональности.
Например, предположим, что было проанализировано предложение: «это прекрасный Гостиница, чтобы оставаться в курсе с уникальными дéкор и удобными сотрудниками».
Модуль извлечения ключевых фраз из текстового модуля может возвращать следующие ключевые фразы:
- замечательный Гостиница
- удобные сотрудники
- уникальный дéкор
Настройка извлечения ключевых фраз из текста
Чтобы извлечь ключевые фразы, необходимо соединить набор данных со столбцом текста.
добавьте модуль " извлечение ключевых фраз из текстового модуля" в эксперимент в Машинное обучение Studio (классическая модель). Затем подключите набор данных, содержащий по крайней мере один полнотекстовый столбец.
Используйте селектор столбцов, чтобы выбрать столбец типа строка, из которого нужно извлечь ключевые фразы.
В качестве языкавыберите язык, который будет использоваться при анализе фраз. Если указан язык, будут выводиться только фразы на целевом языке.
Если в текстовом столбце содержатся фразы на нескольких языках, выберите параметр язык, определенный в столбцах. Отобразится новый селектор столбцов, который позволяет выбрать в наборе данных столбец, содержащий идентификатор языка. Идентификатор языка может быть либо именем языка, либо идентификатором языка и региональных параметров Iso6391. Например, приемлемым является либо «английский», либо «EN».
Совет
Перед выполнением извлечения ключевых фраз из текстаиспользуйте модуль определение языков , чтобы определить язык в каждой строке и создать идентификатор. Если столбец Идентификатор языка содержит языки, которые не поддерживаются извлечением ключевых фраз из текста, возникает ошибка.
Результаты
Выходные данные модуля — это набор данных, содержащий столбец с ключевыми фразами, разделенными запятыми.
Например, следующий пример приводит к получению входного набора данных, содержащего обзоры на нескольких языках:
Ключевые фразы |
---|
Романский, ядерный подводный, хорошая книга, Adventure история, множество событий, хорошие символы |
Учебник по Мистерио, персонажес, Вентилятор, Авентура, Исла |
Все выходные фразы содержатся в одном столбце. никакие другие столбцы не передаются через, а идентификатор не добавляется. Однако если нужно выстроить выходные фразы с исходным текстом, можно повторно объединить выходные фразы с входными данными с помощью модуля Добавление столбцов .
Выходные данные извлечения ключевых фраз не помечают язык отдельных фраз.
Если язык включен, не поддерживаемый модулем извлечения ключевых фраз , возникает ошибка (0039). Чтобы избежать ошибок, не забудьте отфильтровать входной текст с несовместимым идентификатором языка.
Если имеется очень мало строк других языков, можно избежать этой ошибки, опустив идентификатор языка и проанализировать весь текст с помощью выбора одного языка. Однако при этом результаты очень низкы, так как целые предложения на других языках могут быть выводиться как одна ключевая фраза.
Примеры
В следующем примере показано, как использовать этот модуль для извлечения ключевых фраз, а затем создать слово Cloud из фраз: Извлечение ключевых фраз и отображение слова Cloud
дополнительные примеры обработки текста с помощью Машинное обучение см. в Коллекция решений ИИ Azure .
Технические примечания
Сейчас этот модуль поддерживает следующие языки:
- Нидерландский
- Английский
- Французский
- Немецкий
- Итальянский
- Испанский
для дополнительных языков рекомендуется использовать Анализ текста API в Azure Cognitive Services. дополнительные сведения см. в разделе извлечение ключевых фраз в Анализ текста
Ожидаемые входные данные
Имя | Тип | Описание |
---|---|---|
Dataset | Таблица данных | Таблица, содержащая текст для обработки. |
Параметры модуля
Имя | Type | Диапазон | Необязательно | Значение по умолчанию | Описание |
---|---|---|---|---|---|
Язык и региональные параметры — столбец языка | Выбор столбцов | язык: столбец содержит язык | Имя или Отсчитываемый от единицы индекс столбца, содержащего сведения о языке и региональных параметрах | ||
Столбец текста | Выбор столбцов | Обязательно | Имя или Отсчитываемый от единицы индекс текстового столбца. | ||
Язык | T_Language | Английский, испанский, французский, голландский, немецкий, итальянский, столбец содержит язык | Обязательно | Английский | Выберите язык текста для обработки. |
Выходные данные
Имя | Тип | Описание |
---|---|---|
Набор данных результатов | Таблица данных | Извлеченные ключевые фразы |
Исключения
Исключение | Описание |
---|---|
Ошибка 0003 | Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты. |
Ошибка 0010 | Исключение возникает, если имена столбцов входных наборов данных должны совпадать, но они не совпадают. |
Ошибка 0016 | Исключение возникает, если входные наборы данных, переданные в модуль, должны иметь совместимые типы столбцов, но на самом деле это не так. |
Ошибка 0008 | Исключение возникает, если параметр находится за пределами диапазона. |
список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.
список исключений API см. в разделе Машинное обучение REST API коды ошибок.