Анализ текста
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
в этой статье описываются модули текстовой аналитики, входящие в Машинное обучение Studio (классическая модель). Эти модули предоставляют специализированные вычислительные средства для работы с структурированным и неструктурированным текстом, в том числе:
- Несколько параметров для предварительной обработки текста.
- Определение языка.
- Создание компонентов из текста с помощью настраиваемых словарей n-грамм.
- Хэширование компонентов для эффективного анализа текста без предварительной обработки или расширенного лингвистического анализа.
- Vowpal Wabbit для очень быстрого машинного обучения в тексте. Vowpal Wabbit поддерживает хэширование компонентов, моделирование разделов (LDA) и классификацию.
- Распознавание именованных сущностей для извлечения имен людей, мест и организаций из неструктурированного текста.
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Примеры
примеры анализа текста с помощью Машинное обучение см. в Коллекция решений ИИ Azure:
Классификация новостей. использует хэширование признаков для классификации статей в предопределенный список категорий.
Поиск похожих компаний: использует текст статей Википедии для классификации компаний.
Классификация текста: демонстрирует сквозной процесс использования текста из сообщений Twitter в тональности Analysis (пример из пяти частей).
Список модулей
категория Анализ текста в Машинное обучение Studio (классическая модель) включает следующие модули:
- Определение языков: определяет язык каждой строки во входном файле.
- Извлечение ключевых фраз из текста: извлекает ключевые фразы из заданного текста.
- Извлечение функций n-грамм из текста: создает словарные функции n-грамм и выдает на них выбор компонентов.
- Хэширование компонентов. преобразует текстовые данные в функции с целочисленным кодированием с помощью библиотеки Vowpal Wabbit.
- Скрытое выделение Дирихле метода. выполняет моделирование разделов с помощью библиотеки Vowpal WABBIT для Lda.
- Распознавание именованных сущностей: распознает именованные сущности в текстовом столбце.
- Предварительная обработка текста: выполняет операции очистки текста.
- Оценка Vowpal Wabbit 7-4 Model: оценки, введенные в Azure с помощью версии 7-4 системы машинного обучения Vowpal Wabbit.
- Оценка Vowpal Wabbit 7-10 Model: оценки, введенные в Azure с помощью версии 7-10 системы машинного обучения Vowpal Wabbit.
- Оценка Vowpal Wabbit 8 модель: оценки, введенные в Azure с помощью версии 8 системы машинного обучения Vowpal Wabbit.
- Обучение модели Vowpal Wabbit 7-4. Обучение модели с помощью версии 7-4 системы машинного обучения Vowpal Wabbit.
- Обучение модели Vowpal Wabbit 7-10. Обучение модели с помощью версии 7-10 системы машинного обучения Vowpal Wabbit.
- Обучение модели Vowpal Wabbit 8. Обучение модели с помощью версии 8 системы машинного обучения Vowpal Wabbit.