Поделиться через


Глоссарий машинного обучения важных терминов

Следующий список — это компиляция важных терминов машинного обучения, которые полезны при создании пользовательских моделей в ML.NET.

Точность

В классификацииточность — это количество правильно классифицированных элементов, разделенных на общее количество элементов в тестовом наборе. Диапазон от 0 (наименее точный) до 1 (наиболее точный). Точность — одна из метрик оценки производительности модели. Рассмотрим его в сочетании с точности, отзыви показателей F.

Область под кривой (AUC)

В двоичной классификации, метрика оценки, которая является значением области под кривой, которая отображает значение истинной положительной скорости (на оси Y) на коэффициент ложных срабатываний (на оси x). Диапазоны от 0,5 (худшее) до 1 (лучшее). Также известная как область под кривой ROC, т. е. кривая операционной характеристики приемника. Дополнительные сведения см. в статье о приемнике статьи в Википедии.

Двоичная классификация

классификации случае, когда метки является только одним из двух классов. Дополнительные сведения см. в разделе классификации двоичных задач машинного обучения .

Калибровка

Калибровка — это процесс сопоставления необработанной оценки членства в классе для двоичной и многоклассовой классификации. Некоторые ML.NET тренеры имеют NonCalibrated суффикс. Эти алгоритмы создают необработанную оценку, которая затем должна быть сопоставлена с вероятностью класса.

Каталог

В ML.NET каталог представляет собой коллекцию функций расширения, сгруппированных по общей цели.

Например, каждая задача машинного обучения (двоичная классификация, регрессия, ранжирование и т. д.) содержит каталог доступных алгоритмов машинного обучения (тренеров). Каталог для тренеров двоичной классификации: BinaryClassificationCatalog.BinaryClassificationTrainers.

Классификация

Когда данные используются для прогнозирования категории, защищенное машинное обучение задача называется классификацией. двоичная классификация относится к прогнозированию только двух категорий (например, классификация изображения как изображения как "кот" или "собака"). многоклассовая классификация относится к прогнозированию нескольких категорий (например, при классификации изображения как изображения определенной породы собаки).

Коэффициент определения

В регрессии— метрика оценки, указывающая, насколько хорошо данные соответствуют модели. Диапазоны от 0 до 1. Значение 0 означает, что данные являются случайными или иным образом не могут соответствовать модели. Значение 1 означает, что модель точно соответствует данным. Это часто называется r2, R2или r-squared.

Данные

Данные являются центральными для любого приложения машинного обучения. В ML.NET данные представлены объектами IDataView. Объекты представления данных:

  • состоит из столбцов и строк
  • вычисляются безумно, то есть загружаются только данные при вызове операции.
  • содержит схему, которая определяет тип, формат и длину каждого столбца.

Оценщик

Класс в ML.NET, реализующий интерфейс IEstimator<TTransformer>.

Оценка — это спецификация преобразования (преобразование подготовки данных и преобразование обучения модели машинного обучения). Оценки можно объединить в конвейер преобразований. Параметры оценщика или конвейера оценщиков извлекаются при вызове Fit. Результатом Fit является преобразователя.

Метод расширения

Метод .NET, который является частью класса, но определяется вне класса. Первый параметр метода расширения является статическим this ссылкой на класс, к которому принадлежит метод расширения.

Методы расширения широко используются в ML.NET для создания экземпляров оценщиков.

Особенность

Измеримое свойство измеряемого явления, как правило, числовое (двойное) значение. Несколько функций называются вектором функций и обычно хранятся как double[]. Признаки определяют важные характеристики измеряемого явления. Дополнительные сведения см. в статье компонента в Википедии.

Проектирование компонентов

Проектирование признаков — это процесс, который включает определение набора функций и разработки программного обеспечения, которое создает векторы функций из доступных данных о явлениях, то есть извлечения признаков. Дополнительные сведения см. в статье Проектирование признаков в Википедии.

F-score

В классификацииметрика оценки, которая балансирует точности и отзыв.

Гиперпараметр

Параметр алгоритма машинного обучения. Примеры включают количество деревьев для обучения в лесу принятия решений или размер шага в алгоритме градиента. Значения гиперпараметров задаются перед обучением модели и управляют процессом поиска параметров функции прогнозирования, например точек сравнения в дереве принятия решений или весах в модели линейной регрессии. Дополнительные сведения см. в статье Гиперпараметр в Википедии.

Ярлык

Элемент, прогнозируемый с помощью модели машинного обучения. Например, порода собак или будущая цена акций.

Потеря журнала

В классификацииметрика оценки, характеризующая точность классификатора. Чем меньше потеря журнала, тем точнее классификатор.

Функция потери

Функция потери — это разница между значениями меток обучения и прогнозом, сделанным моделью. Параметры модели оцениваются путем минимизации функции потери.

Различные обучающие средства можно настроить с различными функциями потери.

Средняя абсолютная ошибка (MAE)

В регрессии, метрика оценки, которая является средним значением всех ошибок модели, где ошибка модели — расстояние между прогнозируемым меткой и правильным значением метки.

Модель

Традиционно параметры для функции прогнозирования. Например, весы в модели линейной регрессии или точки разделения в дереве принятия решений. В ML.NET модель содержит все сведения, необходимые для прогнозирования метки объекта домена (например, изображения или текста). Это означает, что ML.NET модели включают шаги признаков, необходимые, а также параметры для функции прогнозирования.

Многоклассовая классификация

классификации случае, когда метка является одной из трех или нескольких классов. Дополнительные сведения см. в разделе классификации многоклассов задач машинного обучения .

N-грамм

Схема извлечения признаков для текстовых данных: любая последовательность слов N превращается в функцию значение.

Нормализация

Нормализация — это процесс масштабирования данных с плавающей запятой до значений от 0 до 1. Многие алгоритмы обучения, используемые в ML.NET, требуют нормализации входных данных функций. ML.NET предоставляет ряд преобразований для нормализации.

Вектор числовых признаков

Компонент вектор, состоящий только из числовых значений. Это похоже на double[].

Трубопровод

Все операции, необходимые для соответствия модели набору данных. Конвейер состоит из этапов импорта данных, преобразования, признаков и обучения. После обучения конвейера он превращается в модель.

Точность

В классификацииточность для класса — это количество элементов, правильно прогнозируемых как принадлежащих к данному классу, разделенных на общее число элементов, прогнозируемых как принадлежащих к классу.

Вспоминать

В классификации, отзыв для класса — это количество элементов, правильно прогнозируемых как принадлежащих к данному классу, разделенных на общее количество элементов, которые фактически принадлежат к классу.

Регуляризации

Нормализация наказывает линейную модель за слишком сложную. Существует два типа нормализации:

  • $L_1$ нормализация ноль весов для незначительных признаков. Размер сохраненной модели может быть меньше после этого типа нормализации.
  • $L_2$ нормализация сводит к минимуму диапазон весов для незначительных функций. Это более общий процесс и менее чувствительны к выскользам.

Регрессия

Задача защищенного машинного обучения, где выходные данные являются реальным значением, например двойным. Примеры включают прогнозирование цен на акции. Дополнительные сведения см. в разделе регрессии задач машинного обучения.

Относительная абсолютная ошибка

В регрессии, метрика оценки, которая является суммой всех абсолютных ошибок, разделенных суммой расстояний между правильными значениями метки и средним значением всех правильных меток.

Относительная квадратная ошибка

В регрессии, метрика оценки, которая является суммой всех квадратных абсолютных ошибок, разделенных суммой квадратных расстояний между правильными значениями меток метки и средним значением всех правильных меток.

Корень среднеквадратической ошибки (RMSE)

В регрессии— метрика оценки, которая является квадратным корнем среднего значения квадратов ошибок.

Озвучивание

Оценка — это процесс применения новых данных к обученной модели машинного обучения и создания прогнозов. Оценка также называется выводом. В зависимости от типа модели оценка может быть необработанным значением, вероятностью или категорией.

Защищенное машинное обучение

Подкласс машинного обучения, в котором требуемая модель прогнозирует метку для еще неуправляемых данных. Примеры включают классификацию, регрессию и структурированное прогнозирование. Дополнительные сведения см. в статье контролируемого обучения в Википедии.

Тренировка

Процесс идентификации модели для заданного обучающего набора данных. Для линейной модели это означает поиск весов. Для дерева он включает определение точек разделения.

Трансформатор

Класс ML.NET, реализующий интерфейс ITransformer.

Преобразователь преобразует один IDataView в другой. Преобразователь создается путем обучения или конвейера оценки.

Неуправляемое машинное обучение

Подкласс машинного обучения, в котором требуемая модель находит скрытую (или латентную) структуру в данных. Примеры включают кластеризацию, моделирование тем и уменьшение размерности. Дополнительные сведения см. в статье неконтролируемое обучение в Википедии.