Поделиться через


Линейная корреляция вычислений

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Вычисляет линейную корреляцию между значениями столбцов в наборе данных

Категория: статистические функции

Примечание

Область применения: только Машинное обучение Studio (классическая версия)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

В этой статье описывается, как использовать модуль линейной корреляции вычислений в Машинное обучение Studio (классическая модель) для вычисления набора коэффициентов корреляции Пирсона для каждой возможной пары переменных во входном наборе данных.

Коэффициент корреляции Пирсона, иногда называемый тестом R Пирсона, является статистическим значением, которое измеряет линейную связь между двумя переменными. Проверив значения коэффициентов, можно определить что-то о силе связи между двумя переменными, а также о том, являются ли они положительно коррелировать или отрицательно коррелируются.

Настройка линейной корреляции

Перед вычислением коэффициента корреляции существуют некоторые предварительные требования, такие как очистка данных и проверка того, что связь между переменными подходит для этого модуля. Необходимо также удалить или ввести отсутствующие значения.

При использовании этого модуля применяются следующие ограничения:

  • Модуль линейной корреляции вычислений может обрабатывать только числовые значения. Все другие типы значений, включая недостающие значения, нечисловые значения и категориальные значения, рассматриваются как значения NaN.

  • Корреляция Пирсона вычисляется для всех числовых столбцов в наборе данных, переданных в качестве входных данных. Не забудьте исключить все столбцы, соответствующие этому анализу.

  • Линейная корреляция вычислений не может использоваться с данными с отсутствующими значениями.

Шаг 1. Определение линейности

Если тестируемые столбцы не имеют какой-либо линейной связи, то при создании этого коэффициента нет смысла. Поэтому рекомендуется сначала протестировать столбцы, чтобы узнать, имеют ли они правильный вид данных и правильное распределение в целом.

Существует несколько способов определить, является ли связь между столбцами примерно линейной:

  • Создайте точечную диаграмму переменных в Студии (классической) с помощью параметра визуализации набора данных. Щелкните один из столбцов числовых переменных, разверните "Визуализации" и щелкните "Сравнить с". Выберите другую переменную и автоматически создается точечная диаграмма. Если создается другой тип диаграммы, это означает, что по крайней мере один столбец имеет другой (нечисловый) тип данных.

  • Вычисление уравнения регрессии для двух переменных. Существует множество пакетов R, поддерживающих эту функцию, которые можно загрузить и использовать в модуле «Выполнение скрипта R ».

Шаг 2. Очистка данных

Необходимо удалить или заполнить отсутствующие значения, удалить или вырезать выбросы и убедиться, что столбцы имеют правильный тип данных.

Перед использованием этого модуля обязательно проверьте заполнители и замените такое значение другими соответствующими значениями. Если naN были вставлены для отсутствующих значений при загрузке набора данных из источника, это может привести к ошибке. Значения заполнителей, такие как 999 или -1 также могут привести к плохим результатам.

Для подготовки данных можно использовать следующие модули:

Тип данных столбцов можно настроить с помощью редактирования метаданных. Убедитесь, что столбцы, которые необходимо проанализировать, помечены как столбцы признаков.

Шаг 3. Создание коэффициента

  1. Добавьте модуль линейной корреляции вычислений в эксперимент. Этот модуль можно найти в категории статистических функций в Машинное обучение Studio (классическая модель).

  2. Добавьте набор данных, который требуется проанализировать.

  3. Рекомендуется добавить модуль Select Columns in Dataset между набором данных и модулем линейной корреляции вычислений , чтобы удалить ненужные столбцы. Настройте модуль Select Columns в модуле набора данных, чтобы получить только два числовых столбца, для которых требуется вычислить коэффициенты.

    В противном случае модуль линейной корреляции вычислений может создать множество столбцов naN.

  4. Для этого модуля нет параметров. Однако это приведет к сбою, если столбцы, которые передаются в качестве входных данных, не соответствуют требованиям.

  5. Запустите эксперимент.

Результаты для двух столбцов

Учитывая два столбца признаков, модуль линейной корреляции вычислений возвращает коэффициент корреляции скалярного пирсона (выборка). Коэффициент корреляции Пирсона (часто обозначается как r) диапазонов в значении от +1 до -1.

  • +1 указывает на сильную положительную линейную связь

  • -1 указывает сильную отрицательную линейную корреляцию

  • 0 означает отсутствие линейной связи между двумя переменными.

Интерпретация коэффициентов зависит от моделируемой задачи и изучаемых переменных. Поэтому важно понимать контекст данных при составлении отчетов и интерпретации коэффициента корреляции Пирсона.

  • Если вы уверены, что переменные не связаны, а коэффициент корреляции Пирсона сильно положительный (r > .5 или т. п.), следует изучить дальше.

  • Если вы используете линейную корреляцию для двух переменных, которые вы знаете точно коррелировать, и значения коэффициентов не являются ожидаемыми, это может указывать на проблему в данных.

Результаты для более чем двух столбцов

Учитывая матрицу (т. е. более двух столбцов признаков), модуль вычислений линейной корреляции возвращает набор корреляций моментов продукта Пирсона между каждой парой столбцов признаков.

Таким образом, результатом является таблица n x n , содержащая коэффициенты для каждого сочетания n столбцов. Если какие-либо столбцы не соответствуют критериям, возвращается значение NaN ("не число").

Например, предположим, что вы передали два числовых столбца wheel-base и curb-weight один категориальный столбец make (из набора данных о ценах на автомобили). Результатом является таблица коэффициентов 3x3 для всех возможных сочетаний входных столбцов:

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

В этой таблице строки понимаются для представления каждой из переменных,makewheel-base и curb-weightв этом порядке.

  • Значение r для корреляции wheel-base самого себя равно 1.
  • Значение r для корреляции wheel-basecurb-weight равно 0,776386.
  • Все корреляции, связанные с столбцом make , приводят к значению NaN, включая корреляцию с самим собой, так как make это строковая функция.

Рекомендуется удалить нечисловые столбцы, чтобы избежать сложных таблиц со множеством бессмысленных значений.

Примеры

Чтобы узнать, как этот модуль используется в экспериментах машинного обучения, ознакомьтесь с коллекцией ИИ Azure:

Технические примечания

В этом разделе содержатся сведения о реализации, советы и ответы на часто задаваемые вопросы.

Сведения о реализации

Если столбец, передаваемый в качестве входных данных, содержит скаляры, массивы входных данных (x и y) являются векторами, а корреляция Пирсона по смешанным моментам возвращается следующим образом:

linear correlation formula

В этой формуле каждый массив содержит n элементов, а средства выборок x и y имеют значение μx и μy соответственно.

В случае матрицы данных матрица (X) является входными данными, в которых каждый столбец представляет собой вектор значений. Матрица данных должна быть n-*-m. Выходными данными является матрица m-*-m, R определяется как

formula for linear correlation

В этой формуле μx представляет среднее значение столбца xi. Элементы I, j всегда равны 1, так как они соответствуют корреляции вектора с самим собой.

Ожидаемые входные данные

Имя Тип Описание
Dataset Таблица данных Входной набор данных

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Матрица корреляции

Исключения

Исключение Описание
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.
Ошибка 0020 Исключение возникает, если количество столбцов в некоторых наборах данных, переданных модулю, слишком мало.
Ошибка 0021 Исключение возникает, если количество строк в некоторых наборах данных, переданных модулю, слишком мало.

Список ошибок, относящихся к модулям Студии (классическая модель), см. в Машинное обучение кодах ошибок.

Список исключений API см. в разделе Машинное обучение коды ошибок REST API.

См. также раздел

Статистические функции
Список модулей в алфавитном порядке