Руководство по использованию функций RevoScaleR R с данными SQL Server
Область применения: SQL Server 2016 (13.x) и более поздних версий
В этой серии из нескольких руководстве вы ознакомитесь с рядом функций RevoScaleR для выполнения задач, связанных с обработкой и анализом данных. В процессе работы с ним вы научитесь создавать удаленный контекст вычисления, перемещать данные между локальным и удаленным контекстами вычисления и выполнять код на языке R на удаленном сервере SQL Server. Кроме того, вы узнаете, как анализировать и отображать данные как локально, так и на удаленном сервере, а также создавать и развертывать модели.
RevoScaleR — это пакет R от корпорации Майкрософт, обеспечивающий распределенную и параллельную обработку для рабочих нагрузок обработки и анализа данных и машинного обучения. При разработке на языке R в SQL Server RevoScaleR является одним из основных встроенных пакетов. Он содержит функции для создания объектов источников данных, задания контекста вычисления, управления пакетами и, что самое важное, работы с данными: от импорта до визуализации и анализа. Алгоритмы машинного обучения в SQL Server зависят от источников данных RevoScaleR. Учитывая важность пакета RevoScaleR, умение вызывать его функции в соответствующих случаях — очень полезный навык.
Необходимые компоненты
Службы машинного обучения SQL Server с компонентом R или SQL Server R Services (в базе данных)
Разрешения для базы данных и имя пользователя для входа в базу данных SQL Server
Интегрированная среда разработки, например RStudio, или средство RGUI, входящее в состав R
Для переключения между локальным и удаленным контекстами вычисления требуются две системы. Локальный контекст — это обычно рабочая станция разработки с достаточной производительностью для рабочих нагрузок обработки и анализа данных. Удаленным контекстом в этом случае является сервер SQL Server с включенным компонентом R.
Переключение контекста вычисления предполагает наличие одинаковой версии RevoScaleR в локальной и удаленной системах. На локальной рабочей станции пакеты RevoScaleR и связанные поставщики можно получить, установив Microsoft R Client.
Если необходимо разместить клиент и сервер на одном компьютере, установите второй набор библиотек Microsoft R, чтобы отправлять сценарий R из "удаленного" клиента. Не используйте библиотеки R, установленные в программных файлах экземпляра SQL Server. В частности, если используется один компьютер, то для поддержки операций клиента и сервера необходимо иметь библиотеку RevoScaleR в обоих расположениях.
- C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
- C:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR
Инструкции по настройке клиента см. в статье Настройка клиента обработки и анализа данных для разработки на R.
Средства разработки R
Разработчики на языке R обычно используют интегрированные среды разработки для написания и отладки кода R. Примеры, как это сделать:
Инструменты R для Visual Studio (RTVS) — это бесплатный подключаемый модуль, предоставляющий возможности Intellisense, отладки и поддержки Microsoft R. Его можно использовать со службами машинного обучения SQL Server. Чтобы скачать эти средства, перейдите на страницу Средства R для Visual Studio.
RStudio — одна из наиболее популярных сред для разработки на языке R. Дополнительные сведения см. в разделе https://www.rstudio.com/products/RStudio/.
Основные средства R (R.exe, RTerm.exe, RScripts.exe) также устанавливаются по умолчанию при установке среды R в SQL Server или клиента R Client. Если вы не хотите устанавливать интегрированную среду разработки, вы можете использовать встроенные средства R для выполнения кода в этом учебнике.
Напомним, что пакет RevoScaleR требуется как на локальном, так и на удаленном компьютерах. Это руководство нельзя пройти с помощью универсальной установки RStudio или другой среды, в которой нет библиотек R Майкрософт. Дополнительные сведения см. в разделе Настройка клиента обработки и анализа данных.
Сводка задач
- Данные изначально получаются из CSV- или XDF-файлов. Данные импортируются в SQL Server с помощью функций в пакете RevoScaleR .
- Обучение и оценка модели выполняются с помощью контекста вычислений SQL Server.
- Используйте функции RevoScaleR для создания новых таблиц SQL Server для сохранения результатов оценки.
- Графики создаются как на сервере, так и в локальном контексте вычисления.
- Обучить модель данных в базе данных SQL Server под управлением R в экземпляре SQL Server.
- Подмножество данных извлекается и сохраняется в XDF-файле для повторного использования при анализе на локальной рабочей станции.
- Получите новые данные для оценки, открыв подключение ODBC к базе данных SQL Server. Оценка выполняется на локальной рабочей станции.
- Создается пользовательская функция R, которая затем выполняется в контексте серверных вычислений для моделирования.