Языки, поддерживаемые Виртуальной машиной для обработки и анализа данных
С помощью Виртуальная машина для обработки и анализа данных (DSVM) вы можете создавать ресурсы аналитики на основе широкого спектра платформ данных. Кроме интерфейсов для платформ удаленных данных DSVM предоставляет локальный экземпляр для быстрой разработки и создания прототипов.
DSVM поддерживает следующие средства платформы данных:
SQL Server Developer Edition
Категория | Значение |
---|---|
Что это такое? | Экземпляр локальной реляционной базы данных |
Поддерживаемые выпуски DSVM | Windows 2019, Linux (SQL Server 2019) |
Распространенные способы применения |
|
Ссылки на примеры |
|
Дополнительные средства на Виртуальной машине для обработки и анализа данных |
|
Примечание.
Выпуск SQL Server Developer предназначен только для разработки и тестирования. Для запуска в рабочей среде вам потребуется лицензия или одна из виртуальных машин SQL Server.
Примечание.
Поддержка автономного сервера Машинное обучение закончилась 1 июля 2021 г. Мы удалим его из образов DSVM после 30 июня. Существующие развертывания будут продолжать иметь доступ к программному обеспечению, но из-за достигнутой даты окончания поддержки поддержка закончилась после 1 июля 2021 года.
Примечание.
Выпуск SQL Server Developer будет удален из образов DSVM в конце ноября 2021 г. В существующих развертываниях выпуск SQL Server Developer останется. В новых развертываниях, если вы хотите получить доступ к SQL Server Developer Edition, вы можете установить и использовать SQL Server Developer Edition с помощью поддержки Docker. См . краткое руководство. Запуск образов контейнеров SQL Server с помощью Docker для получения дополнительных сведений.
Windows
Настройка
Сервер базы данных уже предварительно настроен, а службы Windows, связанные с SQL Server (например, SQL Server (MSSQLSERVER)
), настроены автоматически. Единственный шаг вручную включает включение аналитики в базе данных с помощью сервера Microsoft Машинное обучение Server. Выполните следующую команду, чтобы включить аналитику в качестве одноразового действия в SQL Server Management Studio (SSMS). Выполните следующую команду после входа в систему от имени администратора компьютера, откройте новый запрос в SSMS и выберите master
базу данных:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Замените %COMPUTERNAME% на имя виртуальной машины.)
Чтобы запустить SQL Server Management Studio, найдите среду SQL Server Management Studio в списке программ или воспользуйтесь поиском Windows, чтобы найти и запустить ее. При появлении запроса на получение учетных данных выберите проверку подлинности Windows и используйте имя компьютера или localhost
в поле имени SQL Server.
Запуск и использование
Сервер базы данных с экземпляром базы данных по умолчанию выполняется автоматически. Чтобы получить доступ к базе данных SQL Server локально, на виртуальной машине можно использовать такие средства, как SQL Server Management Studio. Учетная запись локального администратора имеет права администратора для базы данных.
Кроме того, DSVM поставляется с драйверами ODBC и JDBC для беседы
- SQL Server
- Базы данных SQL Azure
- Ресурсы Azure Synapse Analytics из приложений, написанных на нескольких языках, включая Python и сервер Машинное обучение Server.
Установка и настройка на DSVM
SQL Server устанавливается обычным образом. Его можно найти.C:\Program Files\Microsoft SQL Server
Экземпляр сервера Машинное обучение базы данных можно найти по C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES
адресу. DSVM также имеет отдельный автономный экземпляр Машинное обучение Server, установленный в C:\Program Files\Microsoft\R Server\R_SERVER
. Эти два экземпляра сервера Machine Learning Server не используют общие библиотеки.
Ubuntu
Прежде чем использовать его, необходимо сначала установить выпуск SQL Server Developer Edition на виртуальной машине DSVM Ubuntu. См . краткое руководство. Установка SQL Server и создание базы данных в Ubuntu для получения дополнительных сведений.
Экземпляр Apache Spark 2.x (изолированный)
Категория | Значение |
---|---|
Что это такое? | Изолированный экземпляр (внутрипроцессный с одним узлом) популярной платформы Apache Spark, система для быстрой обработки данных большого объема и машинного обучения |
Поддерживаемые выпуски DSVM | Linux |
Распространенные способы применения |
|
Ссылки на примеры | Пример Jupyter:
Microsoft Machine Learning Server (содержимое Spark): /dsvm/samples/MRS/MRSSparkContextSample.R |
Дополнительные средства на Виртуальной машине для обработки и анализа данных |
|
Использование
Вы можете запустить или pyspark
выполнить spark-submit
команду для отправки заданий Spark в командной строке. Вы также можете создать записную книжку с ядром Spark, чтобы создать записную книжку Jupyter.
Чтобы использовать Spark из R, вы используете такие библиотеки, как SparkR, Sparklyr и Сервер Microsoft Машинное обучение Server, которые доступны в DSVM. См. ссылки на примеры в предыдущей таблице.
Настройка
Перед запуском в контексте Spark в Microsoft Машинное обучение Server в выпуске DSVM Ubuntu Linux необходимо выполнить однократный шаг настройки, чтобы включить локальный экземпляр Hadoop HDFS и Yarn. По умолчанию на виртуальной машине для обработки и анализа данных службы Hadoop установлены, но отключены. Чтобы включить их, выполните следующие команды в качестве корня в первый раз:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Чтобы остановить службы, связанные с Hadoop, если они больше не нужны, выполните команду systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn
.
Пример, демонстрирующий разработку и тестирование MRS в удаленном контексте Spark (автономный экземпляр Spark в DSVM) предоставляется и доступен в каталоге /dsvm/samples/MRS
.
Установка и настройка на DSVM
Платформа | Размещение установки ($SPARK_HOME) |
---|---|
Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Библиотеки для доступа к данным из BLOB-объекта или хранилища Azure Data Lake Storage и библиотеки с использованием машинного обучения MMLSpark корпорации Майкрософт предварительно установлены в $SPARK_HOME/jars. Эти JAR автоматически загружаются при запуске Spark. По умолчанию Spark использует данные, расположенные на локальном диске.
Экземпляр Spark в DSVM может получить доступ к данным, хранящимся в хранилище BLOB-объектов или Azure Data Lake Storage. Сначала необходимо создать и настроить файл на основе шаблона, найденного core-site.xml
в файле $SPARK_HOME/conf/core-site.xml.template. Кроме того, необходимо иметь соответствующие учетные данные для доступа к хранилищу BLOB-объектов и хранилищу Azure Data Lake Storage. Файлы шаблонов используют заполнители для хранилища BLOB-объектов и конфигураций Azure Data Lake Storage.
Дополнительные сведения о создании учетных данных службы Azure Data Lake Storage см. в статье "Проверка подлинности с помощью Azure Data Lake Storage 1-го поколения". После ввода учетных данных для хранилища BLOB-объектов или Azure Data Lake Storage в файле core-site.xml можно ссылаться на данные, хранящиеся в этих источниках, с помощью префикса URI wasb:// или adl://.