Plateformes de données prises en charge sur la machine virtuelle DSVM
DSVM (Data Science Virtual Machine) vous permet de générer vos ressources d’analytique sur un large éventail de plateformes de données. En plus des interfaces sur les plateformes de données distantes, la machine virtuelle DSVM fournit une instance locale pour le développement et le prototypage rapides.
DSVM prend en charge les outils de plateforme de données suivants :
SQL Server Developer Edition
Category | Valeur |
---|---|
Qu’est-ce que c’est ? | Une instance de base de données relationnelle locale |
Éditions DSVM prises en charge | Windows 2019, Linux (SQL Server 2019) |
Utilisations classiques |
|
Liens vers des exemples |
|
Outils connexes sur la machine virtuelle DSVM |
|
Notes
L’édition Développeur de SQL Server peut uniquement être utilisée à des fins de test et de développement. Vous avez besoin d’une licence ou de l’une des machines virtuelles SQL Server pour l’exécuter en production.
Remarque
Le support de Machine Learning Server autonome a pris fin le 1er juillet 2021. Nous allons le supprimer des images DSVM après le 30 juin. Les déploiements existants continueront d’avoir accès au logiciel, mais en raison de la date de fin du support, son support a pris fin après le 1er juillet 2021.
Remarque
Nous supprimerons SQL Server Developer Edition des images DSVM avant fin novembre 2021. SQL Server Developer Edition sera toujours installé sur les déploiements existants. Dans les nouveaux déploiements, si vous souhaitez avoir accès à SQL Server Developer Edition, vous pouvez l’installer et l’utiliser via la prise en charge de Docker. Pour plus d’informations, consultez le guide de démarrage rapide Exécuter des images de conteneur SQL Server avec Docker.
Windows
Programme d’installation
Le serveur de base de données est déjà préconfiguré et les services Windows associés à SQL Server (par exemple, SQL Server (MSSQLSERVER)
) sont définis pour s’exécuter automatiquement. La seule étape manuelle implique l’activation de l’analyse en base de données à l’aide de Microsoft Machine Learning Server. Exécutez la commande suivante pour activer l’analyse une seule fois dans SQL Server Management Studio (SSMS). Exécutez cette commande après vous être connecté en tant qu’administrateur de l’ordinateur, ouvrez une nouvelle requête dans SSMS, puis sélectionnez la base de données master
:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Remplacez %COMPUTERNAME% par le nom de votre machine virtuelle.)
Pour exécuter l’outil SQL Server Management Studio, vous pouvez rechercher « SQL Server Management Studio » dans la liste des programmes ou utiliser Windows Search pour le rechercher et l’exécuter. Quand vous êtes invité à fournir des informations d’identification, sélectionnez Authentification Windows et utilisez le nom d’ordinateur ou localhost
dans le champ Nom du serveur SQL.
Comment l’utiliser et l’exécuter ?
Par défaut, le serveur de base de données avec l’instance de base de données par défaut s’exécute automatiquement. Vous pouvez utiliser des outils tels que SQL Server Management Studio sur la machine virtuelle pour accéder à la base de données SQL Server localement. Les comptes administrateurs locaux ont un accès administrateur à la base de données.
En outre, DSVM est fourni avec des pilotes ODBC et JDBC pour la communication
- SQL Server
- Bases de données Azure SQL
- Ressources Azure Synapse Analytics provenant d’applications écrites dans plusieurs langages, notamment Python et Machine Learning Server.
Comment est-il configuré et installé sur la machine virtuelle DSVM ?
SQL Server est installé de manière standard. Vous le trouverez dans le répertoire C:\Program Files\Microsoft SQL Server
. Vous trouverez l’instance de Machine Learning Server en base de données dans le répertoire C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES
. DSVM a aussi une instance de Machine Learning Server autonome distincte, installée à l’emplacement C:\Program Files\Microsoft\R Server\R_SERVER
. Ces deux instances de Machine Learning Server ne partagent pas de bibliothèques.
Ubuntu
Pour utiliser SQL Server Developer Edition sur une machine virtuelle DSVM Ubuntu, vous devez d’abord l’installer. Pour plus d’informations, consultez le guide de démarrage rapide Installer SQL Server et créer une base de données sur Ubuntu.
Apache Spark 2.x (autonome)
Category | Valeur |
---|---|
Qu’est-ce que c’est ? | Une instance (nœud unique In-process) autonome de la plateforme populaire Apache Spark, un système pour le traitement des données et l’apprentissage automatique rapides et à grande échelle |
Éditions DSVM prises en charge | Linux |
Utilisations classiques |
|
Liens vers des exemples | Exemple Jupyter :
Microsoft Machine Learning Server (contexte Spark) : /dsvm/samples/MRS/MRSSparkContextSample.R |
Outils connexes sur la machine virtuelle DSVM |
|
Comment l’utiliser ?
Vous pouvez exécutez la commande spark-submit
ou pyspark
pour envoyer des travaux Spark sur la ligne de commande. Vous pouvez également créer un notebook Jupyter avec le noyau Spark.
Pour utiliser Spark à partir de R, vous utilisez des bibliothèques comme SparkR, Sparklyr et Microsoft Machine Learning Server, qui sont disponibles sur DSVM. Consultez les liens vers les exemples dans le tableau précédent.
Programme d’installation
Avant toute exécution dans un contexte Spark dans Microsoft Machine Learning Server sur l’édition DSVM Ubuntu Linux, vous devez effectuer une opération de configuration unique pour activer une instance Yarn et HDFS Hadoop à nœud unique locale. Par défaut, les services Hadoop sont installés mais désactivés sur la DSVM. Pour les activer, exécutez les commandes suivantes en tant que racine la première fois :
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Pour arrêter les services liés à Hadoop lorsque vous n’en avez plus besoin, exécutez systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn
.
Vous trouverez dans le répertoire /dsvm/samples/MRS
un exemple montrant comment développer et tester MRS dans un contexte Spark distant (l’instance Spark autonome sur DSVM).
Comment est-il configuré et installé sur la machine virtuelle DSVM ?
Plateforme | Emplacement d’installation ($SPARK_HOME) |
---|---|
Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Les bibliothèques pour l’accès aux données à partir du Stockage Blob Azure ou d’Azure Data Lake Storage, à l’aide des bibliothèques d’apprentissage automatique MMLSpark de Microsoft, sont préinstallées dans $SPARK_HOME/jars. Ces fichiers JAR sont automatiquement chargés au lancement de Spark. Par défaut, Spark utilise des données situées sur le disque local.
L’instance Spark sur la machine virtuelle DSVM peut accéder aux données stockées dans le Stockage Blob ou Azure Data Lake Storage. Vous devez d’abord créer et configurer le fichier core-site.xml
en fonction du modèle trouvé dans $SPARK_HOME/conf/core-site.xml.template. Vous devez également disposer des informations d’identification appropriées pour accéder au Stockage Blob et à Azure Data Lake Storage. Les fichiers de modèle utilisent des espaces réservés pour les configurations du Stockage Blob et d’Azure Data Lake Storage.
Pour plus d’informations sur la création des informations d’identification du service Azure Data Lake Storage, consultez le site Authentification avec Azure Data Lake Storage Gen1. Après avoir entré les informations d’identification pour le Stockage Blob ou Azure Data Lake Storage dans le fichier core-site.xml, vous pouvez référencer les données stockées dans ces sources par le biais du préfixe d’URI wasb:// ou adl://.