Dataplattformar som stöds på den Datavetenskap virtuella datorn

Artikel
11/23/2024

Med en Datavetenskap virtuell dator (DSVM) kan du skapa dina analysresurser mot en mängd olika dataplattformar. Förutom gränssnitt till fjärrdataplattformar tillhandahåller DSVM en lokal instans för snabb utveckling och prototyper.

DSVM stöder dessa dataplattformsverktyg:

SQL Server Developer Edition

Kategori	Värde
Vad är det?	En lokal relationsdatabasinstans
DSVM-utgåvor som stöds	Windows 2019, Linux (SQL Server 2019)
Vanliga användningsområden	Snabb lokal utveckling med en mindre datauppsättning Kör I-databas R
Länkar till exempel	Ett litet exempel på en Datamängd i New York City läses in i SQL-databasen: `nyctaxi` Hitta ett Jupyter-exempel som visar Microsoft Machine Learning Server och analys i databasen på: `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
Relaterade verktyg på DSVM	SQL Server Management Studio ODBC/JDBC-drivrutiner pyodbc, RODBC

Kommentar

SQL Server Developer Edition kan endast användas i utvecklings- och testsyfte. Du behöver en licens eller en av de virtuella SQL Server-datorerna för att köra den i produktion.

Kommentar

Stödet för fristående Machine Learning Server upphörde den 1 juli 2021. Vi tar bort den från DSVM-avbildningarna efter den 30 juni. Befintliga distributioner kommer att fortsätta att ha åtkomst till programvaran, men på grund av det nådde supportslutdatumet upphör supporten för den efter den 1 juli 2021.

Kommentar

Vi tar bort SQL Server Developer Edition från DSVM-avbildningar i slutet av november 2021. Befintliga distributioner fortsätter att ha SQL Server Developer Edition installerat. Om du vill ha åtkomst till SQL Server Developer Edition i nya distributionsmiljöer kan du installera och använda SQL Server Developer Edition via Docker-support. Mer information finns i Snabbstart: Kör SQL Server-containeravbildningar med Docker .

Windows

Ställ in

Databasservern är redan förkonfigurerad och Windows-tjänsterna som är relaterade till SQL Server (till exempel SQL Server (MSSQLSERVER)) är inställda på att köras automatiskt. Det enda manuella steget omfattar aktivering av analys i databasen med hjälp av Microsoft Machine Learning Server. Kör följande kommando för att aktivera analys som en engångsåtgärd i SQL Server Management Studio (SSMS). Kör det här kommandot när du har loggat in som datoradministratör, öppna en ny fråga i SSMS och välj databasen master :

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(Ersätt %COMPUTERNAME% med namnet på den virtuella datorn.)

Om du vill köra SQL Server Management Studio kan du söka efter "SQL Server Management Studio" i programlistan eller använda Windows Search för att hitta och köra den. När du uppmanas att ange autentiseringsuppgifter väljer du Windows-autentisering och använder antingen datornamnet eller localhost i fältet SQL Server-namn .

Så här använder och kör du det

Som standard körs databasservern med standarddatabasinstansen automatiskt. Du kan använda verktyg som SQL Server Management Studio på den virtuella datorn för att komma åt SQL Server-databasen lokalt. Lokala administratörskonton har administratörsåtkomst till databasen.

Dessutom levereras DSVM med ODBC- och JDBC-drivrutiner att prata med

SQL Server
Azure SQL-databaser
Azure Synapse Analytics-resurser från program som skrivits på flera språk, inklusive Python och Machine Learning Server.

Hur konfigureras och installeras den på DSVM?

SQL Server installeras på standard sätt. Du hittar den på C:\Program Files\Microsoft SQL Server. Du hittar In-database Machine Learning Server-instansen på C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. DSVM har också en separat fristående Machine Learning Server-instans, installerad på C:\Program Files\Microsoft\R Server\R_SERVER. Dessa två Machine Learning Server-instanser delar inte bibliotek.

Ubuntu

Du måste först installera SQL Server Developer Edition på en Ubuntu DSVM innan du använder den. Gå till Snabbstart: Installera SQL Server och skapa en databas på Ubuntu för mer information.

Apache Spark 2.x (fristående)

Kategori	Värde
Vad är det?	En fristående (enskild nod i processen) instans av den populära Apache Spark-plattformen; ett system för snabb, storskalig databearbetning och maskininlärning
DSVM-utgåvor som stöds	Linux
Vanliga användningsområden	Snabb utveckling av Spark/PySpark-program lokalt med en mindre datauppsättning och senare distribution på stora Spark-kluster som Azure HDInsight Testa Spark-kontexten för Microsoft Machine Learning Server Använda SparkML eller Microsoft MMLSpark-biblioteket med öppen källkod för att skapa ML-program
Länkar till exempel	Jupyter-exempel: ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Microsoft Machine Learning Server (Spark-kontext): /dsvm/samples/MRS/MRSSparkContextSample.R
Relaterade verktyg på DSVM	PySpark, Scala Jupyter (Spark/PySpark Kernels) Microsoft Machine Learning Server, SparkR, Sparklyr Apache Drill

Så här används det

Du kan köra spark-submit kommandot eller pyspark för att skicka Spark-jobb på kommandoraden. Du kan också skapa en ny notebook-fil med Spark-kerneln för att skapa en Jupyter Notebook.

Om du vill använda Spark från R använder du bibliotek som SparkR, Sparklyr och Microsoft Machine Learning Server, som är tillgängliga på DSVM. Se länkar till exempel i föregående tabell.

Ställ in

Innan du kör i en Spark-kontext i Microsoft Machine Learning Server på Ubuntu Linux DSVM-utgåvan måste du slutföra ett engångskonfigurationssteg för att aktivera en lokal Hadoop HDFS- och Yarn-instans med en enda nod. Som standard installeras Hadoop-tjänster men inaktiveras på DSVM. Om du vill aktivera dem kör du dessa kommandon som rot första gången:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Om du vill stoppa Hadoop-relaterade tjänster när du inte längre behöver dem kör systemctl stop hadoop-namenode hadoop-datanode hadoop-yarndu .

Ett exempel som visar hur du utvecklar och testar MRS i en fjärr-Spark-kontext (den fristående Spark-instansen på DSVM) tillhandahålls och är tillgängligt i /dsvm/samples/MRS katalogen.

Hur konfigureras och installeras den på DSVM?

Plattform	Installera plats ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

Bibliotek för åtkomst till data från Azure Blob Storage eller Azure Data Lake Storage med hjälp av maskininlärningsbiblioteken i Microsoft MMLSpark är förinstallerade i $SPARK_HOME/jars. Dessa JAR:er läses in automatiskt när Spark startas. Som standard använder Spark data som finns på den lokala disken.

Spark-instansen på DSVM kan komma åt data som lagras i Blob Storage eller Azure Data Lake Storage. Du måste först skapa och konfigurera core-site.xml filen baserat på mallen som finns i $SPARK_HOME/conf/core-site.xml.template. Du måste också ha rätt autentiseringsuppgifter för att få åtkomst till Blob Storage och Azure Data Lake Storage. Mallfilerna använder platshållare för Blob Storage- och Azure Data Lake Storage-konfigurationer.

Mer information om hur du skapar autentiseringsuppgifter för Azure Data Lake Storage-tjänsten finns i Autentisering med Azure Data Lake Storage Gen1. När du har angett autentiseringsuppgifterna för Blob Storage eller Azure Data Lake Storage i core-site.xml-filen kan du referera till data som lagras i dessa källor via URI-prefixet för wasb:// eller adl://.

Dela via

Dataplattformar som stöds på den Datavetenskap virtuella datorn

SQL Server Developer Edition

Windows

Ställ in

Så här använder och kör du det

Hur konfigureras och installeras den på DSVM?

Ubuntu

Apache Spark 2.x (fristående)

Så här används det

Ställ in

Hur konfigureras och installeras den på DSVM?

Feedback

Ytterligare resurser