Dataplattformar som stöds på den Datavetenskap virtuella datorn
Med en Datavetenskap virtuell dator (DSVM) kan du skapa dina analysresurser mot en mängd olika dataplattformar. Förutom gränssnitt till fjärrdataplattformar tillhandahåller DSVM en lokal instans för snabb utveckling och prototyper.
DSVM stöder dessa dataplattformsverktyg:
SQL Server Developer Edition
Kategori | Värde |
---|---|
Vad är det? | En lokal relationsdatabasinstans |
DSVM-utgåvor som stöds | Windows 2019, Linux (SQL Server 2019) |
Vanliga användningsområden |
|
Länkar till exempel |
|
Relaterade verktyg på DSVM |
|
Kommentar
SQL Server Developer Edition kan endast användas i utvecklings- och testsyfte. Du behöver en licens eller en av de virtuella SQL Server-datorerna för att köra den i produktion.
Kommentar
Stödet för fristående Machine Learning Server upphörde den 1 juli 2021. Vi tar bort den från DSVM-avbildningarna efter den 30 juni. Befintliga distributioner kommer att fortsätta att ha åtkomst till programvaran, men på grund av det nådde supportslutdatumet upphör supporten för den efter den 1 juli 2021.
Kommentar
Vi tar bort SQL Server Developer Edition från DSVM-avbildningar i slutet av november 2021. Befintliga distributioner fortsätter att ha SQL Server Developer Edition installerat. Om du vill ha åtkomst till SQL Server Developer Edition i nya distributionsmiljöer kan du installera och använda SQL Server Developer Edition via Docker-support. Mer information finns i Snabbstart: Kör SQL Server-containeravbildningar med Docker .
Windows
Ställ in
Databasservern är redan förkonfigurerad och Windows-tjänsterna som är relaterade till SQL Server (till exempel SQL Server (MSSQLSERVER)
) är inställda på att köras automatiskt. Det enda manuella steget omfattar aktivering av analys i databasen med hjälp av Microsoft Machine Learning Server. Kör följande kommando för att aktivera analys som en engångsåtgärd i SQL Server Management Studio (SSMS). Kör det här kommandot när du har loggat in som datoradministratör, öppna en ny fråga i SSMS och välj databasen master
:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Ersätt %COMPUTERNAME% med namnet på den virtuella datorn.)
Om du vill köra SQL Server Management Studio kan du söka efter "SQL Server Management Studio" i programlistan eller använda Windows Search för att hitta och köra den. När du uppmanas att ange autentiseringsuppgifter väljer du Windows-autentisering och använder antingen datornamnet eller localhost
i fältet SQL Server-namn .
Så här använder och kör du det
Som standard körs databasservern med standarddatabasinstansen automatiskt. Du kan använda verktyg som SQL Server Management Studio på den virtuella datorn för att komma åt SQL Server-databasen lokalt. Lokala administratörskonton har administratörsåtkomst till databasen.
Dessutom levereras DSVM med ODBC- och JDBC-drivrutiner att prata med
- SQL Server
- Azure SQL-databaser
- Azure Synapse Analytics-resurser från program som skrivits på flera språk, inklusive Python och Machine Learning Server.
Hur konfigureras och installeras den på DSVM?
SQL Server installeras på standard sätt. Du hittar den på C:\Program Files\Microsoft SQL Server
. Du hittar In-database Machine Learning Server-instansen på C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES
. DSVM har också en separat fristående Machine Learning Server-instans, installerad på C:\Program Files\Microsoft\R Server\R_SERVER
. Dessa två Machine Learning Server-instanser delar inte bibliotek.
Ubuntu
Du måste först installera SQL Server Developer Edition på en Ubuntu DSVM innan du använder den. Gå till Snabbstart: Installera SQL Server och skapa en databas på Ubuntu för mer information.
Apache Spark 2.x (fristående)
Kategori | Värde |
---|---|
Vad är det? | En fristående (enskild nod i processen) instans av den populära Apache Spark-plattformen; ett system för snabb, storskalig databearbetning och maskininlärning |
DSVM-utgåvor som stöds | Linux |
Vanliga användningsområden |
|
Länkar till exempel | Jupyter-exempel:
Microsoft Machine Learning Server (Spark-kontext): /dsvm/samples/MRS/MRSSparkContextSample.R |
Relaterade verktyg på DSVM |
|
Så här används det
Du kan köra spark-submit
kommandot eller pyspark
för att skicka Spark-jobb på kommandoraden. Du kan också skapa en ny notebook-fil med Spark-kerneln för att skapa en Jupyter Notebook.
Om du vill använda Spark från R använder du bibliotek som SparkR, Sparklyr och Microsoft Machine Learning Server, som är tillgängliga på DSVM. Se länkar till exempel i föregående tabell.
Ställ in
Innan du kör i en Spark-kontext i Microsoft Machine Learning Server på Ubuntu Linux DSVM-utgåvan måste du slutföra ett engångskonfigurationssteg för att aktivera en lokal Hadoop HDFS- och Yarn-instans med en enda nod. Som standard installeras Hadoop-tjänster men inaktiveras på DSVM. Om du vill aktivera dem kör du dessa kommandon som rot första gången:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Om du vill stoppa Hadoop-relaterade tjänster när du inte längre behöver dem kör systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn
du .
Ett exempel som visar hur du utvecklar och testar MRS i en fjärr-Spark-kontext (den fristående Spark-instansen på DSVM) tillhandahålls och är tillgängligt i /dsvm/samples/MRS
katalogen.
Hur konfigureras och installeras den på DSVM?
Plattform | Installera plats ($SPARK_HOME) |
---|---|
Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Bibliotek för åtkomst till data från Azure Blob Storage eller Azure Data Lake Storage med hjälp av maskininlärningsbiblioteken i Microsoft MMLSpark är förinstallerade i $SPARK_HOME/jars. Dessa JAR:er läses in automatiskt när Spark startas. Som standard använder Spark data som finns på den lokala disken.
Spark-instansen på DSVM kan komma åt data som lagras i Blob Storage eller Azure Data Lake Storage. Du måste först skapa och konfigurera core-site.xml
filen baserat på mallen som finns i $SPARK_HOME/conf/core-site.xml.template. Du måste också ha rätt autentiseringsuppgifter för att få åtkomst till Blob Storage och Azure Data Lake Storage. Mallfilerna använder platshållare för Blob Storage- och Azure Data Lake Storage-konfigurationer.
Mer information om hur du skapar autentiseringsuppgifter för Azure Data Lake Storage-tjänsten finns i Autentisering med Azure Data Lake Storage Gen1. När du har angett autentiseringsuppgifterna för Blob Storage eller Azure Data Lake Storage i core-site.xml-filen kan du referera till data som lagras i dessa källor via URI-prefixet för wasb:// eller adl://.