Sdílet prostřednictvím


Datové platformy podporované na virtuálním počítači Datová Věda

S Datová Věda virtuálním počítačem (DSVM) můžete vytvářet analytické prostředky na široké škále datových platforem. Kromě rozhraní pro vzdálené datové platformy poskytuje DSVM místní instanci pro rychlý vývoj a vytváření prototypů.

DsVM podporuje tyto nástroje datové platformy:

SQL Server Developer Edition

Kategorie Hodnota
Co je to? Místní instance relační databáze
Podporované edice DSVM Windows 2019, Linux (SQL Server 2019)
Typické použití
  • Rychlý místní vývoj s menší datovou sadou
  • Spuštění v databázi R
Odkazy na ukázky
  • Do databáze SQL se načte malá ukázka datové sady New Yorku:
    nyctaxi
  • Najděte ukázku Jupyteru, která zobrazuje Microsoft Machine Learning Server a analýzu v databázi na adrese:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Související nástroje na DSVM
  • SQL Server Management Studio
  • Ovladače ODBC/JDBC
  • pyodbc, RODBC

Poznámka:

SQL Server Developer Edition lze použít pouze pro účely vývoje a testování. K jeho spuštění v produkčním prostředí potřebujete licenci nebo jeden z virtuálních počítačů s SQL Serverem.

Poznámka:

Podpora pro samostatnou službu Machine Learning Server skončila 1. července 2021. Odebereme ho z imagí DSVM po 30. červnu. Stávající nasazení budou mít nadále přístup k softwaru, ale vzhledem k dosažení koncového data podpory skončila podpora po 1. červenci 2021.

Poznámka:

Sql Server Developer Edition odebereme z imagí DSVM do konce listopadu 2021. Stávající nasazení budou mít i nadále nainstalovanou edici SQL Server Developer Edition. Pokud chcete mít přístup k edici SQL Server Developer Edition, můžete v nových nasazeních nainstalovat a používat SQL Server Developer Edition prostřednictvím podpory Dockeru. Další informace najdete v rychlém startu: Spuštění imagí kontejneru SQL Serveru pomocí Dockeru .

Windows

Nastavení

Databázový server je již předem nakonfigurovaný a služby Systému Windows související s SQL Serverem (například) se nastaví tak, SQL Server (MSSQLSERVER)aby se spouštěly automaticky. Jediným ručním krokem je povolení analýzy v databázi pomocí Microsoft Machine Learning Serveru. Spuštěním následujícího příkazu povolte analýzu jako jednorázovou akci v aplikaci SQL Server Management Studio (SSMS). Spusťte tento příkaz po přihlášení jako správce počítače, otevřete nový dotaz v nástroji SSMS a vyberte master databázi:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(Nahraďte %COMPUTERNAME% názvem virtuálního počítače.)

Pokud chcete spustit SQL Server Management Studio, můžete v seznamu programů vyhledat "SQL Server Management Studio" nebo ho vyhledat a spustit pomocí služby Windows Search. Po zobrazení výzvy k zadání přihlašovacích údajů vyberte Ověřování systému Windows a použijte název počítače nebo localhost v poli Název SQL Serveru.

Jak ho používat a spustit

Ve výchozím nastavení se databázový server s výchozí instancí databáze spouští automaticky. K místnímu přístupu k databázi SQL Serveru můžete použít nástroje, jako je SQL Server Management Studio na virtuálním počítači. Účty místního správce mají v databázi přístup správce.

Kromě toho se dsVM dodává s ovladači ODBC a JDBC pro komunikaci s

  • SQL Server
  • Databáze Azure SQL
  • Prostředky Azure Synapse Analytics z aplikací napsaných ve více jazycích, včetně Pythonu a Machine Learning Serveru.

Jak je nakonfigurovaný a nainstalovaný na DSVM?

SQL Server je nainstalován standardním způsobem. Najdete ho na adrese C:\Program Files\Microsoft SQL Server. Instanci in-database Machine Learning Serveru najdete na adrese C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. DsVM má také samostatnou samostatnou instanci Machine Learning Serveru nainstalovanou na C:\Program Files\Microsoft\R Server\R_SERVERadrese . Tyto dvě instance Machine Learning Serveru nesdílely knihovny.

Ubuntu

Před použitím musíte nejprve nainstalovat SQL Server Developer Edition na DSVM s Ubuntu. Navštivte rychlý start: Nainstalujte SQL Server a vytvořte databázi na Ubuntu , kde najdete další informace.

Apache Spark 2.x (samostatný)

Kategorie Hodnota
Co je to? Samostatná instance (v procesu s jedním uzlem) oblíbené platformy Apache Spark; systém pro rychlé a rozsáhlé zpracování dat a strojové učení
Podporované edice DSVM Linux
Typické použití
  • Rychlý vývoj aplikací Spark/PySpark místně s menší datovou sadou a pozdější nasazení ve velkých clusterech Spark, jako je Azure HDInsight
  • Testování kontextu Spark serveru Microsoft Machine Learning Server
  • Vytváření aplikací ML pomocí SparkML nebo opensourcové knihovny MMLSpark od Microsoftu
Odkazy na ukázky Ukázka Jupyteru:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (kontext Sparku): /dsvm/samples/MRS/MRSSparkContextSample.R

Související nástroje na DSVM
  • PySpark, Scala
  • Jupyter (jádra Spark/PySpark)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache Drill

Jak ji použít

Spuštěním spark-submit příkazu nebo pyspark odesláním úloh Sparku na příkazovém řádku. Můžete také vytvořit nový poznámkový blok s jádrem Spark a vytvořit poznámkový blok Jupyter.

Pokud chcete použít Spark z R, použijte knihovny, jako je SparkR, Sparklyr a Microsoft Machine Learning Server, které jsou k dispozici na DSVM. Viz odkazy na ukázky v předchozí tabulce.

Nastavení

Před spuštěním v kontextu Sparku na Microsoft Machine Learning Serveru v edici DSVM s Ubuntu Linuxem musíte provést jednorázový krok nastavení, abyste povolili místní jednu instanci Hadoop HDFS a Yarn. Ve výchozím nastavení jsou služby Hadoop nainstalovány, ale zakázány na DSVM. Pokud je chcete povolit, spusťte tyto příkazy poprvé jako kořen:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Pokud chcete zastavit služby související s Hadoopem, když je už nepotřebujete, spusťte systemctl stop hadoop-namenode hadoop-datanode hadoop-yarnpříkaz .

Ukázka, která ukazuje, jak vyvíjet a testovat mrs ve vzdáleném kontextu Sparku (samostatná instance Sparku na DSVM) je k dispozici a dostupná v /dsvm/samples/MRS adresáři.

Jak je nakonfigurovaný a nainstalovaný na DSVM?

Platforma Umístění instalace ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Knihovny pro přístup k datům ze služby Azure Blob Storage nebo Azure Data Lake Storage pomocí knihoven strojového učení Microsoft MMLSpark jsou předinstalované v $SPARK_HOME/jars. Tyto žádosti o přijetí změn se automaticky načtou při spuštění Sparku. Spark ve výchozím nastavení používá data umístěná na místním disku.

Instance Sparku na DSVM má přístup k datům uloženým v úložišti objektů blob nebo Azure Data Lake Storage. Nejprve musíte vytvořit a nakonfigurovat core-site.xml soubor na základě šablony nalezené v souboru $SPARK_HOME/conf/core-site.xml.template. Musíte mít také příslušné přihlašovací údaje pro přístup ke službě Blob Storage a Azure Data Lake Storage. Soubory šablony používají zástupné symboly pro konfigurace Úložiště objektů blob a Azure Data Lake Storage.

Další informace o vytvoření přihlašovacích údajů služby Azure Data Lake Storage najdete v tématu Ověřování pomocí Azure Data Lake Storage Gen1. Po zadání přihlašovacích údajů pro úložiště objektů blob nebo Azure Data Lake Storage v souboru core-site.xml můžete odkazovat na data uložená v těchto zdrojích prostřednictvím předpony identifikátoru URI wasb:// nebo adl://.