Datové platformy podporované na virtuálním počítači Datová Věda
S Datová Věda virtuálním počítačem (DSVM) můžete vytvářet analytické prostředky na široké škále datových platforem. Kromě rozhraní pro vzdálené datové platformy poskytuje DSVM místní instanci pro rychlý vývoj a vytváření prototypů.
DsVM podporuje tyto nástroje datové platformy:
SQL Server Developer Edition
Kategorie | Hodnota |
---|---|
Co je to? | Místní instance relační databáze |
Podporované edice DSVM | Windows 2019, Linux (SQL Server 2019) |
Typické použití |
|
Odkazy na ukázky |
|
Související nástroje na DSVM |
|
Poznámka:
SQL Server Developer Edition lze použít pouze pro účely vývoje a testování. K jeho spuštění v produkčním prostředí potřebujete licenci nebo jeden z virtuálních počítačů s SQL Serverem.
Poznámka:
Podpora pro samostatnou službu Machine Learning Server skončila 1. července 2021. Odebereme ho z imagí DSVM po 30. červnu. Stávající nasazení budou mít nadále přístup k softwaru, ale vzhledem k dosažení koncového data podpory skončila podpora po 1. červenci 2021.
Poznámka:
Sql Server Developer Edition odebereme z imagí DSVM do konce listopadu 2021. Stávající nasazení budou mít i nadále nainstalovanou edici SQL Server Developer Edition. Pokud chcete mít přístup k edici SQL Server Developer Edition, můžete v nových nasazeních nainstalovat a používat SQL Server Developer Edition prostřednictvím podpory Dockeru. Další informace najdete v rychlém startu: Spuštění imagí kontejneru SQL Serveru pomocí Dockeru .
Windows
Nastavení
Databázový server je již předem nakonfigurovaný a služby Systému Windows související s SQL Serverem (například) se nastaví tak, SQL Server (MSSQLSERVER)
aby se spouštěly automaticky. Jediným ručním krokem je povolení analýzy v databázi pomocí Microsoft Machine Learning Serveru. Spuštěním následujícího příkazu povolte analýzu jako jednorázovou akci v aplikaci SQL Server Management Studio (SSMS). Spusťte tento příkaz po přihlášení jako správce počítače, otevřete nový dotaz v nástroji SSMS a vyberte master
databázi:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Nahraďte %COMPUTERNAME% názvem virtuálního počítače.)
Pokud chcete spustit SQL Server Management Studio, můžete v seznamu programů vyhledat "SQL Server Management Studio" nebo ho vyhledat a spustit pomocí služby Windows Search. Po zobrazení výzvy k zadání přihlašovacích údajů vyberte Ověřování systému Windows a použijte název počítače nebo localhost
v poli Název SQL Serveru.
Jak ho používat a spustit
Ve výchozím nastavení se databázový server s výchozí instancí databáze spouští automaticky. K místnímu přístupu k databázi SQL Serveru můžete použít nástroje, jako je SQL Server Management Studio na virtuálním počítači. Účty místního správce mají v databázi přístup správce.
Kromě toho se dsVM dodává s ovladači ODBC a JDBC pro komunikaci s
- SQL Server
- Databáze Azure SQL
- Prostředky Azure Synapse Analytics z aplikací napsaných ve více jazycích, včetně Pythonu a Machine Learning Serveru.
Jak je nakonfigurovaný a nainstalovaný na DSVM?
SQL Server je nainstalován standardním způsobem. Najdete ho na adrese C:\Program Files\Microsoft SQL Server
. Instanci in-database Machine Learning Serveru najdete na adrese C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES
. DsVM má také samostatnou samostatnou instanci Machine Learning Serveru nainstalovanou na C:\Program Files\Microsoft\R Server\R_SERVER
adrese . Tyto dvě instance Machine Learning Serveru nesdílely knihovny.
Ubuntu
Před použitím musíte nejprve nainstalovat SQL Server Developer Edition na DSVM s Ubuntu. Navštivte rychlý start: Nainstalujte SQL Server a vytvořte databázi na Ubuntu , kde najdete další informace.
Apache Spark 2.x (samostatný)
Kategorie | Hodnota |
---|---|
Co je to? | Samostatná instance (v procesu s jedním uzlem) oblíbené platformy Apache Spark; systém pro rychlé a rozsáhlé zpracování dat a strojové učení |
Podporované edice DSVM | Linux |
Typické použití |
|
Odkazy na ukázky | Ukázka Jupyteru:
Microsoft Machine Learning Server (kontext Sparku): /dsvm/samples/MRS/MRSSparkContextSample.R |
Související nástroje na DSVM |
|
Jak ji použít
Spuštěním spark-submit
příkazu nebo pyspark
odesláním úloh Sparku na příkazovém řádku. Můžete také vytvořit nový poznámkový blok s jádrem Spark a vytvořit poznámkový blok Jupyter.
Pokud chcete použít Spark z R, použijte knihovny, jako je SparkR, Sparklyr a Microsoft Machine Learning Server, které jsou k dispozici na DSVM. Viz odkazy na ukázky v předchozí tabulce.
Nastavení
Před spuštěním v kontextu Sparku na Microsoft Machine Learning Serveru v edici DSVM s Ubuntu Linuxem musíte provést jednorázový krok nastavení, abyste povolili místní jednu instanci Hadoop HDFS a Yarn. Ve výchozím nastavení jsou služby Hadoop nainstalovány, ale zakázány na DSVM. Pokud je chcete povolit, spusťte tyto příkazy poprvé jako kořen:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Pokud chcete zastavit služby související s Hadoopem, když je už nepotřebujete, spusťte systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn
příkaz .
Ukázka, která ukazuje, jak vyvíjet a testovat mrs ve vzdáleném kontextu Sparku (samostatná instance Sparku na DSVM) je k dispozici a dostupná v /dsvm/samples/MRS
adresáři.
Jak je nakonfigurovaný a nainstalovaný na DSVM?
Platforma | Umístění instalace ($SPARK_HOME) |
---|---|
Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Knihovny pro přístup k datům ze služby Azure Blob Storage nebo Azure Data Lake Storage pomocí knihoven strojového učení Microsoft MMLSpark jsou předinstalované v $SPARK_HOME/jars. Tyto žádosti o přijetí změn se automaticky načtou při spuštění Sparku. Spark ve výchozím nastavení používá data umístěná na místním disku.
Instance Sparku na DSVM má přístup k datům uloženým v úložišti objektů blob nebo Azure Data Lake Storage. Nejprve musíte vytvořit a nakonfigurovat core-site.xml
soubor na základě šablony nalezené v souboru $SPARK_HOME/conf/core-site.xml.template. Musíte mít také příslušné přihlašovací údaje pro přístup ke službě Blob Storage a Azure Data Lake Storage. Soubory šablony používají zástupné symboly pro konfigurace Úložiště objektů blob a Azure Data Lake Storage.
Další informace o vytvoření přihlašovacích údajů služby Azure Data Lake Storage najdete v tématu Ověřování pomocí Azure Data Lake Storage Gen1. Po zadání přihlašovacích údajů pro úložiště objektů blob nebo Azure Data Lake Storage v souboru core-site.xml můžete odkazovat na data uložená v těchto zdrojích prostřednictvím předpony identifikátoru URI wasb:// nebo adl://.