Platformy danych obsługiwane na maszynie wirtualnej Nauka o danych
Za pomocą maszyny wirtualnej Nauka o danych (DSVM) można tworzyć zasoby analityczne na wielu platformach danych. Oprócz interfejsów zdalnych platform danych maszyna DSVM udostępnia lokalne wystąpienie do szybkiego opracowywania i tworzenia prototypów.
Maszyna DSVM obsługuje następujące narzędzia platformy danych:
SQL Server Developer Edition
Kategoria | Wartość |
---|---|
Co to jest? | Lokalne wystąpienie relacyjnej bazy danych |
Obsługiwane wersje maszyny DSVM | Windows 2019, Linux (SQL Server 2019) |
Typowe zastosowania |
|
Linki do przykładów |
|
Powiązane narzędzia na maszynie DSVM |
|
Uwaga
Program SQL Server Developer Edition może być używany tylko do celów programistycznych i testowych. Aby można było uruchomić ją w środowisku produkcyjnym, potrzebujesz licencji lub jednej z maszyn wirtualnych programu SQL Server.
Uwaga
Wsparcie dla autonomicznego serwera Machine Learning Server zakończyło się 1 lipca 2021 r. Usuniemy go z obrazów maszyny DSVM po 30 czerwca. Istniejące wdrożenia będą nadal miały dostęp do oprogramowania, ale ze względu na datę zakończenia wsparcia technicznego wsparcie dla niego zakończy się po 1 lipca 2021 r.
Uwaga
Do końca listopada 2021 r. usuniemy program SQL Server Developer Edition z obrazów DSVM. Istniejące wdrożenia będą nadal zainstalowane w programie SQL Server Developer Edition. W nowych wdrożeniach, jeśli chcesz mieć dostęp do programu SQL Server Developer Edition, możesz zainstalować i użyć programu SQL Server Developer Edition za pośrednictwem obsługi platformy Docker. Odwiedź stronę Szybki start: uruchamianie obrazów kontenerów programu SQL Server za pomocą platformy Docker , aby uzyskać więcej informacji.
Windows
Ustawienia
Serwer bazy danych jest już wstępnie skonfigurowany, a usługi systemu Windows związane z programem SQL Server (na przykład SQL Server (MSSQLSERVER)
) są ustawione do automatycznego uruchamiania. Jedynym krokiem ręcznym jest włączenie analizy w bazie danych za pomocą programu Microsoft Machine Learning Server. Uruchom następujące polecenie, aby włączyć analizę jako jednorazową akcję w programie SQL Server Management Studio (SSMS). Uruchom to polecenie po zalogowaniu się jako administrator maszyny, otwórz nowe zapytanie w programie SSMS i wybierz master
bazę danych:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Zastąp ciąg %COMPUTERNAME% nazwą maszyny wirtualnej).
Aby uruchomić program SQL Server Management Studio, możesz wyszukać ciąg "SQL Server Management Studio" na liście programów lub użyć usługi Windows Search, aby go znaleźć i uruchomić. Po wyświetleniu monitu o poświadczenia wybierz pozycję Uwierzytelnianie systemu Windows i użyj nazwy komputera lub localhost
w polu Nazwa serwera SQL.
Jak go używać i uruchamiać
Domyślnie serwer bazy danych z domyślnym wystąpieniem bazy danych jest uruchamiany automatycznie. Aby uzyskać dostęp do bazy danych programu SQL Server lokalnie, możesz użyć narzędzi takich jak SQL Server Management Studio na maszynie wirtualnej. Konta administratorów lokalnych mają dostęp administratora do bazy danych.
Ponadto maszyna DSVM jest dostarczana z sterownikami ODBC i JDBC, aby porozmawiać z
- SQL Server
- Bazy danych Azure SQL Database
- Zasoby usługi Azure Synapse Analytics z aplikacji napisanych w wielu językach, w tym Python i Machine Learning Server.
Jak jest on skonfigurowany i zainstalowany na maszynie DSVM?
Program SQL Server jest instalowany w standardowy sposób. Możesz go znaleźć na stronie C:\Program Files\Microsoft SQL Server
. Wystąpienie serwera Machine Learning w bazie danych znajduje się na stronie C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES
. Maszyna DSVM ma również oddzielne autonomiczne wystąpienie serwera Machine Learning Server zainstalowane na stronie C:\Program Files\Microsoft\R Server\R_SERVER
. Te dwa wystąpienia usługi Machine Learning Server nie współużytkują bibliotek.
Ubuntu
Przed jego użyciem należy najpierw zainstalować program SQL Server Developer Edition na maszynie DSVM z systemem Ubuntu. Odwiedź stronę Szybki start: instalowanie programu SQL Server i tworzenie bazy danych w systemie Ubuntu , aby uzyskać więcej informacji.
Apache Spark 2.x (autonomiczny)
Kategoria | Wartość |
---|---|
Co to jest? | Autonomiczne (jednowęźle w procesie) wystąpienie popularnej platformy Apache Spark; system do szybkiego przetwarzania danych na dużą skalę i uczenia maszynowego |
Obsługiwane wersje maszyny DSVM | Linux |
Typowe zastosowania |
|
Linki do przykładów | Przykład jupyter:
Microsoft Machine Learning Server (kontekst Spark): /dsvm/samples/MRSSparkContextSample.R |
Powiązane narzędzia na maszynie DSVM |
|
Korzystanie
Możesz uruchomić polecenie lubpyspark
, spark-submit
aby przesłać zadania platformy Spark w wierszu polecenia. Możesz również utworzyć nowy notes za pomocą jądra platformy Spark, aby utworzyć notes Jupyter.
Aby używać platformy Spark z języka R, należy używać bibliotek, takich jak SparkR, Sparklyr i Microsoft Machine Learning Server, które są dostępne na maszynie DSVM. Zobacz linki do przykładów w poprzedniej tabeli.
Ustawienia
Przed uruchomieniem w kontekście platformy Spark w programie Microsoft Machine Learning Server w systemie Ubuntu Linux DSVM należy wykonać jednorazowy krok konfiguracji, aby włączyć lokalny system plików HDFS i wystąpienie Yarn platformy Hadoop w jednym węźle. Domyślnie usługi Hadoop są instalowane, ale wyłączone na maszynie DSVM. Aby je włączyć, uruchom następujące polecenia jako katalog główny po raz pierwszy:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Aby zatrzymać usługi związane z platformą Hadoop, gdy nie są już potrzebne, uruchom polecenie systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn
.
Przykład przedstawiający sposób tworzenia i testowania usługi MRS w zdalnym kontekście platformy Spark (autonomiczne wystąpienie platformy Spark na maszynie /dsvm/samples/MRS
DSVM) jest udostępniany i dostępny w katalogu.
Jak jest on skonfigurowany i zainstalowany na maszynie DSVM?
Platforma | Lokalizacja instalacji ($SPARK_HOME) |
---|---|
Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Biblioteki do uzyskiwania dostępu do danych z usługi Azure Blob Storage lub Azure Data Lake Storage przy użyciu bibliotek uczenia maszynowego microsoft MMLSpark są wstępnie zainstalowane w $SPARK_HOME/jars. Te pliki JAR są ładowane automatycznie po uruchomieniu platformy Spark. Domyślnie platforma Spark używa danych znajdujących się na dysku lokalnym.
Wystąpienie platformy Spark na maszynie DSVM może uzyskiwać dostęp do danych przechowywanych w usłudze Blob Storage lub Azure Data Lake Storage. Najpierw należy utworzyć i skonfigurować core-site.xml
plik na podstawie szablonu znajdującego się w pliku $SPARK_HOME/conf/core-site.xml.template. Aby uzyskać dostęp do usługi Blob Storage i Azure Data Lake Storage, musisz również mieć odpowiednie poświadczenia. Pliki szablonów używają symboli zastępczych dla konfiguracji usługi Blob Storage i Azure Data Lake Storage.
Aby uzyskać więcej informacji na temat tworzenia poświadczeń usługi Azure Data Lake Storage, odwiedź stronę Authentication with Azure Data Lake Storage Gen1 (Uwierzytelnianie za pomocą usługi Azure Data Lake Storage Gen1). Po wprowadzeniu poświadczeń dla usługi Blob Storage lub Azure Data Lake Storage w pliku core-site.xml można odwoływać się do danych przechowywanych w tych źródłach za pomocą prefiksu identyfikatora URI wasb:// lub adl://.