Compartilhar via


Plataformas de dados compatíveis com a Máquina Virtual de Ciência de Dados

Com uma Máquina Virtual de Ciência de Dados (DSVM), você pode criar seus recursos analíticos em uma ampla variedade de plataformas de dados. Além das interfaces para plataformas de dados remotas, a DSVM oferece uma instância local para rápido desenvolvimento e criação de protótipos.

O DSVM oferece suporte a essas ferramentas de plataforma de dados:

SQL Server Developer Edition

Categoria Valor
O que é? Uma instância de banco de dados relacional local
Edições da DSVM com suporte Windows 2019, Linux (SQL Server 2019)
Usos típicos
  • Desenvolvimento local rápido, com um conjunto de dados menor
  • Executar R no banco de dados
Links para exemplos
  • Uma pequena amostra do Conjunto de Dados de Nova Iorque é carregada para o banco de dados SQL:
    nyctaxi
  • Encontre um exemplo do Jupyter que mostra o Microsoft Machine Learning Server e análises no banco de dados em:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Ferramentas relacionadas à DSVM
  • SQL Server Management Studio
  • Drivers ODBC/JDBC
  • pyodbc, RODBC

Observação

O SQL Server Developer Edition só pode ser usado para fins de desenvolvimento e teste. Você precisa de uma licença ou de uma das VMs do SQL Server para executá-lo em produção.

Observação

O suporte para Machine Learning Server Standalone terminou em 1º de julho de 2021. Iremos removê-lo das imagens DSVM após 30 de junho. As implantações existentes continuarão a ter acesso ao software, mas devido à data de término do suporte atingida, o suporte terminou após 1º de julho de 2021.

Observação

Removeremos o SQL Server Developer Edition das imagens da Máquina Virtual de Ciência de Dados até o final de novembro de 2021. As implantações existentes continuarão a ter o SQL Server Developer Edition instalado. Em novas implantações, se desejar ter acesso ao SQL Server Developer Edition, você poderá instalar e usar o SQL Server Developer Edition por meio do suporte do Docker. Visite Início Rápido: execute imagens de contêiner do SQL Server com Docker para obter mais informações.

Windows

Instalação

O servidor de banco de dados já está pré-configurado e os serviços do Windows relacionados ao SQL Server (por exemplo,SQL Server (MSSQLSERVER)) estão configurados para serem executados automaticamente. A única etapa manual envolve a habilitação de análises no banco de dados por meio do uso do Microsoft Machine Learning Server. Execute o comando a seguir para habilitar a análise como uma ação única no SQL Server Management Studio (SSMS). Execute esse comando após fazer login como administrador da máquina, abrir uma nova consulta no SSMS e selecionar o banco de dados master:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(Substitua %COMPUTERNAME% pelo nome da VM.)

Para executar o SQL Server Management Studio, você pode pesquisar “SQL Server Management Studio” na lista de programas ou usar a pesquisa do Windows para localizá-lo e executá-lo. Quando as credenciais forem solicitadas, selecione Autenticação do Windows e use o nome da máquina ou localhost no campo Nome do SQL Server.

Como usá-lo e executá-lo

O servidor de banco de dados com a instância de banco de dados padrão é executado automaticamente por padrão. Você pode usar ferramentas como o SQL Server Management Studio na VM para acessar o banco de dados do SQL Server localmente. As contas de administradores locais têm acesso de administrador no banco de dados.

Além disso, o DSVM vem com drivers ODBC e JDBC para comunicação

  • SQL Server
  • Bancos de Dados SQL do Azure
  • Recursos do Azure Synapse Analytics de aplicativos escritos em vários idiomas, incluindo Python e Machine Learning Server.

Como ele é configurado e instalado na DSVM?

O SQL Server está instalado da maneira padrão. Você pode encontrá-lo em C:\Program Files\Microsoft SQL Server. Você pode encontrar a instância do Machine Learning Server no banco de dados em C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. O DSVM também possui uma instância autônoma do Machine Learning Server, instalada em C:\Program Files\Microsoft\R Server\R_SERVER. Essas duas instâncias do Machine Learning Server não compartilham bibliotecas.

Ubuntu

Você deve primeiro instalar o SQL Server Developer Edition em um Ubuntu DSVM antes de usá-lo. Visite Início Rápido: Instale o SQL Server e crie um banco de dados no Ubuntu para obter mais informações.

Apache Spark 2.x (autônomo)

Categoria Valor
O que é? Uma instância autônoma (único nó em processo) da plataforma do Apache Spark popular, um sistema de aprendizado de máquina e processamento rápido de dados em grande escala
Edições da DSVM com suporte Linux
Usos típicos
  • Desenvolvimento rápido de aplicativos Spark/PySpark localmente com um conjunto de dados menor e implantação posterior em grandes clusters Spark, como o Azure HDInsight
  • Testar contexto do Spark do Microsoft Machine Learning Server
  • Use SparkML ou a biblioteca MMLSpark de código aberto da Microsoft para criar aplicativos de ML
Links para exemplos Exemplo de Jupyter:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (contexto do Spark): /dsvm/samples/MRS/MRSSparkContextSample.R

Ferramentas relacionadas à DSVM
  • PySpark, Scala
  • Jupyter (kernels Spark/PySpark)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Análise do Apache

Como usá-lo

Você pode executar o comando spark-submit ou pyspark para enviar trabalhos do Spark na linha de comando. Você também pode criar um novo notebook com o kernel Spark para criar um notebook Jupyter.

Para usar o Spark do R, você usa bibliotecas como SparkR, Sparklyr e Microsoft Machine Learning Server, que estão disponíveis no DSVM. Veja links para exemplos na tabela anterior.

Instalação

Antes de executar em um contexto Spark no Microsoft Machine Learning Server na edição Ubuntu Linux DSVM, você deve concluir uma etapa de configuração única para habilitar uma instância Hadoop HDFS e Yarn de nó único local. Por padrão, os serviços do Hadoop serão instalados, mas desabilitados no DSVM. Para habilitá-los, execute esses comandos como root pela primeira vez:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Para interromper os serviços relacionados ao Hadoop quando não precisar mais deles, execute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Um exemplo que demonstra como desenvolver e testar o MRS em um contexto remoto do Spark (a instância autônoma do Spark no DSVM) é fornecido e está disponível no diretório /dsvm/samples/MRS.

Como ele é configurado e instalado na DSVM?

Plataforma Local de instalação ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Bibliotecas para acessar dados do Blob do Azure ou do Azure Data Lake Storage e usando bibliotecas de aprendizado de máquina do MMLSpark da Microsoft são pré-instaladas em $SPARK_HOME/jars. Esses JARs são carregados automaticamente quando o Spark é iniciado. Por padrão, o Spark usa dados localizados no disco local.

A instância do Spark no DSVM pode acessar dados armazenados no armazenamento de Blobs ou no Azure Data Lake Storage. Você deve primeiro criar e configurar o arquivo core-site.xml, com base no modelo encontrado em $SPARK_HOME/conf/core-site.xml.template. Você também deve ter as credenciais apropriadas para acessar o Armazenamento de blobs e o Azure Data Lake Storage. Os arquivos de modelo usam espaços reservados para armazenamento de Blobs e configurações do Azure Data Lake Storage.

Para obter mais informações sobre a criação de credenciais de serviço do Azure Data Lake Storage, visite Autenticação com Azure Data Lake Storage Gen1. Depois de inserir as credenciais para armazenamento de Blobs ou Azure Data Lake Storage no arquivo core-site.xml, você poderá fazer referência aos dados armazenados nessas fontes por meio do prefixo URI de wasb:// ou adl://.