Partilhar via


Tutorial: Analisar dados com pools SQL dedicados

Neste tutorial, use os dados do NYC Taxi para explorar os recursos de um pool SQL dedicado.

  • [Implantar um pool SQL dedicado]
  • [Carregar dados no pool]
  • [Explore os dados que carregou]

Pré-requisitos

Criar um conjunto de SQL dedicado

  1. No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools SQL em Pools do Google Analytics.
  2. Selecione Novo.
  3. Para Nome do pool SQL dedicado, selecione SQLPOOL1.
  4. Para Nível de desempenho , escolha DW100C.
  5. Selecione Rever + criar>Criar. Seu pool SQL dedicado estará pronto em alguns minutos.

Seu pool SQL dedicado está associado a um banco de dados SQL que também é chamado SQLPOOL1de .

  1. Navegue até Data>Workspace.
  2. Você verá um banco de dados chamado SQLPOOL1. Se não o vir, selecione Atualizar.

Um pool SQL dedicado consome recursos faturáveis enquanto estiver ativo. Você pode pausar o pool mais tarde para reduzir custos.

Nota

Ao criar um novo pool SQL dedicado (anteriormente SQL DW) em seu espaço de trabalho, a página dedicada de provisionamento de pool SQL será aberta. O provisionamento ocorrerá no servidor SQL lógico.

Carregue os dados do táxi de Nova York no SQLPOOL1

  1. No Synapse Studio, navegue até o hub Revelar , selecione o + botão para adicionar novo recurso e crie um novo script SQL.

  2. Selecione o pool SQLPOOL1 (pool criado na ETAPA 1 deste tutorial) na lista suspensa Conectar a acima do script.

  3. Introduza o seguinte código:

    IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo')
    CREATE TABLE dbo.NYCTaxiTripSmall
        (
        [VendorID] bigint, 
        [store_and_fwd_flag] nvarchar(1) NULL, 
        [RatecodeID] float NULL, 
        [PULocationID] bigint NULL,  
        [DOLocationID] bigint NULL, 
        [passenger_count] float NULL, 
        [trip_distance] float NULL, 
        [fare_amount] float NULL, 
        [extra] float NULL, 
        [mta_tax] float NULL, 
        [tip_amount] float NULL, 
        [tolls_amount] float NULL, 
        [ehail_fee] float NULL, 
        [improvement_surcharge] float NULL, 
        [total_amount] float NULL, 
        [payment_type] float NULL, 
        [trip_type] float NULL, 
        [congestion_surcharge] float  NULL
        )
    WITH
        (
        DISTRIBUTION = ROUND_ROBIN,
         CLUSTERED COLUMNSTORE INDEX
         -- HEAP
        )
    GO
    
    COPY INTO dbo.NYCTaxiTripSmall
    (VendorID 1, store_and_fwd_flag 4, RatecodeID 5,  PULocationID 6 , DOLocationID 7,  
     passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, 
     tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, 
     payment_type 18, trip_type 19, congestion_surcharge 20 )
    FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet'
    WITH
    (
        FILE_TYPE = 'PARQUET'
        ,MAXERRORS = 0
        ,IDENTITY_INSERT = 'OFF'
        ,AUTO_CREATE_TABLE ='ON'
    )
    

    Gorjeta

    Se você receber um erro que lê Login failed for user '<token-identified principal>', você precisa definir seu Entra Id admin.

    1. No Portal do Azure, procure seu espaço de trabalho de sinapse.
    2. Em Configurações , selecione Microsoft Entra ID.
    3. Selecione Definir administrador e defina um administrador do Microsoft Entra ID.
  4. Selecione o botão Executar para executar o script.

  5. Este script termina em menos de 60 segundos. Ele carrega 2 milhões de linhas de dados do NYC Taxi em uma tabela chamada dbo.NYCTaxiTripSmall.

Explore os dados do NYC Taxi no pool SQL dedicado

  1. No Synapse Studio, vá para o hub de dados .

  2. Vá para SQLPOOL1>Tabelas. (Se não o vir no menu, atualize a página.)

  3. Clique com o botão direito do rato no dbo. Tabela NYCTaxiTripSmall e selecione Novo Script>SQL Selecione TOP 100 Linhas.

  4. Aguarde enquanto um novo script SQL é criado e executado.

  5. Na parte superior do script SQL, Connect to é definido automaticamente como o pool SQL chamado SQLPOOL1.

  6. Substitua o texto do script SQL por este código e execute-o.

    SELECT passenger_count as PassengerCount,
          SUM(trip_distance) as SumTripDistance_miles,
          AVG(trip_distance) as AvgTripDistance_miles
    INTO dbo.PassengerCountStats
    FROM  dbo.NYCTaxiTripSmall
    WHERE trip_distance > 0 AND passenger_count > 0
    GROUP BY passenger_count;
    
    SELECT * FROM dbo.PassengerCountStats
    ORDER BY PassengerCount;
    

    Esta consulta cria uma tabela dbo.PassengerCountStats com dados agregados do trip_distance campo e, em seguida, consulta a nova tabela. Os dados mostram como as distâncias totais da viagem e a distância média da viagem se relacionam com o número de passageiros.

  7. Na janela de resultados do script SQL, altere a Exibir para Gráfico para ver uma visualização dos resultados como um gráfico de linhas. Altere a coluna Categoria para PassengerCount.

Limpeza

Pause seu SQL Pool dedicado para reduzir custos.

  1. Navegue até Gerenciar em seu espaço de trabalho de sinapse.
  2. Selecione Pools SQL.
  3. Passe o cursor sobre SQLPOOL1 e selecione o botão Pausar .
  4. Confirme para pausar.

Próximo passo