Tutorial: Analisar dados com pools de SQL dedicados
Neste tutorial, use os dados dos táxis de Nova York para explorar as funcionalidades do pool de SQL dedicado.
- [Implantar um pool de SQL dedicado]
- [Carregar dados no pool]
- [Explore os dados que você carregou]
Pré-requisitos
- Este tutorial pressupõe que você concluiu as etapas no restante dos inícios rápidos. Especificamente, ele usa o recurso "contosodatalake" criado no início rápido Criar um Workspace do Synapse.
Criar um pool de SQL dedicado
- No Synapse Studio, no painel do lado esquerdo, selecione Gerenciar>Pools de SQL em pools de Análise.
- Selecione Novo.
- Em Nome do pool de SQL dedicado, selecione
SQLPOOL1
. - Em Nível de desempenho, escolha DW100C.
- Selecione Examinar + criar>Criar. Seu pool de SQL dedicado estará pronto em alguns minutos.
Seu pool de SQL dedicado está associado a um banco de dados SQL que também é chamado de SQLPOOL1
.
- Acesse Dados>Workspace.
- Você deverá ver um banco de dados chamado SQLPOOL1. Caso não a veja, selecione Atualizar.
Um pool de SQL dedicado consome recursos faturáveis desde que ele esteja ativo. Você pode pausar o pool posteriormente para reduzir custos.
Observação
Quando você criar um pool de SQL dedicado (antigo SQL DW) em seu workspace, a página de provisionamento do pool de SQL dedicado será aberta. O provisionamento ocorrerá no SQL Server lógico.
Carregar os dados de Táxi de Nova York no SQLPOOL1
No Synapse Studio, navegue até o hub Desenvolver, selecione o botão + para adicionar o novo recurso e crie um novo script SQL.
Selecione o pool
SQLPOOL1
(pool criado em ETAPA 1 deste tutorial) em Conectar à lista suspensa acima do script.Insira o seguinte código:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' ,AUTO_CREATE_TABLE ='ON' )
Dica
Se você receber um erro que lê
Login failed for user '<token-identified principal>'
, precisará definir o administrador do Entra ID.- No Portal do Azure, pesquise seu workspace do synapse.
- Em Configurações, selecione Microsoft Entra ID.
- Selecione Definir administrador e defina um administrador do Microsoft Entra ID.
Clique no botão Executar para executar o script.
Esse script será concluído em menos de 60 segundos. Ele carrega 2 milhões de linhas de dados dos táxis de Nova York em uma tabela chamada
dbo.NYCTaxiTripSmall
.
Explorar os dados de táxis de Nova York no pool de SQL dedicado
No Synapse Studio, acesse o hub Dados.
Acesse SQLPOOL1>Tabelas. (Se você não o vir no menu, atualize a página.)
Clique com o botão direito do mouse na tabela dbo.NYCTaxiTripSmall e selecione Novo Script de SQL>Selecionar as Primeiras 100 Linhas.
Aguarde enquanto um novo script SQL é criado e executado.
Na parte superior do script SQL Conectar ao é automaticamente definido como o pool de SQL chamado SQLPOOL1.
Substitua o texto do script de SQL por esse código e execute-o.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Essa consulta cria uma tabela
dbo.PassengerCountStats
com dados agregados do campotrip_distance
e consulta a nova tabela. Essa consulta mostra como as distâncias totais de viagem e a distância média da viagem estão relacionadas ao número de passageiros.Na janela de resultados do script de SQL, altere a opção Exibição para Gráfico para uma visualização dos resultados como um gráfico de linhas. Altere Coluna categoria para
PassengerCount
.
Limpar
Pause o pool de SQL dedicado para reduzir os custos.
- Navegue até Gerenciar no workspace do synapse.
- Selecione pools de SQL.
- Passe o mouse sobre SQLPOOL1 e selecione o botão Pausar.
- Confirme a pausa.