Tutorial: Analisar dados com pools SQL dedicados
Neste tutorial, use os dados do NYC Taxi para explorar os recursos de um pool SQL dedicado.
- [Implantar um pool SQL dedicado]
- [Carregar dados no pool]
- [Explore os dados que carregou]
Pré-requisitos
- Este tutorial pressupõe que você concluiu as etapas no restante dos inícios rápidos. Especificamente, ele usa o recurso 'contosodatalake' criado no início rápido Criar um Espaço de Trabalho Sinapse.
Criar um conjunto de SQL dedicado
- No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools SQL em Pools do Google Analytics.
- Selecione Novo.
- Para Nome do pool SQL dedicado, selecione
SQLPOOL1
. - Para Nível de desempenho , escolha DW100C.
- Selecione Rever + criar>Criar. Seu pool SQL dedicado estará pronto em alguns minutos.
Seu pool SQL dedicado está associado a um banco de dados SQL que também é chamado SQLPOOL1
de .
- Navegue até Data>Workspace.
- Você verá um banco de dados chamado SQLPOOL1. Se não o vir, selecione Atualizar.
Um pool SQL dedicado consome recursos faturáveis enquanto estiver ativo. Você pode pausar o pool mais tarde para reduzir custos.
Nota
Ao criar um novo pool SQL dedicado (anteriormente SQL DW) em seu espaço de trabalho, a página dedicada de provisionamento de pool SQL será aberta. O provisionamento ocorrerá no servidor SQL lógico.
Carregue os dados do táxi de Nova York no SQLPOOL1
No Synapse Studio, navegue até o hub Revelar , selecione o + botão para adicionar novo recurso e crie um novo script SQL.
Selecione o pool
SQLPOOL1
(pool criado na ETAPA 1 deste tutorial) na lista suspensa Conectar a acima do script.Introduza o seguinte código:
IF NOT EXISTS (SELECT * FROM sys.objects O JOIN sys.schemas S ON O.schema_id = S.schema_id WHERE O.NAME = 'NYCTaxiTripSmall' AND O.TYPE = 'U' AND S.NAME = 'dbo') CREATE TABLE dbo.NYCTaxiTripSmall ( [VendorID] bigint, [store_and_fwd_flag] nvarchar(1) NULL, [RatecodeID] float NULL, [PULocationID] bigint NULL, [DOLocationID] bigint NULL, [passenger_count] float NULL, [trip_distance] float NULL, [fare_amount] float NULL, [extra] float NULL, [mta_tax] float NULL, [tip_amount] float NULL, [tolls_amount] float NULL, [ehail_fee] float NULL, [improvement_surcharge] float NULL, [total_amount] float NULL, [payment_type] float NULL, [trip_type] float NULL, [congestion_surcharge] float NULL ) WITH ( DISTRIBUTION = ROUND_ROBIN, CLUSTERED COLUMNSTORE INDEX -- HEAP ) GO COPY INTO dbo.NYCTaxiTripSmall (VendorID 1, store_and_fwd_flag 4, RatecodeID 5, PULocationID 6 , DOLocationID 7, passenger_count 8,trip_distance 9, fare_amount 10, extra 11, mta_tax 12, tip_amount 13, tolls_amount 14, ehail_fee 15, improvement_surcharge 16, total_amount 17, payment_type 18, trip_type 19, congestion_surcharge 20 ) FROM 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet' WITH ( FILE_TYPE = 'PARQUET' ,MAXERRORS = 0 ,IDENTITY_INSERT = 'OFF' ,AUTO_CREATE_TABLE ='ON' )
Gorjeta
Se você receber um erro que lê
Login failed for user '<token-identified principal>'
, você precisa definir seu Entra Id admin.- No Portal do Azure, procure seu espaço de trabalho de sinapse.
- Em Configurações , selecione Microsoft Entra ID.
- Selecione Definir administrador e defina um administrador do Microsoft Entra ID.
Selecione o botão Executar para executar o script.
Este script termina em menos de 60 segundos. Ele carrega 2 milhões de linhas de dados do NYC Taxi em uma tabela chamada
dbo.NYCTaxiTripSmall
.
Explore os dados do NYC Taxi no pool SQL dedicado
No Synapse Studio, vá para o hub de dados .
Vá para SQLPOOL1>Tabelas. (Se não o vir no menu, atualize a página.)
Clique com o botão direito do rato no dbo. Tabela NYCTaxiTripSmall e selecione Novo Script>SQL Selecione TOP 100 Linhas.
Aguarde enquanto um novo script SQL é criado e executado.
Na parte superior do script SQL, Connect to é definido automaticamente como o pool SQL chamado SQLPOOL1.
Substitua o texto do script SQL por este código e execute-o.
SELECT passenger_count as PassengerCount, SUM(trip_distance) as SumTripDistance_miles, AVG(trip_distance) as AvgTripDistance_miles INTO dbo.PassengerCountStats FROM dbo.NYCTaxiTripSmall WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count; SELECT * FROM dbo.PassengerCountStats ORDER BY PassengerCount;
Esta consulta cria uma tabela
dbo.PassengerCountStats
com dados agregados dotrip_distance
campo e, em seguida, consulta a nova tabela. Os dados mostram como as distâncias totais da viagem e a distância média da viagem se relacionam com o número de passageiros.Na janela de resultados do script SQL, altere a Exibir para Gráfico para ver uma visualização dos resultados como um gráfico de linhas. Altere a coluna Categoria para
PassengerCount
.
Limpeza
Pause seu SQL Pool dedicado para reduzir custos.
- Navegue até Gerenciar em seu espaço de trabalho de sinapse.
- Selecione Pools SQL.
- Passe o cursor sobre SQLPOOL1 e selecione o botão Pausar .
- Confirme para pausar.