Cenário de preços usando Dataflow Gen2 para carregar 2 GB de dados do Parquet em uma tabela Lakehouse
Nesse cenário, o Dataflow Gen2 foi usado para carregar 2 GB de dados do Parquet armazenados no Azure Data Lake Storage (ADLS) Gen2 em uma tabela Lakehouse no Microsoft Fabric. Usamos os dados de amostra NYC Taxi-green para os dados do Parquet.
Os preços usados no exemplo a seguir são hipotéticos e não pretendem implicar preços reais exatos. Estes são apenas para demonstrar como você pode estimar, planejar e gerenciar o custo para projetos do Data Factory no Microsoft Fabric. Além disso, como as capacidades de malha têm preços exclusivos entre regiões, usamos o preço pré-pago para uma capacidade de malha no Oeste dos EUA 2 (uma região típica do Azure), a US$ 0,18 por por hora. Consulte aqui Microsoft Fabric - Pricing para explorar outras opções de preços de capacidade de malha.
Configuração
Para realizar esse cenário, você precisa criar um fluxo de dados com as seguintes etapas:
- Inicializar fluxo de dados: obtenha dados de arquivos Parquet de 2 GB da conta de armazenamento ADLS Gen2.
- Configurar o Power Query:
- Navegue até Power Query.
- Verifique se a opção para preparar a consulta está ativada.
- Prossiga para combinar os arquivos do Parquet.
- Transformação de dados:
- Promova cabeçalhos para maior clareza.
- Remova colunas desnecessárias.
- Ajuste os tipos de dados de coluna conforme necessário.
- Definir Destino dos Dados de Saída:
- Configure o Lakehouse como o destino de saída de dados.
- Neste exemplo, uma Lakehouse dentro do Fabric foi criada e utilizada.
Estimativa de custos usando o aplicativo Fabric Metrics
O medidor de computação de fluxo de dados de alta escala registrou atividade insignificante. O medidor de computação padrão para operações de atualização do Dataflow Gen2 consome 112.098.540 unidades de computação (CUs). É importante considerar que outras operações, incluindo Warehouse Query, SQL Endpoint Query e Dataset On-Demand Refresh, constituem aspetos detalhados da implementação do Dataflow Gen2 que atualmente são transparentes e necessários para suas respetivas operações. No entanto, essas operações serão ocultadas em atualizações futuras e devem ser desconsideradas ao estimar os custos para o Dataflow Gen2.
Nota
Embora relatada como uma métrica, a duração real da execução não é relevante ao calcular as horas efetivas com o Fabric Metrics App, uma vez que a métrica segundos que ela também relata já contabiliza sua duração.
Metric | Computação Standard | Computação de alta escala |
---|---|---|
Total de segundos | 112.098,54 segundos | 0 segundos |
-horas efetivas faturadas | 112,098.54 / (60*60) = 31,14 horas | 0 / (60*60) = 0 horas |
Custo total de execução em $0.18/hora = (31.14-horas) * ($0.18/hora ) ~= $5.60