Compartilhar via


Relatórios de cobrança e horas trabalhadas do Apache Spark no Microsoft Fabric

Aplica-se a:✅ Engenharia e Ciência de Dados no Microsoft Fabric

Este artigo explica a utilização de computação e os relatórios do ApacheSpark que alimentam as cargas de trabalho de Engenharia de Dados do Fabric e Ciência no Microsoft Fabric. A utilização de computação inclui operações de lakehouse, como preview de tabela, carregamento em delta, execuções de notebook da interface, execuções agendadas, execuções disparadas por etapas de notebook nos pipelines e execuções de definição de trabalho do Apache Spark.

Assim como outras experiências no Microsoft Fabric, a Engenharia de Dados também usa a capacidade associada a um espaço de trabalho para executar esses trabalhos e seus encargos gerais de capacidade aparecem no portal do Azure em sua assinatura de Gerenciamento de Custos da Microsoft. Para saber mais sobre a cobrança do Fabric, consulte Compreender sua fatura do Azure em uma capacidade do Fabric.

Capacidade do Fabric

Você, como usuário, pode comprar uma capacidade do Fabric do Azure especificando o uso de uma assinatura do Azure. O tamanho da capacidade determina a quantidade de energia de computação disponível. Para o Apache Spark do Fabric, cada CU adquirida se traduz em 2 VCores do Apache Spark. Por exemplo, se você comprar uma capacidade do Fabric F128, isso se traduzirá em 256 SparkVCores. Uma capacidade do Fabric é compartilhada em todos os espaços de trabalho adicionados a ele e na qual o total de computação do Apache Spark permitido é compartilhado em todos os trabalhos enviados de todos os espaços de trabalho associados a uma capacidade. Para entender sobre os diferentes SKUs, alocação de núcleos e limitação no Spark, veja Limites de simultaneidade e fila no Apache Spark para Microsoft Fabric.

Configuração de computação do Spark e capacidade adquirida

A computação do Apache Spark do Fabric oferece duas opções quando se trata de configuração de computação.

  1. Pools de inicialização: esses pools padrão são uma maneira rápida e fácil de usar o Spark na plataforma do Microsoft Fabric em segundos. Você pode usar as sessões do Spark imediatamente, em vez de esperar que o Spark configure os nós para você, o que ajuda você a fazer mais com os dados e obter insights mais rapidamente. Quando se trata de cobrança e consumo de capacidade, você é cobrado ao começar a executar o notebook ou a definição de trabalho do Spark ou a operação do lakehouse. Você não será cobrado pelo tempo em que os clusters estiverem ociosos no pool.

    Diagrama mostrando as etapas de alto nível no faturamento de pools iniciais.

    Por exemplo, se você enviar um trabalho de notebook para um pool inicial, será cobrado apenas pelo período em que a sessão do notebook estiver ativa. O tempo cobrado não inclui o tempo ocioso ou o tempo necessário para personalizar a sessão com o contexto do Spark. Para entender mais sobre como configurar os pools de inicialização com base na SKU de Capacidade do Fabric adquirida, visite Configurar os pools de inicialização com base na capacidade do Fabric

  2. Pools do Spark: são pools personalizados, em que você pode personalizar o tamanho dos recursos necessários para suas tarefas de análise de dados. Você pode dar um nome ao pool do Spark e escolher quantos e quão grandes são os nós (os computadores que fazem o trabalho). Você também pode informar ao Spark como ajustar o número de nós, dependendo de quanto trabalho você tem. A criação de um pool do Spark é gratuita; você só paga quando executa um trabalho do Spark no pool e, em seguida, o Spark configura os nós para você.

    • O tamanho e o número de nós que você pode ter em seu pool personalizado do Spark depende da capacidade do Microsoft Fabric. Você pode usar esses VCores do Spark para criar nós de tamanhos diferentes para o pool personalizado do Spark, desde que o número total de VCores do Spark não exceda 128.
    • A cobrança de pools do Spark é semelhante à dos pools iniciais em que você não paga pelos pools personalizados do Spark criados, a menos que tenha uma sessão ativa do Spark criada para executar uma definição de trabalho do Spark ou notebook. Você só é cobrado pela duração das execuções do trabalho. Você não é cobrado por estágios como a criação e a desalocação do cluster após a conclusão do trabalho.

    Diagrama mostrando os estágios de alto nível na cobrança de pools personalizados.

    Por exemplo, se você enviar um trabalho de notebook para um pool personalizado do Spark, será cobrado apenas pelo período de tempo em que a sessão estiver ativa. A cobrança dessa sessão do notebook é interrompida depois que a sessão do Spark for interrompida ou expirada. Você não será cobrado pelo tempo necessário para adquirir instâncias de cluster da nuvem e pelo tempo necessário para inicializar o contexto do Spark. Para entender mais sobre como configurar os pools do Spark com base na SKU de Capacidade do Fabric adquirida, visite Configurar os pools com base na capacidade do Fabric

Observação

O período de expiração de sessão padrão para os Pools de Início e Pools do Spark criados é definido como 20 minutos. Se você não usar o pool do Spark por dois minutos após a expiração da sessão, o pool do Spark será desalocado. Para interromper a sessão e a cobrança depois de concluir a execução do Notebook antes do período de expiração da sessão, você pode clicar no botão de parar sessão no menu Início dos Notebooks ou ir para a página do hub de monitoramento e parar a sessão lá.

Relatórios de uso de computação do Spark

O aplicativo Métricas de Capacidade do Microsoft Fabricfornece visibilidade do uso da capacidade para todas as cargas de trabalho do Fabric em um só lugar. É usado por administradores de capacidade para monitorar o desempenho das cargas de trabalho e seu uso, em comparação com a capacidade adquirida.

Após instalar o aplicativo, selecione o tipo de item Notebook,Lakehouse, Definição de trabalho Spark na lista suspensa Selecionar tipo de item:. O gráfico de Gráfico de faixa de opções várias métricas, agora pode ser ajustado para um período de tempo desejado para entender o uso de todos esses itens selecionados.

Todas as operações relacionadas ao Spark são classificadas como operações em segundo plano. O consumo de capacidade do Spark é exibido em um notebook, uma definição de trabalho do Spark ou um lakehouse e é agregado pelo nome e item da operação. Por exemplo: caso execute um trabalho de notebook, poderá visualizar a execução do notebook, as CUs usadas pelo notebook (Total de VCores do Spark/2, como 1 CU fornece 2 VCores do Spark), duração que o trabalho durou no relatório.

Captura de tela mostrando o relatório de itens. Para entender mais sobre os relatórios de uso de capacidade do Spark, veja Monitorar o consumo de capacidade do Apache Spark

Exemplo de cobrança

Considere este cenário:

  • Há uma capacidade C1 que hospeda um Espaço de Trabalho do Fabric W1 e esse Espaço de Trabalho contém o Lakehouse LH1 e o Notebook NB1.

    • Qualquer operação do Spark que o notebook (NB1) ou lakehouse(LH1) executa é relatada em relação à capacidade C1.
  • Estendendo este exemplo para um cenário em que há outro C2 de Capacidade que hospeda um Espaço de Trabalho do Fabric W2 e permite dizer que esse Espaço de Trabalho contém uma Definição de Trabalho do Spark (SJD1) e LH2 (Lakehouse).

    • Se a Definição de Trabalho do Spark (SDJ2) do Espaço de Trabalho (W2) fazer a leitura de dados do Lakehouse (LH1), o uso será relatado em relação à Capacidade C2 associada ao Espaço de Trabalho (W2) que hospeda o item.
    • Se o Notebook (NB1) executar uma operação de leitura do Lakehouse(LH2), o consumo de capacidade será relatado em relação à Capacidade C1, que está alimentando o Espaço de Trabalho W1 que hospedo o item de notebook.