Compartilhar via


Filtrar dados com a aceleração de consulta do Azure Data Lake Storage

Este artigo mostra como usar a aceleração de consulta para recuperar um subconjunto de dados de sua conta de armazenamento.

A aceleração de consulta permite que aplicativos e estruturas de análise otimizem drasticamente o processamento de dados recuperando apenas os dados necessários para executar uma determinada operação. Para saber mais, consulte aceleração de consulta Azure data Lake Storage.

Pré-requisitos

  • Para acessar o Armazenamento do Azure, você precisará de uma assinatura do Azure. Se você ainda não tiver uma assinatura, crie uma conta gratuita antes de começar.

  • Uma conta de armazenamento de uso geral v2. Consulte Criar uma conta de armazenamento.

  • Não há suporte para criptografia dupla.

  • Se você estiver consultando um arquivo JSON, cada tamanho de registro nesse arquivo deverá ser menor que 1 MB.

  • Escolha uma guia para exibir os pré-requisitos específicos do SDK.

    Não aplicável


Configurar seu ambiente

Etapa 1: instalar pacotes

Instale o módulo Az versão 4.6.0 ou superior.

Install-Module -Name Az -Repository PSGallery -Force

Para atualizar de uma versão mais antiga do Az, execute o seguinte comando:

Update-Module -Name Az

Etapa 2: adicionar instruções

Não aplicável

Como recuperar dados usando um filtro

Você pode usar o SQL para especificar os predicados de filtro de linha e as projeções de coluna em uma solicitação de aceleração de consulta. O código a seguir consulta um arquivo CSV no armazenamento e retorna todas as linhas de dados em que a terceira coluna corresponde ao valor Hemingway, Ernest.

  • Na consulta SQL, a BlobStorage palavra-chave é usada para denotar o arquivo que está sendo consultado.

  • As referências de coluna são especificadas _N como onde a primeira coluna é _1. Se o arquivo de origem contiver uma linha de cabeçalho, você poderá se referir a colunas pelo nome especificado na linha de cabeçalho.

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$blob = "csv/csv-general/seattle-library.csv"
Get-QueryCsv $ctx $container $blob "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'" $false

Recuperar colunas específicas

Você pode fazer o escopo dos resultados para um subconjunto de colunas. Dessa forma, você recupera apenas as colunas necessárias para executar um determinado cálculo. Isso melhora o desempenho do aplicativo e reduz o custo porque menos dados são transferidos pela rede.

Observação

O número máximo de colunas para as quais você pode definir o escopo dos resultados é 49. Se você precisar que seus resultados contenham mais de 49 colunas, use um caractere curinga (*) para a expressão SELECT (por exemplo: SELECT *).

Esse código recupera apenas a BibNum coluna de todos os livros no conjunto de dados. Ele também usa as informações da linha de cabeçalho no arquivo de origem para fazer referência a colunas na consulta.

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$blob = "csv/csv-general/seattle-library-with-headers.csv"
Get-QueryCsv $ctx $container $blob "SELECT BibNum FROM BlobStorage" $true

O código a seguir combina a filtragem de linha e as projeções de coluna na mesma consulta.

Get-QueryCsv $ctx $container $blob $query $true

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$query = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType
            FROM BlobStorage
            WHERE ItemType IN
                ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')"

Próximas etapas