Gegevens filteren met behulp van Azure Data Lake Storage-queryversnelling

Artikel
05/14/2024

In dit artikel leest u hoe u queryversnelling gebruikt om een subset met gegevens op te halen uit uw opslagaccount.

Met queryversnelling kunnen toepassingen en analyseframeworks de gegevensverwerking aanzienlijk optimaliseren door alleen de gegevens op te halen die ze nodig hebben om een bepaalde bewerking uit te voeren. Zie Azure Data Lake Storage-queryversnelling voor meer informatie.

Vereisten

U hebt een Azure-abonnement nodig voor toegang tot Azure Storage. Als u nog geen abonnement hebt, maakt u een gratis account voordat u begint.
Een v2-opslagaccount voor algemeen gebruik. zie Een opslagaccount maken.
Dubbele versleuteling wordt niet ondersteund.
Als u een query uitvoert op een JSON-bestand, moet elke recordgrootte in dit bestand kleiner zijn dan 1 MB.
Kies een tabblad om eventuele SDK-specifieke vereisten weer te geven.
Niet van toepassing

De .NET SDK
- Java Development Kit (JDK)-versie 8 of hoger
- Apache Maven
  
  Notitie
  
  In dit artikel wordt ervan uitgegaan dat u een Java-project hebt gemaakt met behulp van Apache Maven. Zie Instellen voor een voorbeeld van het maken van een project met behulp van Apache Maven.
Python 3.8 of hoger.

Er zijn geen aanvullende vereisten vereist voor het gebruik van de Node.js SDK.

Uw omgeving instellen

Stap 1: Pakketten installeren

Installeer de Az-moduleversie 4.6.0 of hoger.

Install-Module -Name Az -Repository PSGallery -Force

Voer de volgende opdracht uit om bij te werken vanuit een oudere versie van Az:

Update-Module -Name Az

Open een opdrachtprompt en wijzig de map (cd) in de projectmap, bijvoorbeeld:
```
cd myProject
```
Installeer de 12.5.0-preview.6 versie of hoger van de Azure Blob Storage-clientbibliotheek voor .NET-pakket met behulp van de dotnet add package opdracht.
```
dotnet add package Azure.Storage.Blobs -v 12.8.0
```
De voorbeelden die in dit artikel worden weergegeven, parseren een CSV-bestand met behulp van de CsvHelper-bibliotheek . Gebruik de volgende opdracht om die bibliotheek te gebruiken.
```
dotnet add package CsvHelper
```

Open het pom.xml bestand van uw project in een teksteditor. Voeg de volgende afhankelijkheidselementen toe aan de groep met afhankelijkheden.

<!-- Request static dependencies from Maven -->
<dependency>
    <groupId>com.azure</groupId>
    <artifactId>azure-core</artifactId>
    <version>1.6.0</version>
</dependency>
 <dependency>
     <groupId>org.apache.commons</groupId>
     <artifactId>commons-csv</artifactId>
     <version>1.8</version>
 </dependency>
 <dependency>
   <groupId>com.azure</groupId>
   <artifactId>azure-storage-blob</artifactId>
   <version>12.8.0-beta.1</version>
 </dependency>

Installeer de Azure Data Lake Storage-clientbibliotheek voor Python met behulp van pip.

pip install azure-storage-blob==12.4.0

Installeer de Data Lake-clientbibliotheek voor JavaScript door een terminalvenster te openen en vervolgens de volgende opdracht te typen.

    npm install @azure/storage-blob
    npm install @fast-csv/parse

Stap 2: Instructies toevoegen

Niet van toepassing

Voeg deze using instructies toe aan het begin van het codebestand.

using Azure.Storage.Blobs;
using Azure.Storage.Blobs.Models;
using Azure.Storage.Blobs.Specialized;

Queryversnelling haalt geformatteerde CSV- en Json-gegevens op. Zorg er daarom voor dat u gebruiksinstructies toevoegt voor csv- of Json-parseringsbibliotheken die u wilt gebruiken. De voorbeelden die in dit artikel worden weergegeven, parseren een CSV-bestand met behulp van de CsvHelper-bibliotheek die beschikbaar is op NuGet. Daarom voegen we deze using instructies toe aan het begin van het codebestand.

using CsvHelper;
using CsvHelper.Configuration;

Als u voorbeelden in dit artikel wilt compileren, moet u deze using instructies ook toevoegen.

using System.Threading.Tasks;
using System.IO;
using System.Globalization;

Voeg deze import instructies toe aan het begin van het codebestand.

import com.azure.storage.blob.*;
import com.azure.storage.blob.options.*;
import com.azure.storage.blob.models.*;
import com.azure.storage.common.*;
import java.io.*;
import java.util.function.Consumer;
import org.apache.commons.csv.*;

Voeg deze importinstructies toe aan het begin van het codebestand.

import sys, csv
from azure.storage.blob import BlobServiceClient, ContainerClient, BlobClient, DelimitedTextDialect, BlobQueryError

Neem de storage-blob module op door deze instructie boven aan het codebestand te plaatsen.

const { BlobServiceClient } = require("@azure/storage-blob");

Queryversnelling haalt geformatteerde CSV- en Json-gegevens op. Zorg er daarom voor dat u instructies toevoegt voor csv- of Json-parseringsmodules die u wilt gebruiken. De voorbeelden die in dit artikel worden weergegeven, parseren een CSV-bestand met behulp van de fast-CSV-module . Daarom voegen we deze instructie toe aan het begin van het codebestand.

const csv = require('@fast-csv/parse');

Gegevens ophalen met behulp van een filter

U kunt SQL gebruiken om de rijfilterpredicaten en kolomprojecties op te geven in een queryversnellingsaanvraag. Met de volgende code wordt een CSV-bestand in de opslag opgevraagd en worden alle rijen met gegevens geretourneerd waarbij de derde kolom overeenkomt met de waarde Hemingway, Ernest.

In de SQL-query wordt het trefwoord BlobStorage gebruikt om het bestand aan te geven dat wordt opgevraagd.
Kolomverwijzingen worden opgegeven als _N waar de eerste kolom is _1. Als het bronbestand een veldnamenrij bevat, kunt u verwijzen naar kolommen met de naam die is opgegeven in de veldnamenrij.

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$blob = "csv/csv-general/seattle-library.csv"
Get-QueryCsv $ctx $container $blob "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'" $false

De asynchrone methode BlockBlobClient.QueryAsync verzendt de query naar de queryversnelling-API en streamt de resultaten vervolgens terug naar de toepassing als een Stream-object .

static async Task QueryHemingway(BlockBlobClient blob)
{
    string query = @"SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'";
    await DumpQueryCsv(blob, query, false);
}

private static async Task DumpQueryCsv(BlockBlobClient blob, string query, bool headers)
{
    try
    {
        var options = new BlobQueryOptions()
        {
            InputTextConfiguration = new BlobQueryCsvTextOptions()
            { 
                HasHeaders = true, 
                RecordSeparator = "\n", 
                ColumnSeparator = ",", 
                EscapeCharacter = '\\', 
                QuotationCharacter = '"'
            },
            OutputTextConfiguration = new BlobQueryCsvTextOptions() 
            { 
                HasHeaders = true, 
                RecordSeparator = "\n", 
                ColumnSeparator = ",", 
                EscapeCharacter = '\\', 
                QuotationCharacter = '"' },
            ProgressHandler = new Progress<long>((finishedBytes) => 
                Console.Error.WriteLine($"Data read: {finishedBytes}"))
        };
        options.ErrorHandler += (BlobQueryError err) => {
            Console.ForegroundColor = ConsoleColor.Red;
            Console.Error.WriteLine($"Error: {err.Position}:{err.Name}:{err.Description}");
            Console.ResetColor();
        };
        // BlobDownloadInfo exposes a Stream that will make results available when received rather than blocking for the entire response.
        using (var reader = new StreamReader((await blob.QueryAsync(
                query,
                options)).Value.Content))
        {
            using (var parser = new CsvReader
                (reader, new CsvConfiguration(CultureInfo.CurrentCulture) { HasHeaderRecord = true }))
            {
                while (await parser.ReadAsync())
                {
                    Console.Out.WriteLine(String.Join(" ", parser.Parser.Record));
                }
            }
        }
    }
    catch (Exception ex)
    {
        System.Windows.Forms.MessageBox.Show("Exception: " + ex.ToString());
    }
}

De methode BlockBlobClient.openInputStream() verzendt de query naar de queryversnelling-API en streamt de resultaten vervolgens terug naar de toepassing als een InputStream object dat kan worden gelezen als elk ander InputStream-object.

static void QueryHemingway(BlobClient blobClient) {
    String expression = "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'";
    DumpQueryCsv(blobClient, expression, true);
}

static void DumpQueryCsv(BlobClient blobClient, String query, Boolean headers) {
    try {
        BlobQuerySerialization input = new BlobQueryDelimitedSerialization()
            .setRecordSeparator('\n')
            .setColumnSeparator(',')
            .setHeadersPresent(headers)
            .setFieldQuote('\0')
            .setEscapeChar('\\');
        BlobQuerySerialization output = new BlobQueryDelimitedSerialization()
            .setRecordSeparator('\n')
            .setColumnSeparator(',')
            .setHeadersPresent(true)
            .setFieldQuote('\0')
            .setEscapeChar('\n');
        Consumer<BlobQueryError> errorConsumer = System.out::println;
        Consumer<BlobQueryProgress> progressConsumer = progress -> System.out.println("total bytes read: " + progress.getBytesScanned());
        BlobQueryOptions queryOptions = new BlobQueryOptions(query)
            .setInputSerialization(input)
            .setOutputSerialization(output)
            .setErrorConsumer(errorConsumer)
            .setProgressConsumer(progressConsumer);

        /* Open the query input stream. */
        InputStream stream = blobClient.openQueryInputStream(queryOptions).getValue();
        try (BufferedReader reader = new BufferedReader(new InputStreamReader(stream))) {
            /* Read from stream like you normally would. */
            for (CSVRecord record : CSVParser.parse(reader, CSVFormat.EXCEL.withHeader())) {
                System.out.println(record.toString());
            }
        }
    } catch (Exception e) {
        System.err.println("Exception: " + e.toString());
        e.printStackTrace(System.err);
    }
}

def query_hemingway(blob: BlobClient):
    query = "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'"
    dump_query_csv(blob, query, False)

def dump_query_csv(blob: BlobClient, query: str, headers: bool):
    qa_reader = blob.query_blob(query, blob_format=DelimitedTextDialect(has_header=headers), on_error=report_error, encoding='utf-8')
    # records() returns a generator that will stream results as received. It will not block pending all results.
    csv_reader = csv.reader(qa_reader.records())
    for row in csv_reader:
        print("*".join(row))

In dit voorbeeld wordt de query naar de queryversnelling-API verzonden en worden de resultaten vervolgens terug gestreamd. Het blob object dat is doorgegeven aan de helperfunctie, is van het queryHemingway type BlockBlobClient. Zie quickstart: Blobs beheren met JavaScript v12 SDK in Node.js voor meer informatie over het verkrijgen van een BlockBlobClient-object.

async function queryHemingway(blob)
{
    const query = "SELECT * FROM BlobStorage WHERE _3 = 'Hemingway, Ernest, 1899-1961'";
    await dumpQueryCsv(blob, query, false);
}

async function dumpQueryCsv(blob, query, headers)
{
    var response = await blob.query(query, {
        inputTextConfiguration: {
            kind: "csv",
            recordSeparator: '\n',
            hasHeaders: headers
        },
        outputTextConfiguration: {
            kind: "csv",
            recordSeparator: '\n',
            hasHeaders: true
        },
        onProgress: (progress) => console.log(`Data read: ${progress.loadedBytes}`),
        onError: (err) => console.error(`Error: ${err.position}:${err.name}:${err.description}`)});
    return new Promise(
        function (resolve, reject) {
            csv.parseStream(response.readableStreamBody)
                .on('data', row => console.log(row))
                .on('error', error => {
                    console.error(error);
                    reject(error);
                })
                .on('end', rowCount => resolve());
    });
}

Specifieke kolommen ophalen

U kunt uw resultaten instellen op een subset van kolommen. Op die manier haalt u alleen de kolommen op die nodig zijn om een bepaalde berekening uit te voeren. Dit verbetert de prestaties van toepassingen en vermindert de kosten omdat er minder gegevens via het netwerk worden overgedragen.

Notitie

Het maximum aantal kolommen waarop u het bereik van uw resultaten kunt bepalen is 49. Als u wilt dat uw resultaten meer dan 49 kolommen bevatten, gebruikt u een jokerteken (*) voor de SELECT-expressie (bijvoorbeeld: SELECT *).

Met deze code wordt alleen de BibNum kolom opgehaald voor alle boeken in de gegevensset. Ook wordt de informatie uit de veldnamenrij in het bronbestand gebruikt om te verwijzen naar kolommen in de query.

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$blob = "csv/csv-general/seattle-library-with-headers.csv"
Get-QueryCsv $ctx $container $blob "SELECT BibNum FROM BlobStorage" $true

static async Task QueryBibNum(BlockBlobClient blob)
{
    string query = @"SELECT BibNum FROM BlobStorage";
    await DumpQueryCsv(blob, query, true);
}

static void QueryBibNum(BlobClient blobClient)
{
    String expression = "SELECT BibNum FROM BlobStorage";
    DumpQueryCsv(blobClient, expression, true);
}

def query_bibnum(blob: BlobClient):
    query = "SELECT BibNum FROM BlobStorage"
    dump_query_csv(blob, query, True)

async function queryBibNum(blob)
{
    const query = "SELECT BibNum FROM BlobStorage";
    await dumpQueryCsv(blob, query, true);
}

De volgende code combineert rijfilters en kolomprojecties in dezelfde query.

Get-QueryCsv $ctx $container $blob $query $true

Function Get-QueryCsv($ctx, $container, $blob, $query, $hasheaders) {
    $tempfile = New-TemporaryFile
    $informat = New-AzStorageBlobQueryConfig -AsCsv -HasHeader:$hasheaders
    Get-AzStorageBlobQueryResult -Context $ctx -Container $container -Blob $blob -InputTextConfiguration $informat -OutputTextConfiguration (New-AzStorageBlobQueryConfig -AsCsv -HasHeader) -ResultFile $tempfile.FullName -QueryString $query -Force
    Get-Content $tempfile.FullName
}

$container = "data"
$query = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType
            FROM BlobStorage
            WHERE ItemType IN
                ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')"

static async Task QueryDvds(BlockBlobClient blob)
{
    string query = @"SELECT BibNum, Title, Author, ISBN, Publisher, ItemType
        FROM BlobStorage
        WHERE ItemType IN
            ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')";
    await DumpQueryCsv(blob, query, true);
}

static void QueryDvds(BlobClient blobClient)
{
    String expression = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType " +
                        "FROM BlobStorage " +
                        "WHERE ItemType IN " +
                        "   ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')";
    DumpQueryCsv(blobClient, expression, true);
}

def query_dvds(blob: BlobClient):
    query = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType "\
        "FROM BlobStorage "\
        "WHERE ItemType IN "\
        "   ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')"
    dump_query_csv(blob, query, True)

async function queryDvds(blob)
{
    const query = "SELECT BibNum, Title, Author, ISBN, Publisher, ItemType " +
                  "FROM BlobStorage " +
                  "WHERE ItemType IN " +
                  " ('acdvd', 'cadvd', 'cadvdnf', 'calndvd', 'ccdvd', 'ccdvdnf', 'jcdvd', 'nadvd', 'nadvdnf', 'nalndvd', 'ncdvd', 'ncdvdnf')";
    await dumpQueryCsv(blob, query, true);
}

Delen via