Sdílet prostřednictvím


Načtení dat pomocí funkce COPY INTO s instančním objektem

Tento článek popisuje, jak pomocí COPY INTO příkazu načíst data z kontejneru Azure Data Lake Storage Gen2 (ADLS Gen2) ve vašem účtu Azure do tabulky v Databricks SQL.

Kroky v tomto článku předpokládají, že správce nakonfiguroval SLUŽBU SQL Warehouse tak, aby používal instanční objekt Azure Databricks, abyste měli přístup ke zdrojovým souborům v ADLS Gen2. Pokud správce nakonfiguroval externí umístění katalogu Unity s přihlašovacími údaji úložiště, přečtěte si místo toho načtení dat pomocí funkce COPY INTO se svazky katalogu Unity nebo externími umístěními . Pokud vám správce dal dočasné přihlašovací údaje (token SAS objektu blob), postupujte podle pokynů v tématu Načtení dat pomocí funkce COPY INTO s dočasnými přihlašovacími údaji .

Databricks doporučuje použít příkaz COPY INTO pro přírůstkové a hromadné načítání dat pomocí Databricks SQL.

Poznámka:

COPY INTO funguje dobře pro zdroje dat, které obsahují tisíce souborů. Databricks doporučuje použít automatický zavaděč pro načítání milionů souborů, což není v Databricks SQL podporované.

Než začnete

Před načtením dat do Azure Databricks se ujistěte, že máte následující:

  • Přístup k datům v ADLS Gen2 Váš správce musí nejprve dokončit kroky v části Konfigurace přístupu k datům pro příjem dat, aby váš datový sklad SQL Warehouse mohl číst vaše zdrojové soubory.
  • Databricks SQL Warehouse.
  • Oprávnění Může spravovat ve službě SQL Warehouse.
  • Cesta k datům v kontejneru ADLS Gen2
  • Znalost uživatelského rozhraní SQL databricks

Krok 1: Potvrzení přístupu k datům v cloudovém úložišti

Pokud chcete ověřit, že máte přístup ke správným datům v cloudovém úložišti objektů, postupujte takto:

  1. Na bočním panelu klikněte na Vytvořit > dotaz.

  2. Na řádku nabídek editoru SQL vyberte SQL Warehouse.

  3. V editoru SQL vložte následující kód:

    select * from csv.<path>
    

    Nahraďte <path> cestou kontejneru ADLS Gen2, kterou jste dostali od správce. Například abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>.

  4. Klepněte na položku Spustit.

Krok 2: Vytvoření tabulky

Tento krok popisuje, jak vytvořit tabulku v pracovním prostoru Azure Databricks pro uložení příchozích dat.

  1. V editoru SQL vložte následující kód:

    CREATE TABLE <catalog_name>.<schema_name>.<table_name> (
      tpep_pickup_datetime  TIMESTAMP,
      tpep_dropoff_datetime TIMESTAMP,
      trip_distance DOUBLE,
      fare_amount DOUBLE,
      pickup_zip INT,
      dropoff_zip INT
    );
    
  2. Klepněte na položku Spustit.

Krok 3: Načtení dat z cloudového úložiště do tabulky

Tento krok popisuje, jak načíst data z kontejneru ADLS Gen2 do tabulky v pracovním prostoru Azure Databricks.

  1. Na bočním panelu klikněte na Vytvořit > dotaz.

  2. Na řádku nabídek editoru SQL vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.

  3. V editoru SQL vložte následující kód. V tomto kódu nahraďte:

    • <container> s názvem kontejneru ADLS Gen2 v rámci vašeho účtu úložiště.
    • <storage-account> s názvem vašeho účtu úložiště ADLS Gen2.
    • <folder> s názvem složky, která obsahuje vaše data.
    • <blob-sas-token>s hodnotou tokenu SAS objektu blob, který jste obdrželi od správce.
    COPY INTO <catalog-name>.<schema-name>.<table-name>
    FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>'
    FILEFORMAT = CSV
    FORMAT_OPTIONS (
      'header' = 'true',
      'inferSchema' = 'true'
    );
    
    SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
    

    Poznámka:

    FORMAT_OPTIONS se liší podle FILEFORMAT. V tomto případě tato možnost dává Službě Azure Databricks pokyn, header aby se s prvním řádkem souboru CSV zacházeli jako s hlavičkou a možnostmi inferSchema dává Azure Databricks pokyn, aby automaticky určil datový typ každého pole v souboru CSV.

  4. Klepněte na položku Spustit.

    Poznámka:

    Pokud kliknete znovu na Spustit , do tabulky se nenačtou žádná nová data. Důvodem je to, že COPY INTO příkaz zpracovává pouze to, co považuje za nová data.

Vyčištění

Přidružené prostředky v pracovním prostoru můžete vyčistit, pokud je už nechcete zachovat.

Odstranění tabulek

  1. Na bočním panelu klikněte na Vytvořit > dotaz.

  2. Vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.

  3. Vložte následující kód:

    DROP TABLE <catalog-name>.<schema-name>.<table-name>;
    
  4. Klepněte na položku Spustit.

  5. Najeďte myší na kartu pro tento dotaz a potom klikněte na ikonu X .

Odstranění dotazů v editoru SQL

  1. Na bočním panelu klikněte na EDITOR SQL.
  2. Na řádku nabídek editoru SQL najeďte myší na kartu pro každý dotaz, který jste vytvořili pro tento kurz, a potom klikněte na ikonu X .

Další materiály