Načtení dat pomocí COPY INTO s instančním objektem

Článek
01/23/2025

Tento článek popisuje, jak pomocí příkazu COPY INTO načíst data z kontejneru Azure Data Lake Storage Gen2 (ADLS Gen2) v účtu Azure do tabulky v Databricks SQL.

Kroky v tomto článku předpokládají, že správce nakonfiguroval SLUŽBU SQL Warehouse tak, aby používal instanční objekt Azure Databricks, abyste měli přístup ke zdrojovým souborům v ADLS Gen2. Pokud správce nakonfiguroval externí umístění katalogu Unity s přihlašovacími údaji úložiště, podívejte se na načítání dat pomocí COPY INTO se svazky katalogu Unity nebo externími umístěními místo toho. Pokud vám správce dal dočasné přihlašovací údaje (token SAS pro objekt blob), postupujte podle kroků v Načtení dat pomocí COPY INTO s dočasnými přihlašovacími údaji.

Databricks doporučuje použít příkaz COPY INTO pro přírůstkové a hromadné načítání dat pomocí Databricks SQL.

Poznámka:

COPY INTO funguje dobře pro zdroje dat, které obsahují tisíce souborů. Databricks doporučuje použít automatický zavaděč pro načítání milionů souborů, což není v Databricks SQL podporované.

Než začnete

Před načtením dat do Azure Databricks se ujistěte, že máte následující:

Přístup k datům v ADLS Gen2 Váš správce musí nejprve dokončit kroky v části Konfigurace přístupu k datům pro příjem dat, aby váš datový sklad SQL Warehouse mohl číst vaše zdrojové soubory.
Databricks SQL Warehouse.
Oprávnění Může spravovat ve službě SQL Warehouse.
Cesta k datům v kontejneru ADLS Gen2
Znalost uživatelského rozhraní SQL databricks

Krok 1: Potvrzení přístupu k datům v cloudovém úložišti

Pokud chcete ověřit, že máte přístup ke správným datům v cloudovém úložišti objektů, postupujte takto:

Na bočním panelu klikněte na Vytvořit > dotaz.
Na řádku nabídek editoru SQL vyberte SQL Warehouse.
V editoru SQL vložte následující kód:
```
select * from csv.<path>
```
Nahraďte <path> cestou kontejneru ADLS Gen2, kterou jste dostali od správce. Například abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>.
Klepněte na položku Spustit.

Krok 2: Vytvoření tabulky

Tento krok popisuje, jak vytvořit tabulku v pracovním prostoru Azure Databricks pro uložení příchozích dat.

V editoru SQL vložte následující kód:

CREATE TABLE <catalog_name>.<schema_name>.<table_name> (
  tpep_pickup_datetime  TIMESTAMP,
  tpep_dropoff_datetime TIMESTAMP,
  trip_distance DOUBLE,
  fare_amount DOUBLE,
  pickup_zip INT,
  dropoff_zip INT
);

Klepněte na položku Spustit.

Krok 3: Načtení dat z cloudového úložiště do tabulky

Tento krok popisuje, jak načíst data z kontejneru ADLS Gen2 do tabulky v pracovním prostoru Azure Databricks.

Na bočním panelu klikněte na Vytvořit > dotaz.
Na řádku nabídek editoru SQL vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.
V editoru SQL vložte následující kód. V tomto kódu nahraďte:
- <container> s názvem kontejneru ADLS Gen2 v rámci vašeho účtu úložiště.
- <storage-account> s názvem vašeho účtu úložiště ADLS Gen2.
- <folder> s názvem složky, která obsahuje vaše data.
- <blob-sas-token>s hodnotou tokenu SAS objektu blob, který jste obdrželi od správce.
```
COPY INTO <catalog-name>.<schema-name>.<table-name>
FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  'header' = 'true',
  'inferSchema' = 'true'
);

SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
```
Poznámka:

FORMAT_OPTIONS se liší podle FILEFORMAT. V tomto případě tato možnost dává Službě Azure Databricks pokyn, header aby se s prvním řádkem souboru CSV zacházeli jako s hlavičkou a možnostmi inferSchema dává Azure Databricks pokyn, aby automaticky určil datový typ každého pole v souboru CSV.
Klepněte na položku Spustit.

Poznámka:

Pokud znovu kliknete na Spustit, do tabulky se nenačtou žádná nová data. Důvodem je to, že COPY INTO příkaz zpracovává pouze to, co považuje za nová data.

Vyčištění

Přidružené prostředky v pracovním prostoru můžete vyčistit, pokud je už nechcete zachovat.

Odstranění tabulek

Na bočním panelu klikněte na Vytvořit > dotaz.
Vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.

Vložte následující kód:

DROP TABLE <catalog-name>.<schema-name>.<table-name>;

Klepněte na položku Spustit.
Najeďte myší na kartu pro tento dotaz a potom klikněte na ikonu X .

Odstranění dotazů v editoru SQL

Na bočním panelu klikněte na EDITOR SQL.
Na řádku nabídek editoru SQL najeďte myší na kartu pro každý dotaz, který jste vytvořili pro tento kurz, a potom klikněte na ikonu X .

Další materiály

Referenční článek COPY INTO

Sdílet prostřednictvím

Načtení dat pomocí COPY INTO s instančním objektem

Než začnete

Krok 1: Potvrzení přístupu k datům v cloudovém úložišti

Krok 2: Vytvoření tabulky

Krok 3: Načtení dat z cloudového úložiště do tabulky

Vyčištění

Odstranění tabulek

Odstranění dotazů v editoru SQL

Další materiály

Váš názor

Další materiály