Načtení dat pomocí funkce COPY INTO s instančním objektem
Tento článek popisuje, jak pomocí COPY INTO
příkazu načíst data z kontejneru Azure Data Lake Storage Gen2 (ADLS Gen2) ve vašem účtu Azure do tabulky v Databricks SQL.
Kroky v tomto článku předpokládají, že správce nakonfiguroval SLUŽBU SQL Warehouse tak, aby používal instanční objekt Azure Databricks, abyste měli přístup ke zdrojovým souborům v ADLS Gen2. Pokud správce nakonfiguroval externí umístění katalogu Unity s přihlašovacími údaji úložiště, přečtěte si místo toho načtení dat pomocí funkce COPY INTO se svazky katalogu Unity nebo externími umístěními . Pokud vám správce dal dočasné přihlašovací údaje (token SAS objektu blob), postupujte podle pokynů v tématu Načtení dat pomocí funkce COPY INTO s dočasnými přihlašovacími údaji .
Databricks doporučuje použít příkaz COPY INTO pro přírůstkové a hromadné načítání dat pomocí Databricks SQL.
Poznámka:
COPY INTO
funguje dobře pro zdroje dat, které obsahují tisíce souborů. Databricks doporučuje použít automatický zavaděč pro načítání milionů souborů, což není v Databricks SQL podporované.
Než začnete
Před načtením dat do Azure Databricks se ujistěte, že máte následující:
- Přístup k datům v ADLS Gen2 Váš správce musí nejprve dokončit kroky v části Konfigurace přístupu k datům pro příjem dat, aby váš datový sklad SQL Warehouse mohl číst vaše zdrojové soubory.
- Databricks SQL Warehouse.
- Oprávnění Může spravovat ve službě SQL Warehouse.
- Cesta k datům v kontejneru ADLS Gen2
- Znalost uživatelského rozhraní SQL databricks
Krok 1: Potvrzení přístupu k datům v cloudovém úložišti
Pokud chcete ověřit, že máte přístup ke správným datům v cloudovém úložišti objektů, postupujte takto:
Na bočním panelu klikněte na Vytvořit > dotaz.
Na řádku nabídek editoru SQL vyberte SQL Warehouse.
V editoru SQL vložte následující kód:
select * from csv.<path>
Nahraďte
<path>
cestou kontejneru ADLS Gen2, kterou jste dostali od správce. Napříkladabfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
.Klepněte na položku Spustit.
Krok 2: Vytvoření tabulky
Tento krok popisuje, jak vytvořit tabulku v pracovním prostoru Azure Databricks pro uložení příchozích dat.
V editoru SQL vložte následující kód:
CREATE TABLE <catalog_name>.<schema_name>.<table_name> ( tpep_pickup_datetime TIMESTAMP, tpep_dropoff_datetime TIMESTAMP, trip_distance DOUBLE, fare_amount DOUBLE, pickup_zip INT, dropoff_zip INT );
Klepněte na položku Spustit.
Krok 3: Načtení dat z cloudového úložiště do tabulky
Tento krok popisuje, jak načíst data z kontejneru ADLS Gen2 do tabulky v pracovním prostoru Azure Databricks.
Na bočním panelu klikněte na Vytvořit > dotaz.
Na řádku nabídek editoru SQL vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.
V editoru SQL vložte následující kód. V tomto kódu nahraďte:
<container>
s názvem kontejneru ADLS Gen2 v rámci vašeho účtu úložiště.<storage-account>
s názvem vašeho účtu úložiště ADLS Gen2.<folder>
s názvem složky, která obsahuje vaše data.<blob-sas-token>
s hodnotou tokenu SAS objektu blob, který jste obdrželi od správce.
COPY INTO <catalog-name>.<schema-name>.<table-name> FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>' FILEFORMAT = CSV FORMAT_OPTIONS ( 'header' = 'true', 'inferSchema' = 'true' ); SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
Poznámka:
FORMAT_OPTIONS
se liší podleFILEFORMAT
. V tomto případě tato možnost dává Službě Azure Databricks pokyn,header
aby se s prvním řádkem souboru CSV zacházeli jako s hlavičkou a možnostmiinferSchema
dává Azure Databricks pokyn, aby automaticky určil datový typ každého pole v souboru CSV.Klepněte na položku Spustit.
Poznámka:
Pokud kliknete znovu na Spustit , do tabulky se nenačtou žádná nová data. Důvodem je to, že
COPY INTO
příkaz zpracovává pouze to, co považuje za nová data.
Vyčištění
Přidružené prostředky v pracovním prostoru můžete vyčistit, pokud je už nechcete zachovat.
Odstranění tabulek
Na bočním panelu klikněte na Vytvořit > dotaz.
Vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.
Vložte následující kód:
DROP TABLE <catalog-name>.<schema-name>.<table-name>;
Klepněte na položku Spustit.
Najeďte myší na kartu pro tento dotaz a potom klikněte na ikonu X .
Odstranění dotazů v editoru SQL
- Na bočním panelu klikněte na EDITOR SQL.
- Na řádku nabídek editoru SQL najeďte myší na kartu pro každý dotaz, který jste vytvořili pro tento kurz, a potom klikněte na ikonu X .
Další materiály
- Referenční článek COPY INTO