Načtení dat pomocí COPY INTO s instančním objektem
Tento článek popisuje, jak pomocí příkazu COPY INTO
načíst data z kontejneru Azure Data Lake Storage Gen2 (ADLS Gen2) v účtu Azure do tabulky v Databricks SQL.
Kroky v tomto článku předpokládají, že správce nakonfiguroval SLUŽBU SQL Warehouse tak, aby používal instanční objekt Azure Databricks, abyste měli přístup ke zdrojovým souborům v ADLS Gen2. Pokud správce nakonfiguroval externí umístění katalogu Unity s přihlašovacími údaji úložiště, podívejte se na načítání dat pomocí COPY INTO se svazky katalogu Unity nebo externími umístěními místo toho. Pokud vám správce dal dočasné přihlašovací údaje (token SAS pro objekt blob), postupujte podle kroků v Načtení dat pomocí COPY INTO s dočasnými přihlašovacími údaji.
Databricks doporučuje použít příkaz COPY INTO pro přírůstkové a hromadné načítání dat pomocí Databricks SQL.
Poznámka:
COPY INTO
funguje dobře pro zdroje dat, které obsahují tisíce souborů. Databricks doporučuje použít automatický zavaděč pro načítání milionů souborů, což není v Databricks SQL podporované.
Než začnete
Před načtením dat do Azure Databricks se ujistěte, že máte následující:
- Přístup k datům v ADLS Gen2 Váš správce musí nejprve dokončit kroky v části Konfigurace přístupu k datům pro příjem dat, aby váš datový sklad SQL Warehouse mohl číst vaše zdrojové soubory.
- Databricks SQL Warehouse.
- Oprávnění Může spravovat ve službě SQL Warehouse.
- Cesta k datům v kontejneru ADLS Gen2
- Znalost uživatelského rozhraní SQL databricks
Krok 1: Potvrzení přístupu k datům v cloudovém úložišti
Pokud chcete ověřit, že máte přístup ke správným datům v cloudovém úložišti objektů, postupujte takto:
Na bočním panelu klikněte na Vytvořit > dotaz.
Na řádku nabídek editoru SQL vyberte SQL Warehouse.
V editoru SQL vložte následující kód:
select * from csv.<path>
Nahraďte
<path>
cestou kontejneru ADLS Gen2, kterou jste dostali od správce. Napříkladabfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
.Klepněte na položku Spustit.
Krok 2: Vytvoření tabulky
Tento krok popisuje, jak vytvořit tabulku v pracovním prostoru Azure Databricks pro uložení příchozích dat.
V editoru SQL vložte následující kód:
CREATE TABLE <catalog_name>.<schema_name>.<table_name> ( tpep_pickup_datetime TIMESTAMP, tpep_dropoff_datetime TIMESTAMP, trip_distance DOUBLE, fare_amount DOUBLE, pickup_zip INT, dropoff_zip INT );
Klepněte na položku Spustit.
Krok 3: Načtení dat z cloudového úložiště do tabulky
Tento krok popisuje, jak načíst data z kontejneru ADLS Gen2 do tabulky v pracovním prostoru Azure Databricks.
Na bočním panelu klikněte na Vytvořit > dotaz.
Na řádku nabídek editoru SQL vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.
V editoru SQL vložte následující kód. V tomto kódu nahraďte:
-
<container>
s názvem kontejneru ADLS Gen2 v rámci vašeho účtu úložiště. -
<storage-account>
s názvem vašeho účtu úložiště ADLS Gen2. -
<folder>
s názvem složky, která obsahuje vaše data. -
<blob-sas-token>
s hodnotou tokenu SAS objektu blob, který jste obdrželi od správce.
COPY INTO <catalog-name>.<schema-name>.<table-name> FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>' FILEFORMAT = CSV FORMAT_OPTIONS ( 'header' = 'true', 'inferSchema' = 'true' ); SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
Poznámka:
FORMAT_OPTIONS
se liší podleFILEFORMAT
. V tomto případě tato možnost dává Službě Azure Databricks pokyn,header
aby se s prvním řádkem souboru CSV zacházeli jako s hlavičkou a možnostmiinferSchema
dává Azure Databricks pokyn, aby automaticky určil datový typ každého pole v souboru CSV.-
Klepněte na položku Spustit.
Poznámka:
Pokud znovu kliknete na Spustit, do tabulky se nenačtou žádná nová data. Důvodem je to, že
COPY INTO
příkaz zpracovává pouze to, co považuje za nová data.
Vyčištění
Přidružené prostředky v pracovním prostoru můžete vyčistit, pokud je už nechcete zachovat.
Odstranění tabulek
Na bočním panelu klikněte na Vytvořit > dotaz.
Vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.
Vložte následující kód:
DROP TABLE <catalog-name>.<schema-name>.<table-name>;
Klepněte na položku Spustit.
Najeďte myší na kartu pro tento dotaz a potom klikněte na ikonu X .
Odstranění dotazů v editoru SQL
- Na bočním panelu klikněte na EDITOR SQL.
- Na řádku nabídek editoru SQL najeďte myší na kartu pro každý dotaz, který jste vytvořili pro tento kurz, a potom klikněte na ikonu X .
Další materiály
- Referenční článek COPY INTO