Sdílet prostřednictvím


Rozbalení a čtení komprimovaných souborů ZIP

Pomocí příkazu Bash můžete unzip rozbalit soubory nebo adresáře souborů, které byly komprimovány zip. Pokud stáhnete soubor nebo adresář končící na soubor nebo adresář, před pokusem .zipo pokračování data rozbalte.

Poznámka:

Apache Spark poskytuje nativní kodeky pro interakci s komprimovanými soubory Parquet. Většina souborů Parquet napsaných službou Azure Databricks končí na .snappy.parquet, což znamená, že používají kompresi snappy.

Jak rozbalit data

Příkaz magic Azure Databricks %shumožňuje spuštění libovolného kódu Bash, včetně unzip příkazu.

Následující příklad používá komprimovaný soubor CSV stažený z internetu. Viz Stažení dat z internetu.

Poznámka:

Pomocí nástrojů Databricks můžete přesunout soubory do dočasného úložiště připojeného k ovladači, než je rozbalíte. Soubory ZIP nelze rozbalit, když se nacházejí ve svazcích katalogu Unity. Viz referenční informace k nástrojům Databricks (dbutils).

Následující kód slouží curl ke stažení a následnému unzip rozšíření dat:

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Pomocí nástrojů dbutils přesuňte rozbalený soubor na svazek katalogu Unity následujícím způsobem:

dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

V tomto příkladu mají stažená data komentář v prvním řádku a záhlaví ve druhém. Teď, když jsou data rozšířená a přesunutá, použijte standardní možnosti pro čtení souborů CSV, jako v následujícím příkladu:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)