Alternativ för dataformat
Azure Databricks har inbyggda nyckelordsbindningar för alla dataformat som stöds internt av Apache Spark. Azure Databricks använder Delta Lake som standardprotokoll för att läsa och skriva data och tabeller, medan Apache Spark använder Parquet.
De här artiklarna ger en översikt över många av de alternativ och konfigurationer som är tillgängliga när du frågar efter data i Azure Databricks.
Följande dataformat har inbyggda nyckelordskonfigurationer i Apache Spark DataFrames och SQL:
Azure Databricks innehåller också ett anpassat nyckelord för inläsning av MLflow-experiment.
Dataformat med särskilda överväganden
Vissa dataformat kräver ytterligare konfiguration eller särskilda överväganden för användning:
- Databricks rekommenderar att du läser in bilder som
binary
data. - Azure Databricks kan läsa komprimerade filer direkt i många filformat. Du kan också packa upp komprimerade filer på Azure Databricks om det behövs.
Mer information om Apache Spark-datakällor finns i Generic Load/Save Functions (Allmänna Läs in/Spara-funktioner) och Generic File Source Options (Allmänna alternativ för filkälla).