Opções de formato de arquivo
O Azure Databricks tem associações de palavra-chave internas para todos os formatos de dados com suporte nativo do Apache Spark. O Azure Databricks usa o Delta Lake como o protocolo padrão para ler e gravar dados e tabelas, enquanto o Apache Spark usa o Parquet.
Esses artigos fornecem uma visão geral de muitas das opções e configurações disponíveis ao consultar dados no Azure Databricks.
Os formatos de dados a seguir têm configurações de palavra-chave internas no DataFrames e SQL do Apache Spark:
O Azure Databricks também fornece uma palavra-chave personalizada para carregar experimentos do MLflow.
Formatos de dados com considerações especiais
Alguns formatos de dados requerem configuração adicional ou considerações especiais para uso:
- O Databricks recomenda o carregamento de imagens como dados
binary
. - O Azure Databricks pode ler diretamente arquivos compactados em muitos formatos de arquivo. Você também pode descompactar arquivos compactados no Azure Databricks, se necessário.
- O LZO requer uma instalação codec.
Para obter mais informações sobre fontes de dados do Apache Spark, confira Funções genéricas para carregar/salvar e Opções de fontes de arquivo genéricas.