Opções de formato de arquivo
O Azure Databricks tem associações de palavra-chave internas para todos os formatos de dados com suporte nativo do Apache Spark. O Azure Databricks usa o Delta Lake como o protocolo padrão para ler e gravar dados e tabelas, enquanto o Apache Spark usa o Parquet.
Esses artigos fornecem uma visão geral de muitas das opções e configurações disponíveis ao consultar dados no Azure Databricks.
Os formatos de dados a seguir têm configurações de palavra-chave internas no DataFrames e SQL do Apache Spark:
O Azure Databricks também fornece uma palavra-chave personalizada para carregar experimentos do MLflow.
Formatos de dados com considerações especiais
Alguns formatos de dados requerem configuração adicional ou considerações especiais para uso:
- O Databricks recomenda o carregamento de imagens como dados
binary
. - O Azure Databricks pode ler diretamente arquivos compactados em muitos formatos de arquivo. Você também pode descompactar arquivos compactados no Azure Databricks, se necessário.
Para obter mais informações sobre fontes de dados do Apache Spark, confira Funções genéricas para carregar/salvar e Opções de fontes de arquivo genéricas.