Opções de formato de dados
O Azure Databricks tem ligações de palavras-chave incorporadas para todos os formatos de dados suportados nativamente pelo Apache Spark. O Azure Databricks usa o Delta Lake como o protocolo padrão para ler e gravar dados e tabelas, enquanto o Apache Spark usa o Parquet.
Estes artigos fornecem uma visão geral de muitas das opções e configurações disponíveis quando você consulta dados no Azure Databricks.
Os seguintes formatos de dados têm configurações de palavra-chave incorporadas no Apache Spark DataFrames e SQL:
O Azure Databricks também fornece uma palavra-chave personalizada para carregar experimentos MLflow.
Formatos de dados com considerações especiais
Alguns formatos de dados requerem configuração adicional ou considerações especiais para uso:
- O Databricks recomenda o carregamento de imagens como
binary
dados. - O Azure Databricks pode ler diretamente arquivos compactados em muitos formatos de arquivo. Você também pode descompactar arquivos compactados no Azure Databricks, se necessário.
Para obter mais informações sobre origens de dados do Apache Spark, veja Funções Genéricas de Carregar/Guardar e Opções Genéricas de Origem de Ficheiro.