Ingesta de datos del almacenamiento de objetos en la nube
En este artículo se enumeran las formas en que puede configurar la ingesta incremental desde el almacenamiento de objetos en la nube.
Agregar datos de la interfaz de usuario
Para aprender a agregar datos de la interfaz de usuario para crear una tabla administrada desde los datos del almacenamiento de objetos en la nube, vea Cargar datos con una ubicación externa de Unity Catalog.
Cuaderno o editor de SQL
En esta sección se describen las opciones para configurar la ingesta incremental desde el almacenamiento de objetos en la nube mediante un cuaderno o el editor de SQL de Databricks.
Cargador automático
Auto Loader procesa de forma incremental y eficaz nuevos archivos de datos a medida que llegan al almacenamiento en la nube sin necesidad de configuración adicional. El cargador automático proporciona un origen de streaming estructurado denominado cloudFiles
. Dada una ruta de acceso del directorio de entrada en el almacenamiento de archivos en la nube, el origen cloudFiles
procesa automáticamente los nuevos archivos a medida que llegan, con la opción de procesar también los archivos existentes en ese directorio.
COPY INTO
Con COPY INTO, los usuarios de SQL pueden ingerir datos de forma idempotente e incremental desde el almacenamiento de objetos en la nube en tablas Delta. Puede usar COPY INTO
en Databricks SQL, cuadernos y Trabajos de Databricks.
Cuándo usar COPY INTO y cuándo usar el cargador automático
Aspectos que se deben tener en cuenta al elegir entre Auto Loader y COPY INTO
:
Si va a ingerir archivos por miles en el tiempo, puede usar
COPY INTO
. Si espera archivos por millones o más a lo largo del tiempo, use el cargador automático. Auto Loader requiere menos operaciones totales para detectar archivos en comparación conCOPY INTO
, y puede dividir el procesamiento en varios lotes; es decir, Auto Loader es menos costoso y más eficaz a gran escala.Si el esquema de datos va a evolucionar con frecuencia, el cargador automático proporciona mejores tipos de datos primitivos en torno a la inferencia y la evolución del esquema. Consulte Configuración de inferencia y evolución de esquemas en Auto Loader para obtener más detalles.
La carga de un subconjunto de archivos recargados puede ser un poco más fácil de administrar con
COPY INTO
. Con el cargador automático, es más difícil volver a procesar un subconjunto selecto de archivos. Sin embargo, puede usarCOPY INTO
para volver a cargar el subconjunto de archivos mientras se ejecuta simultáneamente una secuencia de Auto Loader.Para una experiencia de ingesta de archivos aún más escalable y sólida, Auto Loader permite que los usuarios de SQL puedan aprovechar las tablas de secuencia. Consulte Carga de datos mediante tablas de secuencia en Databricks SQL.
Para obtener una breve introducción y una demostración de Auto Loader y COPY INTO
, vea este vídeo de YouTube (2 minutos).
Automatización de ETL con Delta Lives Tables y Auto Loader
Puede simplificar la implementación de una infraestructura de ingesta escalable e incremental con Auto Loader y Delta Live Tables. Delta Live Tables no usa la ejecución interactiva estándar que se encuentra en los cuadernos, sino que destaca la implementación de la infraestructura lista para producción.
Tutorial: Ejecutar la primera carga de trabajo de ETL en Databricks
Carga de datos mediante tablas de streaming (cuaderno de Python/SQL)
Carga de datos mediante tablas de streaming en Databricks SQL
Herramientas de ingesta de terceros
Databricks valida las integraciones de asociados tecnológicos que permiten ingerir desde varios orígenes, incluido el almacenamiento de objetos en la nube. Estas integraciones permiten ingerir en Azure Databricks datos provenientes de varios orígenes de forma escalable y con poco código. Consulte Partners de tecnología. Algunos asociados tecnológicos se incluyen en ¿Qué es Databricks Partner Connect?, que proporciona una interfaz de usuario que simplifica la conexión de herramientas de terceros a los datos de Lakehouse.