Compartir vía


Ámbito de la plataforma del lago de datos

Un marco de plataforma de inteligencia artificial y datos modernos

Para analizar el ámbito de la plataforma de inteligencia de datos de Databricks, es útil definir primero un marco básico para la plataforma moderna de datos e inteligencia artificial:

Marco de análisis de datos en la nube

Información general sobre el ámbito del lago de datos

Databricks Data Intelligence Platform cubre el marco de plataforma de datos moderno completo. Se basa en la arquitectura de lago de datos y se basa en un motor de inteligencia de datos que comprende las cualidades únicas de los datos. Es una base abierta y unificada para las cargas de trabajo ETL, ML/AI y DWH/BI, e incluye Unity Catalog como la solución central de gobernanza de datos e inteligencia artificial.

Roles del marco de plataforma

En el marco se tratan los miembros del equipo de datos principales (personas) que trabajan con las aplicaciones del marco:

  • Los ingenieros de datos proporcionan a los científicos de datos y analistas de negocios datos precisos y reproducibles para la toma de decisiones oportuna y la información en tiempo real. Implementan procesos ETL altamente coherentes y confiables para aumentar la confianza del usuario y la confianza en los datos. Garantizan que los datos están bien integrados con los distintos pilares de la empresa y suelen seguir los procedimientos recomendados de ingeniería de software.
  • Los científicos de datos combinan conocimientos analíticos y conocimientos empresariales para transformar los datos en información estratégica y modelos predictivos. Son expertos en traducir desafíos empresariales en soluciones controladas por datos, ya sea a través de conclusiones analíticas retrospectivas o modelado predictivo de futuro. Aprovechando las técnicas de modelado de datos y aprendizaje automático, diseñan, desarrollan e implementan modelos que desvelan patrones, tendencias y previsiones de datos. Actúan como puente, convirtiendo narrativas de datos complejas en historias comprensibles, lo que garantiza que las partes interesadas de la empresa no solo comprendan, sino que también puedan actuar basándose en las recomendaciones controladas por datos, a su vez impulsando un enfoque centrado en los datos para resolver problemas dentro de una organización.
  • Los ingenieros de ML (ingenieros de aprendizaje automático) dirigen la aplicación práctica de la ciencia de datos en productos y soluciones mediante la creación, implementación y mantenimiento de modelos de aprendizaje automático. Su principal enfoque se centra en el aspecto de ingeniería del desarrollo y la implementación de modelos. Los ingenieros de ML garantizan la solidez, la confiabilidad y la escalabilidad de los sistemas de aprendizaje automático en entornos activos, abordando los desafíos relacionados con la calidad de los datos, la infraestructura y el rendimiento. Al integrar modelos de inteligencia artificial y aprendizaje automático en procesos empresariales operativos y productos orientados al usuario, facilitan el uso de la ciencia de datos en la resolución de desafíos empresariales, lo que garantiza que los modelos no solo sigan investigándose, sino que impulsan el valor empresarial tangible.
  • Los analistas de negocios capacitan a las partes interesadas y a los equipos empresariales con datos accionables. A menudo interpretan los datos y crean informes u otra documentación para el liderazgo mediante herramientas de BI estándar. Normalmente son el punto de contacto para compañeros de negocio y de operaciones no técnicos para preguntas de análisis rápidas.
  • Los socios comerciales son una parte interesada importante en un mundo empresarial cada vez más interconectado. Se definen como una empresa o personas con la que una empresa tiene una relación formal para lograr un objetivo común y pueden incluir proveedores, vendedores, distribuidores y otros asociados de terceros. El uso compartido de datos es un aspecto importante de las asociaciones empresariales, ya que permite la transferencia y el intercambio de datos para mejorar la colaboración y la toma de decisiones controladas por datos.

Dominios del marco de plataforma

La plataforma consta de varios dominios:

  • Almacenamiento: en la nube, los datos se almacenan principalmente en almacenamientos de objetos escalables, eficientes y resistentes en proveedores de nube.

  • Gobernanza: funcionalidades relacionadas con la gobernanza de datos, por ejemplo, control de acceso, auditoría, administración de metadatos, seguimiento de linaje y supervisión de todos los recursos de datos e IA.

  • Motor de IA: el motor de IA proporciona funcionalidades de IA generativa para toda la plataforma.

  • Ingesta y transformación: las funcionalidades de las cargas de trabajo de ETL.

  • Análisis avanzado, ML e IA:: todas las funcionalidades relacionadas con el aprendizaje automático, la IA, la IA generativa y también el análisis de streaming.

  • Almacenamiento de datos: El dominio que admite casos de uso de DWH y BI.

  • Orquestación: administración central de flujos de trabajo de procesamiento de datos, aprendizaje automático y canalizaciones de análisis.

  • Herramientas de ETL & DS: las herramientas de front-end que los ingenieros de datos, los científicos de datos y los ingenieros de ML usan principalmente para el trabajo.

  • Herramientas de BI: las herramientas de front-end que los analistas de BI usan principalmente para el trabajo.

  • Colaboración: funcionalidades para compartir datos entre dos o más partes.

Ámbito de la plataforma de Databricks

Databricks Data Intelligence Platform y sus componentes se pueden asignar al marco de trabajo de la siguiente manera:

Ámbito del almacén de lago de datos

Descarga: Ámbito de los componentes del lago de datos: Databricks

Cargas de trabajo de datos en Azure Databricks

Lo más importante es que Databricks Data Intelligence Platform cubre todas las cargas de trabajo pertinentes para el dominio de datos en una plataforma, con Apache Spark/Photon como motor:

Resumen de las áreas de características de Azure Databricks

Esta es una asignación de las características de Databricks Data Intelligence Platform a las demás capas del marco, de abajo a arriba:

  • Almacenamiento en la nube

    Todos los datos del lago de datos se almacenan en el almacenamiento de objetos del proveedor de nube. Databricks admite tres proveedores de nube: AWS, Azure y GCP. Los archivos en varios formatos estructurados y semiestructurados (por ejemplo, Parquet, CSV, JSON y Avro), así como formatos no estructurados (por ejemplo, imágenes y documentos) se ingieren y transforman mediante procesos por lotes o de streaming.

    Delta Lake es el formato de datos recomendado para lagos de datos (transacciones de archivos, confiabilidad, coherencia, actualizaciones, etc.) y es un completamente de código abierto para proporcionar así alternativas. Y el formato universal Delta (UniForm) permite leer tablas Delta con clientes lectores Iceberg.

    No se usan formatos de datos de propiedad en Databricks Data Intelligence Platform.

  • Gobernanza de datos

    Además de la capa de almacenamiento, Unity Catalog ofrece una amplia gama de funcionalidades de gobernanza de datos, incluida la administración de metadatos en el metastore, el control de acceso, la auditoría, la detección de datos, el linaje de datos.

    La supervisión del lago de datos proporciona métricas de calidad integradas para los recursos de datos e inteligencia artificial y paneles generados automáticamente para visualizar estas métricas.

    Los orígenes SQL externos se pueden integrar en el lago de datos y en Unity Catalog a través de la federación de lago de datos.

  • Motor de IA

    La plataforma de inteligencia de datos se basa en la arquitectura de lago de datos y se mejora mediante el motor de inteligencia de datos DatabricksIQ. DatabricksIQ combina inteligencia artificial generativa con las ventajas de unificación de la arquitectura de lago de datos para comprender la semántica única de los datos. Búsqueda inteligente y Databricks Assistant son ejemplos de servicios con tecnología de IA que simplifican el trabajo con la plataforma para cada usuario.

  • Orquestación

    Los trabajos de Databricks permiten ejecutar diversas cargas de trabajo durante el ciclo de vida completo de los datos y la inteligencia artificial en cualquier nube. Permiten organizar trabajos, así como Delta Live Tables para SQL, Spark, cuadernos, DBT, modelos de ML, etc.

  • Herramientas de ETL y DS

    En la capa de consumo, los ingenieros de datos y los ingenieros de ML suelen trabajar con la plataforma mediante IDE. Los científicos de datos suelen preferir cuadernos y usar los entornos de ejecución de ML e IA, y el sistema de flujo de trabajo de aprendizaje automático MLflow para realizar un seguimiento de los experimentos y administrar el ciclo de vida del modelo.

  • Herramientas de BI

    Normalmente, los analistas de negocios usan su herramienta de BI preferida para acceder al almacenamiento de datos de Databricks. Databricks SQL se puede consultar mediante diferentes herramientas de análisis y BI, consulte BI y visualización

    Además, la plataforma ofrece herramientas de consulta y análisis lista para usar:

    • Paneles para arrastrar y colocar visualizaciones de datos y compartir información.
    • Editor de SQL para analistas de SQL para analizar datos.
  • Colaboración

    Delta Sharing es un protocolo abierto desarrollado por Databricks para proteger el uso compartido de datos con otras organizaciones, independientemente de las plataformas informáticas que usen.

    Databricks Marketplace, es un foro abierto para intercambiar productos de datos. Aprovecha Delta Sharing para dar a los proveedores de datos las herramientas para compartir productos de datos de forma segura y a los consumidores de datos el poder de explorar y ampliar su acceso a los datos y servicios de datos que necesitan.