Compartir a través de


Proceso de ciencia de datos en equipo para científicos de datos

En este artículo se proporciona una guía y formación sobre los objetivos que hay que definir al implementar soluciones de ciencia de datos completas con tecnologías de Azure.

Objetivos para científicos de datos

En esta lista se describen los objetivos clave de los científicos de datos que usan el proceso de ciencia de datos en equipo (TDSP):

Estos objetivos son fundamentales para prepararse para usar el TDSP. El TDSP describe un enfoque integral para administrar e iniciar proyectos de ciencia de datos de forma eficaz. En este artículo se describe la importancia de cada objetivo y se proporcionan vínculos a los recursos de Azure pertinentes.

Comprender una carga de trabajo de análisis

  • Identificar los requisitos: este paso incluye comprender las necesidades y objetivos específicos de la carga de trabajo de análisis. Ayuda a identificar las preguntas empresariales a responder y a resolver los problemas.

  • Definir el ámbito: este paso consiste en definir claramente el ámbito del proyecto para ayudar al equipo a centrarse en las tareas de análisis y datos pertinentes.

  • Asignar los recursos: este paso incluye analizar la carga de trabajo para identificar los recursos necesarios, como la capacidad informática, el almacenamiento y la experiencia humana.

Integración en el TDSP

Azure tiene muchos recursos que puede usar para cargas de trabajo de análisis. En la lista siguiente se proporcionan recursos recomendados en arquitecturas de Azure.

  • Planificación y ejecución: use Cloud Adoption Framework para Azure para la planificación y gobernanza estratégicas. Este marco garantiza que la carga de trabajo de análisis se alinee con los objetivos empresariales y los requisitos de cumplimiento. También se basa en el marco relativamente sencillo que se usa en el TDSP. Entre las características de Cloud Adoption Framework se incluyen las siguientes:

    • Planificación estratégica: proporciona instrucciones estratégicas para alinear la adopción de la nube con los objetivos empresariales. La planificación estratégica significa que diseña cargas de trabajo de análisis para cumplir los objetivos de la organización.

    • Gobernanza y cumplimiento: proporciona marcos para la gobernanza y el cumplimiento. Los marcos de gobernanza y cumplimiento hacen que las cargas de trabajo de procesamiento y análisis de datos cumplan los requisitos normativos y las directivas organizativas.

    • Migración y modernización: guía la migración de cargas de trabajo de análisis existentes a Azure para ayudar a garantizar una interrupción mínima y un rendimiento óptimo en el nuevo entorno.

    • Administración y operaciones: describe los procedimientos recomendados para administrar y utilizar los recursos en la nube, lo que ayuda a garantizar operaciones de cargas de trabajo de análisis eficaces y confiables.

    • Optimización: proporciona herramientas y metodologías para optimizar continuamente las cargas de trabajo. Por optimización se entiende usar los recursos de forma eficiente y administrar los costes de forma eficaz.

  • Desarrollo y colaboración: use Azure Synapse Analytics para desarrollar, probar e implementar soluciones de análisis y proporcionar un entorno colaborativo para científicos de datos e ingenieros. Se recomienda usar la plataforma Azure Synapse Analytics para controlar macrodatos, como un terabyte y más, y para el modelado de aprendizaje automático e inteligencia artificial (IA). Entre las características de Azure Synapse Analytics se incluyen las siguientes:

    • Experiencia unificada: proporciona una experiencia unificada para ingerir, preparar, administrar y servir datos para las necesidades inmediatas de inteligencia empresarial y aprendizaje automático.

    • Integración de datos: se integra sin problemas con varios orígenes de datos, lo que permite funcionalidades completas de procesamiento e ingesta de datos.

    • Almacenamiento de macrodatos y datos: combina las funcionalidades de almacenamiento de macrodatos y de datos, lo que permite ejecutar consultas complejas en grandes conjuntos de datos de forma eficaz.

    • Escalabilidad: escala los recursos computacionales en función de las demandas de la carga de trabajo, lo que garantiza que puede controlar las distintas cargas de procesamiento de datos de forma eficaz.

    • Colaboración: facilita la colaboración dentro de los equipos de ciencia de datos proporcionando áreas de trabajo compartidas y entornos de desarrollo integrados (IDE).

    • Analytics: admite análisis avanzados y aprendizaje automático con integración incorporada para servicios como Machine Learning y Power BI.

  • Supervisión y optimización: use Azure Monitor para realizar un seguimiento del rendimiento, identificar problemas y optimizar la carga de trabajo de análisis. Azure Monitor ayuda con la alta disponibilidad y confiabilidad. Entre las características de Azure Monitor se incluyen las siguientes:

    • Recopilación de datos: recopila métricas y registros de varios orígenes, incluidos los recursos, las aplicaciones y el sistema operativo de Azure.

    • Supervisión: proporciona información sobre el rendimiento y el estado de las cargas de trabajo de análisis mediante la supervisión de métricas como el uso de CPU, el uso de memoria y el rendimiento.

    • Diagnóstico: ayuda a identificar problemas y anomalías en las canalizaciones y cargas de trabajo de procesamiento de datos a través de registros de diagnóstico y registros de actividad.

    • Alertas: configura alertas basadas en métricas específicas o datos de registro y le notifica rápidamente los posibles problemas que podrían afectar al rendimiento o la confiabilidad de las cargas de trabajo de análisis.

    • Visualización: proporciona paneles y libros personalizables para visualizar datos, lo que le ayuda a comprender las tendencias y los patrones en el rendimiento de la carga de trabajo.

Uso del ciclo de vida de TDSP

Use el ciclo de vida de TDSP para estructurar el desarrollo de sus proyectos de ciencia de datos.

  • Enfoque estructurado: proporciona un marco estructurado para ejecutar proyectos de ciencia de datos y fomenta un enfoque sistemático y disciplinado.

  • Colaboración: promueve la colaboración entre los miembros del equipo definiendo roles y responsabilidades claros.

  • Procedimientos recomendados: incorpora procedimientos recomendados del sector y le ayuda a llevar a cabo sus proyectos de forma eficiente y eficaz.

Integración para científicos de datos

El TDSP es un marco de arquitectura revisado por iguales que proporciona a los científicos de datos un marco específico para producir modelos de inteligencia artificial y ciencia de datos.

Uso de Azure Machine Learning

Use Machine Learning para generar e implementar modelos de aprendizaje automático. Machine Learning es el recurso de Azure recomendado principal para cada una de las cinco fases del ciclo de vida de TDSP: Conocimiento del negocio, Adquisición y comprensión de los datos, Modelado, Implementación y Aceptación del cliente. Entre las características de Machine Learning se incluyen las siguientes:

  • Análisis avanzado: proporciona herramientas y servicios eficaces para compilar, entrenar e implementar modelos de aprendizaje automático.

  • Escalabilidad: proporciona recursos informáticos escalables que permiten a los equipos controlar grandes conjuntos de datos y modelos complejos.

  • Integración: se integra bien con otros servicios de Azure y facilita un flujo de trabajo sin problemas desde la ingesta de datos hasta la implementación.

Este es el modo en que Machine Learning admite cada fase del TDSP:

Conocimiento del negocio

En esta fase inicial, Machine Learning le ayuda a comprender los requisitos empresariales y a definir los objetivos del proyecto de ciencia de datos.

  • Áreas de trabajo del proyecto: proporciona áreas de trabajo de proyecto en las que los equipos pueden colaborar y compartir documentos. La colaboración ayuda a todos a alinearse con los objetivos empresariales.

  • Seguimiento de experimentos: admite documentación y la capacidad de realizar un seguimiento de las hipótesis iniciales y las métricas empresariales que guían el proyecto de ciencia de datos.

  • Integración con Azure DevOps: administra flujos de trabajo de proyecto, casos de usuario y tareas. Azure DevOps ayuda a asignar conocimientos empresariales a elementos accionables.

Adquisición y comprensión de los datos

En esta fase, Machine Learning le ayuda a recopilar y explorar datos para comprender su estructura y relevancia para el problema empresarial.

  • Integración de datos: Machine Learning se integra perfectamente con Azure Data Lake, Azure SQL Database y otros servicios de datos, lo que facilita la ingesta de datos de varios orígenes.

  • Etiquetado de datos: herramientas de etiquetado de datos integradas que ayudan a anotar conjuntos de datos, lo que resulta útil para los modelos de aprendizaje supervisados.

  • Análisis de datos exploratorios (EDA): los cuadernos de Jupyter Notebook y los entornos integrados de Python/R en Machine Learning permiten que EDA comprenda las distribuciones de datos, identifique patrones y detecte anomalías.

Modelado

En esta fase, los científicos de datos crean y entrenan modelos de aprendizaje automático para solucionar problemas empresariales.

  • Aprendizaje automático automatizado: selecciona los mejores algoritmos automáticamente y optimiza los hiperparámetros que aceleran el proceso de desarrollo del modelo.

  • Modelado personalizado: admite el desarrollo de modelos personalizados mediante marcos populares como TensorFlow, PyTorch y Scikit-learn.

  • Experimentación y control de versiones: admite la ejecución de varios experimentos en paralelo, los resultados de seguimiento y los modelos de control de versiones, lo que facilita la comparación y selección del mejor modelo.

  • Ajuste de hiperparámetros: optimiza el rendimiento del modelo con compatibilidad integrada con el ajuste automatizado de hiperparámetros.

Implementación

En esta fase, después de desarrollar y validar el modelo, Machine Learning lo implementa para su uso en entornos de producción.

  • Implementación de modelos: proporciona varias opciones de implementación, como Azure Kubernetes Service (AKS) y dispositivos perimetrales, que permiten estrategias de implementación flexibles.

  • Administración de puntos de conexión: proporciona herramientas para administrar puntos de conexión para predicciones por lotes y en tiempo real y ayuda con el servicio de modelos escalable y confiable.

  • Integración continua e implementación continua (CI/CD): se integra con Azure DevOps, lo que permite a CI/CD para modelos de aprendizaje automático crear transiciones repetibles de desarrollo a producción.

Aceptación del cliente

En esta fase final, el enfoque se centra en el uso de Machine Learning para que el modelo implementado cumpla los requisitos empresariales y ofrezca valor.

  • Supervisión de modelos: proporciona funcionalidades de supervisión completas para realizar un seguimiento del rendimiento del modelo, detectar el desfase y mantener los modelos precisos y pertinentes a lo largo del tiempo.

  • Bucles de comentarios: admite la implementación de bucles de comentarios en los que se usan y se revisan las predicciones para volver a entrenar modelos y mejorar continuamente la precisión y relevancia del modelo.

  • Informes y visualización: se integra con cuadernos, Power BI y otras herramientas de visualización para crear paneles e informes y presentar los resultados del modelo e información a las partes interesadas.

  • Seguridad y cumplimiento: ayuda a mantener los modelos y los datos conformes a los requisitos normativos y proporciona herramientas para administrar la privacidad y la seguridad de los datos.

Comprender los aspectos básicos de la transferencia y el almacenamiento de datos

La transferencia de datos eficaz y el almacenamiento son fundamentales para administrar de forma segura grandes volúmenes de datos.

  • Administración de datos: ayuda a administrar grandes volúmenes de datos de la manera más eficiente, compatible y eficaz.

  • Accesibilidad: ayuda a que los datos sean fácilmente accesibles para los miembros del equipo y las herramientas de análisis, lo que es esencial para la colaboración y el procesamiento en tiempo real.

  • Cumplimiento y seguridad: ayuda a controlar los datos a cumplir los requisitos legales y normativos y protege los datos confidenciales.

Integración de la transferencia de datos y el almacenamiento de datos en el TDSP

Azure tiene muchos recursos que puede usar para la transferencia y el almacenamiento de datos. En la lista siguiente se proporcionan recursos recomendados para arquitecturas de Azure.

Opciones de transferencia de datos de Azure: incluye varios métodos y herramientas para mover datos hacia y desde Azure de forma eficaz, lo que da cabida a diferentes necesidades de datos y tamaños de datos.

  • Azure Data Box: transfiere datos masivos a gran escala a Azure mediante un dispositivo físico sin depender de Internet. Transfiere de forma segura terabytes de datos donde el ancho de banda de red está limitado.

  • Servicio de importación/exportación de Azure: admite la transferencia de grandes cantidades de datos a Azure mediante el envío de unidades de disco duro directamente a los centros de datos de Azure. Este servicio es útil para las migraciones de datos iniciales en las que la carga por medio de una red no es práctica.

  • Azure Data Factory: automatiza y controla la transferencia de datos. Data Factory es un servicio de integración de datos basado en la nube que organiza y automatiza el movimiento y la transformación de datos. Permite procesos complejos de ETL (extracción, transformación, carga) e integra datos de varios orígenes en Azure para realizar tareas de análisis y aprendizaje automático.

  • Transferencia de red: incluye transferencias basadas en Internet de alta velocidad mediante Azure ExpressRoute. La transferencia de red proporciona una conexión privada entre la infraestructura local y Azure que ayuda a transferir datos de forma segura y rápida.

Servicio de migración de Azure Database: controla la migración de bases de datos a Azure para minimizar el tiempo de inactividad y admitir la integridad de los datos. Servicio de migración de Database es un servicio totalmente administrado diseñado para permitir migraciones completas desde varios orígenes de base de datos hasta las plataformas de datos de Azure con un tiempo de inactividad mínimo (o migraciones en línea). Proporciona las prestaciones siguientes:

  • Migración automatizada: simplifica el proceso de migración proporcionando flujos de trabajo automatizados para mover bases de datos locales a SQL Database, Azure Database for MySQL y Azure Database for PostgreSQL.

  • Replicación continua: admite la replicación de datos continua, lo que permite un tiempo de inactividad mínimo y mantiene los datos actualizados durante el proceso de migración.

  • Compatibilidad: admite comprobaciones de compatibilidad y recomienda optimizaciones para el entorno de Azure de destino para que la transición sea perfecta y eficaz.

  • Herramientas de evaluación: proporciona herramientas para evaluar la preparación de las bases de datos para la migración para identificar posibles problemas y ofrecer recomendaciones para resolverlos.

Azure Storage: proporciona soluciones de almacenamiento escalables, seguras y duraderas adaptadas a diferentes tipos de datos y casos de uso. Se admiten los siguientes tipos de almacenamiento:

  • Blob Storage: almacena datos no estructurados, como documentos, imágenes, vídeos y copias de seguridad. Es ideal para los científicos de datos que necesitan almacenar grandes conjuntos de datos para los modelos de aprendizaje automático.

  • Azure Data Lake Storage: controla el análisis de macrodatos. Data Lake Storage proporciona un espacio de nombres jerárquico y compatibilidad con Hadoop, lo que hace que sea adecuado para proyectos de análisis de datos a gran escala.

  • Azure Table Storage: almacena valores de clave NoSQL para datos semiestructurados y es adecuado para las aplicaciones que requieren un diseño sin esquema.

  • Almacenamiento de Azure Files: administra los recursos compartidos de archivos en la nube a los que accede mediante el protocolo SMB estándar, lo que resulta útil para las necesidades de almacenamiento compartido.

  • Azure Queue Storage: proporciona mensajería entre los componentes de la aplicación, lo que resulta útil para desacoplar y escalar servicios.

Proporcionar la documentación del origen de datos

  • Transparencia de datos: la documentación sobre los orígenes de datos proporciona transparencia sobre de dónde proceden los datos, su calidad y sus limitaciones.

  • Reproducibilidad: la documentación adecuada ayuda a otros miembros del equipo o a las partes interesadas a comprender y reproducir el proceso de ciencia de datos.

  • Integración de datos: la integración de datos significa integrar eficazmente varios orígenes de datos al proporcionar una comprensión clara del origen y la estructura de los datos.

Integración de la documentación del origen de datos en el TDSP

Azure tiene muchos recursos que puede usar para la documentación del origen de datos, incluidos los cuadernos. En la lista siguiente se proporcionan recursos recomendados para arquitecturas de Azure.

Azure Data Catalog es un catálogo de metadatos de nivel empresarial que convierte la detección de activos de datos en algo sencillo. Ayuda a documentar los orígenes de datos y sus características y proporciona las siguientes ventajas:

  • Administración de metadatos: permite a los usuarios registrar orígenes de datos y agregar metadatos que incluyan descripciones, etiquetas y anotaciones.

  • Detección de orígenes de datos: proporciona un catálogo que permite a los usuarios buscar y comprender los orígenes de datos que están disponibles en la organización.

  • Colaboración: permite a los usuarios compartir información y documentación sobre los orígenes de datos, lo que mejora la colaboración entre los miembros del equipo.

  • Información del origen de datos: extrae y documenta información sobre los orígenes de datos automáticamente. La información que extrae incluye esquemas, tablas, columnas y relaciones.

Azure Purview Proporciona un servicio unificado de gobernanza de datos que ayuda a administrar y controlar los datos en toda la organización. Proporciona la siguiente funcionalidad:

  • Asignación y linaje de datos: ayuda a documentar el flujo de datos y el linaje en distintos sistemas, lo que proporciona una vista clara de dónde proceden los datos y cómo se transforman.

  • Catálogo de datos: proporciona un catálogo de datos en el que se pueden buscar enriquecidos con metadatos y clasificaciones de datos, que es similar a Data Catalog en Azure.

  • Glosario empresarial: ayuda a crear y mantener un glosario empresarial para mantener una terminología coherente y fomentar la comprensión en toda la organización.

  • Información y análisis: proporciona información sobre el uso de datos y ayuda a identificar problemas de calidad de los datos, que mejoran el proceso de documentación.

Usar herramientas para el procesamiento de análisis

  • Eficiencia: las herramientas adecuadas para el procesamiento de análisis mejoran la eficacia y la velocidad del análisis de datos.

  • Funcionalidades: las distintas herramientas ofrecen diversas funcionalidades, como la visualización de datos, el análisis estadístico y el aprendizaje automático, que son esenciales para la ciencia de datos completa.

  • Productividad: las herramientas especializadas pueden mejorar significativamente la productividad de los científicos de datos automatizando tareas repetitivas y proporcionando funciones analíticas avanzadas.

Integración del procesamiento de análisis en el TDSP

Azure tiene muchos servicios que puede usar para el procesamiento de análisis, con Machine Learning como servicio recomendado principal. En la lista siguiente se proporcionan servicios recomendados para arquitecturas de Azure que requieren características más allá de Machine Learning.

Azure Synapse Analytics Le permite procesar grandes volúmenes de datos relacionales y datos no relacionales. Es un servicio de análisis integrado que acelera el tiempo para obtener información en los almacenes de datos y los sistemas de macrodatos. Azure Synapse Analytics proporciona la siguiente funcionalidad:

  • Integración de datos: integra datos de varios orígenes que permiten la ingesta de datos y el procesamiento de datos sin problemas.

  • SQL Data Warehouse: proporciona funcionalidades de almacenamiento de datos empresariales con consultas de alto rendimiento.

  • Apache Spark: proporciona grupos de Spark para el procesamiento de macrodatos que admite el análisis de datos a gran escala y el aprendizaje automático.

  • Synapse Studio: permite a los científicos de datos crear de forma colaborativa soluciones de análisis de un extremo a otro. Synapse Studio es un entorno de desarrollo integrado (IDE).

Azure Databricks es una plataforma de análisis basada en Apache Spark que está optimizada para Azure y que proporciona las características siguientes:

  • Cuadernos de colaboración: admite áreas de trabajo colaborativas en las que los científicos de datos pueden escribir código, ejecutar experimentos y compartir resultados.

  • Proceso escalable: escala los recursos de proceso automáticamente en función de las demandas de carga de trabajo y optimiza el coste y el rendimiento.

  • Aprendizaje automático: proporciona bibliotecas integradas para el aprendizaje automático, como MLlib, TensorFlow y Keras, para simplificar el desarrollo y el entrenamiento del modelo.

Data Factory : orquesta el movimiento y la transformación de datos mediante su servicio de integración de datos basado en la nube. Data Factory admite la siguiente funcionalidad:

  • Canalizaciones de ETL: permite crear canalizaciones de ETL (extracción, transformación, carga) para procesar y preparar los datos para el análisis.

  • Flujo de datos: proporciona creación de flujos de datos visuales para diseñar y ejecutar procesos de transformación de datos sin escribir código.

  • Integración: se conecta a una amplia gama de orígenes de datos, incluidos los almacenes de datos locales y basados en la nube. Esta función proporciona una integración de datos completa.

Azure Stream Analytics Procesa flujos de datos de movimiento rápido. Stream Analytics es un servicio de análisis en tiempo real que proporciona las siguientes características:

  • Procesamiento de flujos: procesa datos de varios orígenes, como dispositivos IoT, sensores y aplicaciones en tiempo real.

  • Consulta basada en SQL: usa un lenguaje conocido basado en SQL para definir la lógica de procesamiento de flujos para que sea accesible para los científicos de datos.

  • Integración: se integra con otros servicios de Azure, como Event Hubs e IoT Hub, para la ingesta y el procesamiento de datos sin problemas.

Resumen

Esta lista secuencial le ayuda a prepararse exhaustivamente para usar el TDSP:

  1. Establezca una comprensión clara de los requisitos y el ámbito del proyecto.

  2. Adopte un enfoque estructurado y colaborativo para la ejecución del proyecto.

  3. Utilice herramientas y servicios avanzados para el aprendizaje automático y el análisis.

  4. Garantice una administración de datos eficaz y segura.

  5. Mantenga la transparencia y reproducibilidad a través de la documentación.

  6. Use las herramientas adecuadas para mejorar la eficiencia y eficacia del procesamiento de datos.

La preparación es fundamental para ofrecer proyectos de ciencia de datos exitosos que cumplan los objetivos empresariales y los procedimientos recomendados.

Rutas de aprendizaje en Microsoft Learn

Tanto si es un principiante como si es un profesional con experiencia, nuestro enfoque autodirigido le ayuda a lograr sus objetivos en menos tiempo, con más confianza y a su propio ritmo. Desarrolle aptitudes a través de módulos y rutas de acceso interactivos o aprenda de un instructor. Aprenda y crezca a su manera.

Microsoft Learn organiza su contenido de formación en tres niveles de aptitudes: principiantes, intermedios y avanzados. Comprender estas distinciones es esencial para seleccionar las rutas de aprendizaje adecuadas para que coincidan con el nivel de aptitud y los objetivos profesionales.

Principiante

  • Público objetivo: personas que no están familiarizadas con la tecnología o los conceptos que se tratan.
  • Contenido: introducción básica a los conceptos, aptitudes fundamentales y pasos iniciales necesarios para empezar. Normalmente abarca principios básicos y conocimientos fundamentales.

Propósito:

  • Crear una base sólida en una nueva área
  • Ayudar a los alumnos a comprender conceptos básicos y terminología
  • Preparar a los alumnos para artículos más complejos

Rutas de aprendizaje para principiantes

Intermedio

  • Público objetivo: personas que tienen un conocimiento básico de la tecnología y buscan profundizar en sus conocimientos.
  • Contenido: aptitudes más detalladas y prácticas, incluidos ejercicios prácticos y escenarios reales. Requiere una profundización más profunda en la materia.

Propósito:

  • Reducir la brecha entre la comprensión básica y la competencia avanzada
  • Permitir que los alumnos controlen tareas y escenarios más complejos
  • Preparar a los alumnos para exámenes de certificación o roles especializados

Rutas de aprendizaje para nivel intermedio

Avanzado

  • Público objetivo: profesionales experimentados que buscan perfeccionar sus habilidades y abordar tareas complejas y de alto nivel.
  • Contenido: formación técnica detallada, técnicas avanzadas y cobertura completa de temas especializados. A menudo incluye estrategias de optimización y resolución de problemas de nivel experto.

Propósito:

  • Proporcionar experiencia en una área específica
  • Preparar a los alumnos para certificaciones de nivel experto y roles profesionales avanzados
  • Permitir a los alumnos dirigir proyectos e innovar dentro de su campo

Ruta de aprendizaje para expertos

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Continúe con el recorrido de IA en el Centro de aprendizaje de IA.