Mayo de 2018
Las versiones se publican por fases. Es posible que su cuenta de Azure Databricks no se actualice hasta una semana después de la fecha de lanzamiento inicial.
Reglamento general de protección de datos (RGPD)
Mayo de 24, 2018 (versión 2.72)
Para cumplir los requisitos de la Unión Europea en relación con el Reglamento general de protección de datos (RGPD), que entra en vigor el 25 de mayo de 2018, hemos realizado una serie de modificaciones en la plataforma Azure Databricks para proporcionarle un mayor control de la retención de datos en el nivel de cuenta y en el de usuario. Las actualizaciones incluyen:
- Eliminación de clúster: elimine permanentemente una configuración de clúster mediante la interfaz de usuario o Clusters API. Vea Eliminar un proceso.
- Purga del área de trabajo (publicada en la versión 2.71): elimine permanentemente objetos del área de trabajo, como cuadernos completos, celdas individuales de cuadernos, comentarios individuales de estos e historial de revisiones de cuadernos. Consulte Purga del almacenamiento del área de trabajo.
- Purga del historial de revisiones de cuadernos:
- Elimine permanentemente el historial de revisiones de todos los cuadernos de un área de trabajo durante un período de tiempo definido. Consulte Purga del almacenamiento del área de trabajo.
- Elimine permanentemente una única revisión de cuaderno o todo el historial de revisiones de un cuaderno. Consulte Historial de versiones.
Para más información sobre cómo eliminar el servicio Azure Databricks o cancelar la cuenta de Azure, consulte Administración de suscripciones.
Los usuarios de Azure Databricks deben pertenecer al inquilino de Microsoft Entra ID
Mayo de 24, 2018 (versión 2.72)
Los usuarios ahora pueden iniciar sesión en Azure Databricks solo si pertenecen al inquilino de Microsoft Entra ID (anteriormente Azure Active Directory) del área de trabajo de Azure Databricks. Si tiene usuarios que no pertenecen al inquilino de Microsoft Entra ID, puede agregarlos como usuarios estándar o invitados.
HorovodEstimator
29 de mayo de 2018: Versión 2.72
Se ha agregado documentación y un cuaderno para HorovodEstimator, una API de estimador de estilo MLlib que aprovecha el marco Horovod de Uber. HorovodEstimator facilita el entrenamiento distribuido con varias GPU de redes neuronales profundas en DataFrames de Spark, lo que simplifica la integración de ETL en Spark con el entrenamiento de modelos de TensorFlow.
Exportación de modelos de Machine Learning en MLeap
Mayo de 24, 2018 (versión 2.72)
Se ha agregado documentación y cuadernos sobre el uso de MLeap en Azure Databricks. MLeap permite implementar canalizaciones de aprendizaje automático desde Apache Spark y scikit-learn a un formato portátil y un motor de ejecución. Consulte Exportación de modelos de Machine Learning en MLeap.
Aún más tipos de clúster de GPU
Mayo de 24, 2018 (versión 2.72)
Además de los tipos de instancia de Azure NC (NC12 y NC24) que agregamos en la versión 2.71, ahora se admite la serie de tipos de instancia NCv3 (NC6s_v3, NC12s_v3 y NC24s_v3) en clústeres de Azure Databricks. Las instancias de NC y NCv3 proporcionan GPU para potenciar el procesamiento de imágenes, el análisis de texto y otras tareas de aprendizaje automático y aprendizaje profundo que son computacionalmente complicadas y exigen un rendimiento superior.
Vea proceso habilitado para GPU.
Celdas del cuaderno: ocultar y mostrar
Mayo de 24, 2018 (versión 2.72)
Los nuevos indicadores y la mensajería facilitan la presentación del contenido de las celdas del cuaderno después de que se hayan ocultado. Consulte Ocultar y mostrar contenido de celda.
Búsqueda en el sitio de documentación
22 de mayo de 2018
Hemos reemplazado la búsqueda del sitio de documentación por una herramienta de búsqueda mejor. Verá aún más mejoras de búsqueda en las próximas semanas.
Nota:
La búsqueda puede parecer que se interrumpe si intenta probarla poco después de implementar la nueva búsqueda. Simplemente borre la caché del explorador para ver la nueva experiencia de búsqueda.
Databricks Runtime 4.1 ML para Machine Learning (versión beta)
17 de mayo de 2018
Databricks Runtime ML (versión beta) proporciona un entorno listo para usar para el aprendizaje automático y la ciencia de datos. Contiene varias bibliotecas populares, como TensorFlow, Keras y XGBoost.
Databricks Runtime ML le permite iniciar un clúster de Databricks con todas las bibliotecas necesarias para el entrenamiento distribuido de TensorFlow. Garantiza la compatibilidad de las bibliotecas incluidas en el clúster (entre TensorFlow y CUDA/cuDNN, por ejemplo) y reduce considerablemente el tiempo de inicio del clúster en comparación con el uso de scripts de inicialización.
Nota:
Databricks Runtime 4.1 ML solo está disponible en la SKU Premium.
Consulte las notas de la versión completas para Databricks Runtime 4.1 ML (EoS).
Databricks Delta
17 de mayo de 2018
Databricks Delta ahora está disponible en versión preliminar privada para usuarios de Azure Databricks. Póngase en contacto con el administrador de cuentas o regístrese en https://databricks.com/product/databricks-delta. Esta versión representa una versión candidata en previsión de la próxima versión con disponibilidad general.
Para más información, consulte Databricks Runtime 4.1 (EoS) y ¿Qué es Delta Lake?
Compatibilidad con display() para los tipos de datos de imagen
17 de mayo de 2018
En Databricks Runtime 4.1, display()
ahora representa las columnas que contienen tipos de datos de imagen como HTML enriquecido.
Consulte Visualizaciones en cuadernos de Databricks.
Tipos de clúster de GPU
15 de mayo de 2018: Versión 2.71
Nos complace anunciar la compatibilidad con los tipos de instancia de Azure NC (NC12 y NC24) en clústeres de Azure Databricks. Las instancias de NC proporcionan GPU para potenciar el procesamiento de imágenes, el análisis de texto y otras tareas de aprendizaje automático y aprendizaje profundo que son computacionalmente complicadas y exigen un rendimiento superior.
Azure Databricks también proporciona controladores y bibliotecas de NVIDIA preinstalados configurados para GPU, junto con material para empezar a trabajar con varias bibliotecas conocidas de aprendizaje profundo.
Consulte también:
Administración de secretos está disponible con carácter general
15 de mayo de 2018: Versión 2.71
La administración de secretos, que estaba en versión preliminar privada, ahora está disponible de forma general. Proporciona herramientas eficaces para administrar las credenciales que necesita para autenticarse en orígenes de datos externos. En lugar de escribir directamente sus credenciales en un cuaderno, use la administración de secretos de Azure Databricks para almacenar sus credenciales y hacer referencia a ellas en cuadernos y trabajos. Para administrar los secretos, puedes usar la CLI de secretos (heredado) para acceder a API de secretos.
Nota:
La administración de secretos requiere Databricks Runtime 4.0 o superior y la CLI de Databricks 0.7.1 o superior.
Consulte Administración de secretos.
Cambios en el punto de conexión de la API y los comandos de la CLI de secretos
15 de mayo de 2018: Versión 2.71
Se realizaron los siguientes cambios en los puntos de conexión de la API de secretos:
- Para todos los puntos de conexión, la ruta de acceso raíz se cambió de
/secret
a/secrets
. - En el caso del punto de conexión de secretos,
/secret/secrets
se contrajo en/secrets/
. - El método
write
se cambió aput
.
La CLI de Databricks 0.7.1 incluye actualizaciones de los comandos de Secrets que están en línea con estos puntos de conexión de API actualizados.
Consulta API de secretos y Administración de secretos.
Anclaje del clúster
15 de mayo de 2018: Versión 2.71
Ahora puede anclar un clúster a la lista Clústeres. Esto le permite conservar la configuración de los clústeres finalizados con más de 30 días de antigüedad.
Además, la página Clústeres ahora muestra todos los clústeres que se finalizaron en un plazo de 30 días (el plazo ha aumentado desde los 7 días originales).
Vea Anclar un proceso.
Inicio automático de clúster
15 de mayo de 2018: Versión 2.71
Antes de esta versión, se producían errores en los trabajos programados para ejecutarse en los clústeres Terminated
. En el caso de los clústeres creados en Azure Databricks versión 2.71 y posteriores, los comandos de una interfaz JDBC/ODBC, o una ejecución de trabajo asignada a un clúster finalizado existente, reinician automáticamente ese clúster. Consulte JDBC connect and Configure and edit Databricks Jobs (Configuración y edición de trabajos de Databricks).
El inicio automático le permite configurar clústeres para que finalicen automáticamente sin necesidad de intervención manual para reiniciar los clústeres para los trabajos programados. Además, puede programar la inicialización del clúster mediante la programación de un trabajo que reinicie los clústeres finalizados a una hora especificada.
Se aplica el control de acceso al clúster y los permisos de propietario del trabajo se comprueban como de costumbre.
Purga del área de trabajo
15 de mayo de 2018: Versión 2.71
Como parte de nuestro esfuerzo continuo por cumplir con el Reglamento general de protección de datos (RGPD) de la Unión Europea, hemos agregado la posibilidad de purgar objetos del área de trabajo, como cuadernos completos, celdas individuales de estos, comentarios individuales de cuadernos e historial de revisiones de los mismos. Publicaremos más funcionalidades y documentación para respaldar el cumplimiento del RGPD en las próximas semanas.
Consulte Purga del almacenamiento del área de trabajo.
CLI de Databricks 0.7.1
10 de mayo de 2018
La CLI de Databricks 0.7.1 incluye actualizaciones de los comandos de Secrets que están en línea con los puntos de conexión de API actualizados.
Consulte CLI de Databricks (heredado) y Administración de secretos.