Exportar a una consulta de Hive
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
Nota
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
En este artículo se describe cómo usar la opción Exportar datos a Hive en el módulo Exportar datos de Machine Learning Studio (clásico). Esta opción es útil cuando se trabaja con conjuntos de datos muy grandes y se quieren guardar los datos del experimento de aprendizaje automático en un clúster de Hadoop o un almacenamiento distribuido de HDInsight. También puede exportar resultados intermedios u otros datos a Hadoop para que pueda procesarlos mediante un MapReduce trabajo.
Exportación de datos a Hive
Agregue el módulo Exportar datos al experimento. Puede encontrar este módulo en la categoría Entrada y salida de datos en Machine Learning Studio (clásico).
Conectar el módulo al conjunto de datos que desea exportar.
En Origen de datos, seleccione Consulta de Hive.
En Nombre de tabla de Hive , escriba el nombre de la tabla de Hive en la que se va a almacenar el conjunto de datos.
En el cuadro de texto URI del servidor de HCatalog , escriba el nombre completo del clúster.
Por ejemplo, si ha creado un clúster con el nombre
mycluster001
, use este formato:https://mycluster001.azurehdinsight.net
En el cuadro de texto Nombre de cuenta de usuario de Hadoop, pegue la cuenta de usuario de Hadoop que usó al aprovisionar el clúster.
En el cuadro de texto Contraseña de la cuenta de usuario de Hadoop, escriba las credenciales que usó al aprovisionar el clúster.
En Ubicación de los datos de salida, seleccione la opción que indica dónde se deben almacenar los datos: HDFS o Azure.
Si los datos están en el sistema de archivos distribuido de Hadoop (HDFS), debe ser accesible a través de la misma cuenta y contraseña que acaba de especificar.
Si los datos están en Azure, proporcione la ubicación y las credenciales de la cuenta de almacenamiento.
Si ha seleccionado la opción HDFS , para EL URI del servidor HDFS, especifique el nombre del clúster de HDInsight sin el
https://
prefijo.Si ha seleccionado la opción Azure , proporcione el nombre de la cuenta de almacenamiento y las credenciales que el módulo puede usar para conectarse al almacenamiento.
Nombre de la cuenta de almacenamiento de Azure: escriba el nombre de la cuenta de Azure. Por ejemplo, si la dirección URL completa de la cuenta de almacenamiento es
https://myshared.blob.core.windows.net
, escribiríamyshared
.Clave de almacenamiento de Azure: copie y pegue la clave que se proporciona para acceder a la cuenta de almacenamiento.
Nombre del contenedor de Azure: especifique el contenedor predeterminado para el clúster. Para obtener sugerencias sobre cómo averiguar el contenedor predeterminado, consulte la sección Notas técnicas .
Usar resultados almacenados en caché: seleccione esta opción si desea evitar volver a escribir la tabla de Hive cada vez que ejecute el experimento. Si no hay ningún otro cambio en los parámetros del módulo, el experimento escribe la tabla de Hive solo la primera vez que se ejecuta el módulo o cuando hay cambios en los datos.
Si desea escribir la tabla de Hive cada vez que se ejecute el experimento, anule la selección de la opción Usar resultados almacenados en caché.
Ejecute el experimento.
Ejemplos
Para obtener ejemplos de cómo usar el módulo Exportar datos, vea el Azure AI Gallery.
- Proceso y tecnología de Análisis avanzado en acción: uso de clústeres de Hadoop de HDInsight: en este artículo se proporciona un tutorial detallado sobre cómo crear un clúster, cargar datos y llamar a los datos desde Studio (clásico) mediante Hive.
Notas técnicas
Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.
Preguntas frecuentes
Cómo evitar problemas de memoria cuando se escriben grandes conjuntos de datos
A veces, la configuración predeterminada del clúster de Hadoop está demasiado limitada para admitir la ejecución del MapReduce trabajo. Por ejemplo, en estas notas de la versión para HDInsight, la configuración predeterminada se define como un clúster de cuatro nodos.
Si los requisitos del trabajo de MapReduce superan la capacidad disponible, es posible que las consultas de Hive devuelvan un mensaje de error De memoria, lo que provoca un error en la operación Exportar datos. Si esto sucede, puede cambiar la asignación de memoria predeterminada para las consultas de Hive.
Cómo evitar volver a cargar los mismos datos innecesariamente
Si no desea volver a crear la tabla de Hive cada vez que ejecute el experimento, seleccione la opción Usar resultados almacenados en caché en TRUE. Cuando esta opción se establece en TRUE, el módulo comprobará si el experimento se ha ejecutado anteriormente y, si se encuentra una ejecución anterior, no se realiza la operación de escritura.
Consejos de uso
Puede ser difícil averiguar el contenedor predeterminado para el clúster. A continuación se incluyen algunas sugerencias:
Si creó el clúster con la configuración predeterminada, se creó un contenedor con el mismo nombre al mismo tiempo que se creó el clúster. Ese contenedor es el contenedor predeterminado para el clúster.
Si creó el clúster mediante la opción CUSTOM CREATE , se le han dado dos opciones para seleccionar el contenedor predeterminado.
Contenedor existente: si seleccionó un contenedor existente, ese contenedor es el contenedor de almacenamiento predeterminado para el clúster.
Crear contenedor predeterminado: si seleccionó esta opción, se creó un contenedor con el mismo nombre que el clúster y debe especificar ese nombre de contenedor como contenedor predeterminado para el clúster.
Parámetros del módulo
Nombre | Intervalo | Tipo | Valor predeterminado | Descripción |
---|---|---|---|---|
Origen de datos | Lista | Origen de datos o receptor | Azure Blob Storage | El origen de datos puede ser HTTP, FTP, HTTPS anónimo o FTPS, un archivo de almacenamiento de blobs de Azure, una tabla de Azure, una base de datos SQL de Azure, una tabla de Hive o un extremo de OData. |
Nombre de la tabla de Hive | cualquiera | String | ninguno | Nombre de la tabla en Hive |
URI del servidor de HCatalog | cualquiera | String | ninguno | Punto de conexión de Templeton |
Nombre de la cuenta de usuario de Hadoop | cualquiera | String | ninguno | Nombre de usuario de HDFS/HDInsight de Hadoop |
Contraseña de la cuenta de usuario de Hadoop | cualquiera | SecureString | ninguno | Contraseña de HDFS/HDInsight de Hadoop |
Ubicación de los datos de salida | cualquiera | DataLocation | HDFS | Especificación de HDFS o Azure para outputDir |
URI del servidor de HDFS | cualquiera | String | ninguno | Punto de conexión de rest de HDFS |
Nombre de la cuenta de almacenamiento de Azure | cualquiera | String | ninguno | Nombre de la cuenta de almacenamiento de Azure |
Claves de Azure Storage | cualquiera | SecureString | ninguno | Claves de Azure Storage |
Nombre del contenedor de Azure | cualquiera | String | ninguno | Nombre del contenedor de Azure |
Uso de resultados almacenados en caché | TRUE/FALSE | Boolean | FALSE | El módulo solo se ejecuta si no existe una caché válida; De lo contrario, use los datos almacenados en caché de la ejecución anterior. |
Excepciones
Excepción | Descripción |
---|---|
Error 0027 | Se produce una excepción cuando dos objetos tienen que ser del mismo tamaño pero no lo son. |
Error 0003 | Se produce una excepción si una o varias de las entradas son nulas o están vacías. |
Error 0029 | Se produce una excepción cuando se pasa un URI no válido. |
Error 0030 | Se produce una excepción cuando no es posible descargar un archivo. |
Error 0002 | Se produce una excepción si uno o más parámetros no se pudieron analizar o convertir del tipo especificado al tipo requerido por el método de destino. |
Error 0009 | Se produce una excepción si se especifica incorrectamente el nombre de la cuenta de almacenamiento de Azure o el nombre del contenedor. |
Error 0048 | Se produce una excepción cuando no es posible abrir un archivo. |
Error 0046 | Se produce una excepción si no es posible crear el directorio en la ruta de acceso especificada. |
Error 0049 | Se produce una excepción cuando no es posible analizar un archivo. |
Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.
Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.
Consulte también
Import Data
Export Data
Exportar a Azure SQL Database
Exportación a Azure Blob Storage
Exportar a una tabla de Azure