Exportar a una consulta de Hive

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Nota

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

En este artículo se describe cómo usar la opción Exportar datos a Hive en el módulo Exportar datos de Machine Learning Studio (clásico). Esta opción es útil cuando se trabaja con conjuntos de datos muy grandes y se quieren guardar los datos del experimento de aprendizaje automático en un clúster de Hadoop o un almacenamiento distribuido de HDInsight. También puede exportar resultados intermedios u otros datos a Hadoop para que pueda procesarlos mediante un MapReduce trabajo.

Exportación de datos a Hive

Agregue el módulo Exportar datos al experimento. Puede encontrar este módulo en la categoría Entrada y salida de datos en Machine Learning Studio (clásico).

Conectar el módulo al conjunto de datos que desea exportar.
En Origen de datos, seleccione Consulta de Hive.
En Nombre de tabla de Hive , escriba el nombre de la tabla de Hive en la que se va a almacenar el conjunto de datos.
En el cuadro de texto URI del servidor de HCatalog , escriba el nombre completo del clúster.

Por ejemplo, si ha creado un clúster con el nombre mycluster001, use este formato:

https://mycluster001.azurehdinsight.net
En el cuadro de texto Nombre de cuenta de usuario de Hadoop, pegue la cuenta de usuario de Hadoop que usó al aprovisionar el clúster.
En el cuadro de texto Contraseña de la cuenta de usuario de Hadoop, escriba las credenciales que usó al aprovisionar el clúster.
En Ubicación de los datos de salida, seleccione la opción que indica dónde se deben almacenar los datos: HDFS o Azure.

Si los datos están en el sistema de archivos distribuido de Hadoop (HDFS), debe ser accesible a través de la misma cuenta y contraseña que acaba de especificar.

Si los datos están en Azure, proporcione la ubicación y las credenciales de la cuenta de almacenamiento.
Si ha seleccionado la opción HDFS , para EL URI del servidor HDFS, especifique el nombre del clúster de HDInsight sin el https:// prefijo.
Si ha seleccionado la opción Azure , proporcione el nombre de la cuenta de almacenamiento y las credenciales que el módulo puede usar para conectarse al almacenamiento.
- Nombre de la cuenta de almacenamiento de Azure: escriba el nombre de la cuenta de Azure. Por ejemplo, si la dirección URL completa de la cuenta de almacenamiento es https://myshared.blob.core.windows.net, escribiría myshared.
- Clave de almacenamiento de Azure: copie y pegue la clave que se proporciona para acceder a la cuenta de almacenamiento.
- Nombre del contenedor de Azure: especifique el contenedor predeterminado para el clúster. Para obtener sugerencias sobre cómo averiguar el contenedor predeterminado, consulte la sección Notas técnicas .
Usar resultados almacenados en caché: seleccione esta opción si desea evitar volver a escribir la tabla de Hive cada vez que ejecute el experimento. Si no hay ningún otro cambio en los parámetros del módulo, el experimento escribe la tabla de Hive solo la primera vez que se ejecuta el módulo o cuando hay cambios en los datos.

Si desea escribir la tabla de Hive cada vez que se ejecute el experimento, anule la selección de la opción Usar resultados almacenados en caché.
Ejecute el experimento.

Ejemplos

Para obtener ejemplos de cómo usar el módulo Exportar datos, vea el Azure AI Gallery.

Proceso y tecnología de Análisis avanzado en acción: uso de clústeres de Hadoop de HDInsight: en este artículo se proporciona un tutorial detallado sobre cómo crear un clúster, cargar datos y llamar a los datos desde Studio (clásico) mediante Hive.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Preguntas frecuentes

Cómo evitar problemas de memoria cuando se escriben grandes conjuntos de datos

A veces, la configuración predeterminada del clúster de Hadoop está demasiado limitada para admitir la ejecución del MapReduce trabajo. Por ejemplo, en estas notas de la versión para HDInsight, la configuración predeterminada se define como un clúster de cuatro nodos.

Si los requisitos del trabajo de MapReduce superan la capacidad disponible, es posible que las consultas de Hive devuelvan un mensaje de error De memoria, lo que provoca un error en la operación Exportar datos. Si esto sucede, puede cambiar la asignación de memoria predeterminada para las consultas de Hive.

Cómo evitar volver a cargar los mismos datos innecesariamente

Si no desea volver a crear la tabla de Hive cada vez que ejecute el experimento, seleccione la opción Usar resultados almacenados en caché en TRUE. Cuando esta opción se establece en TRUE, el módulo comprobará si el experimento se ha ejecutado anteriormente y, si se encuentra una ejecución anterior, no se realiza la operación de escritura.

Consejos de uso

Puede ser difícil averiguar el contenedor predeterminado para el clúster. A continuación se incluyen algunas sugerencias:

Si creó el clúster con la configuración predeterminada, se creó un contenedor con el mismo nombre al mismo tiempo que se creó el clúster. Ese contenedor es el contenedor predeterminado para el clúster.
Si creó el clúster mediante la opción CUSTOM CREATE , se le han dado dos opciones para seleccionar el contenedor predeterminado.

Contenedor existente: si seleccionó un contenedor existente, ese contenedor es el contenedor de almacenamiento predeterminado para el clúster.

Crear contenedor predeterminado: si seleccionó esta opción, se creó un contenedor con el mismo nombre que el clúster y debe especificar ese nombre de contenedor como contenedor predeterminado para el clúster.

Parámetros del módulo

Nombre	Intervalo	Tipo	Valor predeterminado	Descripción
Origen de datos	Lista	Origen de datos o receptor	Azure Blob Storage	El origen de datos puede ser HTTP, FTP, HTTPS anónimo o FTPS, un archivo de almacenamiento de blobs de Azure, una tabla de Azure, una base de datos SQL de Azure, una tabla de Hive o un extremo de OData.
Nombre de la tabla de Hive	cualquiera	String	ninguno	Nombre de la tabla en Hive
URI del servidor de HCatalog	cualquiera	String	ninguno	Punto de conexión de Templeton
Nombre de la cuenta de usuario de Hadoop	cualquiera	String	ninguno	Nombre de usuario de HDFS/HDInsight de Hadoop
Contraseña de la cuenta de usuario de Hadoop	cualquiera	SecureString	ninguno	Contraseña de HDFS/HDInsight de Hadoop
Ubicación de los datos de salida	cualquiera	DataLocation	HDFS	Especificación de HDFS o Azure para outputDir
URI del servidor de HDFS	cualquiera	String	ninguno	Punto de conexión de rest de HDFS
Nombre de la cuenta de almacenamiento de Azure	cualquiera	String	ninguno	Nombre de la cuenta de almacenamiento de Azure
Claves de Azure Storage	cualquiera	SecureString	ninguno	Claves de Azure Storage
Nombre del contenedor de Azure	cualquiera	String	ninguno	Nombre del contenedor de Azure
Uso de resultados almacenados en caché	TRUE/FALSE	Boolean	FALSE	El módulo solo se ejecuta si no existe una caché válida; De lo contrario, use los datos almacenados en caché de la ejecución anterior.

Excepciones

Excepción	Descripción
Error 0027	Se produce una excepción cuando dos objetos tienen que ser del mismo tamaño pero no lo son.
Error 0003	Se produce una excepción si una o varias de las entradas son nulas o están vacías.
Error 0029	Se produce una excepción cuando se pasa un URI no válido.
Error 0030	Se produce una excepción cuando no es posible descargar un archivo.
Error 0002	Se produce una excepción si uno o más parámetros no se pudieron analizar o convertir del tipo especificado al tipo requerido por el método de destino.
Error 0009	Se produce una excepción si se especifica incorrectamente el nombre de la cuenta de almacenamiento de Azure o el nombre del contenedor.
Error 0048	Se produce una excepción cuando no es posible abrir un archivo.
Error 0046	Se produce una excepción si no es posible crear el directorio en la ruta de acceso especificada.
Error 0049	Se produce una excepción cuando no es posible analizar un archivo.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Import Data
Export Data
Exportar a Azure SQL Database
Exportación a Azure Blob Storage
Exportar a una tabla de Azure

Compartir a través de