Copia de datos de tabla web con Azure Data Factory o Synapse Analytics
SE APLICA A: Azure Data Factory Azure Synapse Analytics
Sugerencia
Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. ¡Obtenga más información sobre cómo iniciar una nueva evaluación gratuita!
En este artículo se describe el uso de la actividad de copia en una canalización de Azure Data Factory o Synapse Analytics para copiar datos de tabla web. El documento se basa en el artículo de introducción a la actividad de copia que describe información general de la actividad de copia.
Las diferencias entre este conector de tabla web, el conector REST y el conector HTTP son:
- El conector de tabla web extrae contenido de la tabla de una página web HTML.
- El conector REST admite específicamente la copia de datos desde API RESTful.
- El conector HTTP es genérico y puede recuperar datos desde cualquier punto de conexión HTTP, por ejemplo, para descargar archivos.
Funcionalidades admitidas
Este conector de tabla web es compatible con las funcionalidades siguientes:
Funcionalidades admitidas | IR |
---|---|
Actividad de copia (origen/-) | 6 |
Actividad de búsqueda | 6 |
① Azure Integration Runtime ② Entorno de ejecución de integración autohospedado
Para obtener una lista de los almacenes de datos que se admiten como orígenes y receptores, consulte la tabla de almacenes de datos admitidos.
En concreto, este conector de tabla web permite extraer contenido de tablas de una página HTML.
Prerrequisitos
Para usar este conector de tabla web, tiene que configurar una instancia de Integration Runtime autohospedada. Consulte el artículo sobre Integration Runtime autohospedado para más información.
Introducción
Para realizar la actividad de copia con una canalización, puede usar una de los siguientes herramientas o SDK:
- La herramienta Copiar datos
- Azure Portal
- El SDK de .NET
- El SDK de Python
- Azure PowerShell
- API REST
- La plantilla de Azure Resource Manager
Creación de un servicio vinculado a una Web Table mediante la interfaz de usuario
Siga estos pasos para crear un servicio vinculado a Web Table en la interfaz de usuario de Azure Portal.
Vaya a la pestaña Administrar del área de trabajo de Azure Data Factory o Synapse y seleccione Servicios vinculados; luego haga clic en Nuevo:
Busque Web y seleccione el conector de Web Table.
Configure los detalles del servicio, pruebe la conexión y cree el nuevo servicio vinculado.
Detalles de configuración del conector
Las secciones siguientes proporcionan detalles sobre las propiedades que se usan para definir entidades de Data Factory específicas del conector de tabla web.
Propiedades del servicio vinculado
Las siguientes propiedades son compatibles con el servicio vinculado de tabla web:
Propiedad | Descripción | Obligatorio |
---|---|---|
type | La propiedad type debe establecerse en: Web | Sí |
url | Dirección URL para el origen de Web | Sí |
authenticationType | El valor permitido es: Anonymous. | Sí |
connectVia | El entorno Integration Runtime que se usará para conectarse al almacén de datos. Tal y como se mencionó en los requisitos previos, se requiere un entorno Integration Runtime autohospedado. | Sí |
Ejemplo:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Propiedades del conjunto de datos
Si desea ver una lista completa de las secciones y propiedades disponibles para definir conjuntos de datos, consulte el artículo sobre conjuntos de datos. En esta sección se proporciona una lista de las propiedades que admite el conjunto de datos de tabla web.
Para copiar datos desde una tabla web, establezca la propiedad type del conjunto de datos en WebTable. Se admiten las siguientes propiedades:
Propiedad | Descripción | Obligatorio |
---|---|---|
type | La propiedad type del conjunto de datos debe establecerse en: WebTable | Sí |
path | Dirección URL relativa al recurso que contiene la tabla. | No. Cuando no se especifica la ruta de acceso, se solo se usa la dirección URL especificada en la definición de servicio vinculado. |
índice | Índice de la tabla en el recurso. Consulte la sección Obtención de índice de una tabla en una página HTML para saber los pasos necesarios para obtener el índice de una tabla en una página HTML. | Sí |
Ejemplo:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
Propiedades de la actividad de copia
Si desea ver una lista completa de las secciones y propiedades disponibles para definir actividades, consulte el artículo sobre canalizaciones. En esta sección se proporciona una lista de las propiedades que admite el origen de datos de tabla web.
Tabla web como origen
Para copiar datos desde una tabla web, establezca el tipo de origen de la actividad de copia en WebSource. No se admite ninguna otra propiedad.
Ejemplo:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
Obtención de índice de una tabla en una página HTML
Para obtener el índice de una tabla que necesita configurar en propiedades del conjunto de datos , puede utilizar, por ejemplo, Excel 2016 como herramienta, como se indica a continuación:
Inicie Excel 2016 y cambie a la pestaña Datos.
Haga clic en Nueva consulta en la barra de herramientas, elija De otros orígenes y haga clic en Desde Web.
En el cuadro de diálogo Desde Web, escriba la dirección URL que usaría en el objeto JSON del servicio vinculado (por ejemplo: https://en.wikipedia.org/wiki/) junto con la ruta de acceso que especificaría para el conjunto de datos (por ejemplo: AFI%27s_100_Years...100_Movies) y haga clic en Aceptar.
Dirección URL que se usa en este ejemplo: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies
Si ve el cuadro de diálogo Acceso a contenido web, seleccione la dirección URL correcta, la autenticación y haga clic en Conectar.
Haga clic en un elemento de tabla en la vista de árbol para ver el contenido de la tabla y después en el botón Editar ubicado en la parte inferior.
En la ventana Editor de consultas, haga clic en el botón Editor avanzado de la barra de herramientas.
En el cuadro de diálogo Editor avanzado, el número que aparece junto a "Origen" es el índice.
Si usa Excel 2013, use Microsoft Power Query para Excel para obtener el índice. Consulte el artículo Conectarse a una página web para más información. Los pasos son similares si usa Microsoft Power BI Desktop.
Propiedades de la actividad de búsqueda
Para obtener información detallada sobre las propiedades, consulte Actividad de búsqueda.
Contenido relacionado
Para obtener una lista de almacenes de datos que la actividad de copia admite como orígenes y receptores, vea Almacenes de datos que se admiten.