Preguntas más frecuentes sobre Reconocimiento de entidades con nombre personalizado
Encuentre respuestas a preguntas frecuentes sobre conceptos y escenarios relacionados con NER personalizado en el Lenguaje de Azure AI.
¿Cómo puedo empezar a usar el servicio?
Consulte el inicio rápido para crear rápidamente su primer proyecto o vea cómo crear proyectos para obtener más detalles.
¿Cuáles son los límites de servicio?
Para obtener más información, consulte el artículo sobre límites del servicio.
¿Cuántos archivos etiquetados se necesitan?
Por lo general, los datos etiquetados diversos y representativos generan mejores resultados, dado que el etiquetado se realiza de forma precisa, coherente y completa. No hay ningún número establecido de instancias etiquetadas que hagan que todos los modelos se ejecuten bien. El rendimiento depende en gran medida del esquema y de la ambigüedad del esquema. Los tipos de entidad ambiguos necesitan más etiquetas. El rendimiento también depende de la calidad del etiquetado. El número recomendado de instancias etiquetadas por entidad es 50.
El entrenamiento está tardando mucho tiempo, ¿es esto lo esperado?
El proceso de entrenamiento puede tardar mucho tiempo. Como estimación aproximada, el tiempo de entrenamiento esperado para los archivos con una longitud combinada de 12 800 000 caracteres es de 6 horas.
¿Cómo puedo crear mi modelo personalizado mediante programación?
Nota
Actualmente solo puede crear un modelo mediante la API de REST o Language Studio.
Puede usar las API REST para compilar los modelos personalizados. Siga este inicio rápido para empezar a crear un proyecto y crear un modelo a través de las API para obtener ejemplos de cómo llamar a la API de creación.
Cuando tenga todo listo para empezar a usar el modelo con el fin de realizar predicciones, puede usar la API de REST o la biblioteca cliente.
¿Cuál es el proceso de CI/CD recomendado?
Puede entrenar varios modelos en el mismo conjunto de datos dentro del mismo proyecto. Después de haber entrenado el modelo correctamente, puede ver su rendimiento. Puede implementar y probar el modelo en Language Studio. Puede agregar o quitar etiquetas de los datos, así como entrenar un nuevo modelo y probarlo. Vea los límites del servicio para obtener información sobre el número máximo de modelos entrenados con el mismo proyecto. Al entrenar un modelo, puede determinar la forma en que el conjunto de datos se divide en conjuntos de entrenamiento y de pruebas. Los datos también se pueden dividir aleatoriamente en conjuntos de entrenamiento y pruebas, donde no hay ninguna garantía de que la evaluación del modelo reflejado sea sobre el mismo conjunto de prueba y los resultados no se pueden comparar. Se recomienda desarrollar su propio conjunto de pruebas y usarlo para evaluar ambos modelos para poder medir la mejora.
¿Una puntuación de modelo baja o alta garantiza un rendimiento bajo o bueno en producción?
Es posible que la evaluación del modelo no siempre sea completa. Esto depende de:
- Si el conjunto de pruebas es demasiado pequeño, las puntuaciones buenas o malas no son representativas del rendimiento real del modelo. Además, si falta un tipo de entidad específico o está infrarrepresentado en el conjunto de pruebas, el rendimiento del modelo resultará afectado.
- Diversidad de datos: si los datos solo abarcan algunos escenarios o ejemplos del texto que espera en producción, el modelo no estará expuesto a todos los escenarios posibles y podría tener un rendimiento deficiente en los escenarios en los que no se ha entrenado.
- Representación de datos: si el conjunto de datos usado para entrenar el modelo no es representativo de los datos que se introducirían en el modelo en producción, el rendimiento del modelo se verá afectado en gran medida.
Consulte el artículo sobre selección de datos y diseño de esquemas para obtener más información.
¿Cómo puedo mejorar el rendimiento del modelo?
Vea la matriz de confusión del modelo. Si observa que un determinado tipo de entidad no suele predecirse correctamente, considere la posibilidad de agregar más instancias etiquetadas para esta clase. Si observa que dos tipos de entidad se predicen con frecuencia como el otro, significa que el esquema es ambiguo y debe considerar la posibilidad de combinar ambos en un tipo de entidad para mejorar el rendimiento.
Revisión de las predicciones del conjunto de pruebas. Si uno de los tipos de entidad tiene muchas más instancias etiquetadas que los demás, el modelo puede estar sesgado hacia este tipo. Agregue más datos a los otros tipos de entidad o quite ejemplos del tipo dominante.
Obtenga más información sobre la selección de datos y el diseño de esquemas.
Revise el conjunto de pruebas para ver las entidades predichas y etiquetadas en paralelo para que pueda obtener una mejor idea del rendimiento del modelo y decidir si es necesario realizar algún cambio en el esquema o en las etiquetas.
¿Por qué se obtienen resultados diferentes al volver a entrenar el modelo?
Al entrenar el modelo, puede determinar si desea que los datos se dividan aleatoriamente en conjuntos de entrenamiento y de pruebas. Si lo hace, no hay garantía de que la evaluación del modelo reflejado esté en el mismo conjunto de pruebas, por lo que los resultados no se pueden comparar.
Si vuelve a entrenar el mismo modelo, el conjunto de pruebas será el mismo, pero es posible que observe un pequeño cambio en las predicciones realizadas por el modelo. Esto se debe a que el modelo entrenado no es lo suficientemente sólido, lo cual es un factor de lo representativos y distintos que son los datos y de la calidad de los datos etiquetados.
¿Cómo obtener predicciones en distintos idiomas?
En primer lugar, debe habilitar la opción multilingüe al crear el proyecto, o puede habilitarla más adelante desde la página de configuración del proyecto. Después de entrenar e implementar el modelo, puede empezar a consultarlo en varios idiomas. Puede obtener resultados variados para distintos idiomas. Para mejorar la precisión de cualquier idioma, agregue más instancias etiquetadas al proyecto en ese idioma para introducir el modelo entrenado a más sintaxis de ese idioma.
He entrenado mi modelo, pero no puedo probarlo
Debe implementar el modelo para poder probarlo.
¿Cómo uso mi modelo entrenado para realizar predicciones?
Después de implementar el modelo, llame a la API de predicción mediante la API de REST o las bibliotecas cliente.
Seguridad y privacidad de datos
NER personalizado es un procesador de datos para los fines del Reglamento general de protección de datos (RGPD). En cumplimiento con las directivas del RGPD, los usuarios de NER personalizado tienen control total para ver, exportar o eliminar cualquier contenido de usuario a través de Language Studio o mediante programación mediante las API REST.
Los datos solo se almacenan en la cuenta de Azure Storage. NER personalizado solo tiene acceso para leer desde ella durante el entrenamiento.
¿Cómo puedo clonar mi proyecto?
Si desea clonar el proyecto, debe usar la API de exportación para exportar los recursos del proyecto y, a continuación, importarlos a otro nuevo. Consulte la referencia API REST para ambas operaciones.