Kognitivní dovednost rozpoznávání entit (v2)

Článek
09/01/2024

Dovednost Rozpoznávání entit (v2) extrahuje entity různých typů z textu. Tato dovednost využívá modely strojového učení poskytované Analýza textu ve službách Azure AI.

Důležité

Dovednost Rozpoznávání entit (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) je nyní ukončena nahrazením Microsoft.Skills.Text.V3.EntityRecognitionSkill. Pokud chcete migrovat na podporovanou dovednost, postupujte podle doporučení v zastaralých dovednostech .

Poznámka:

Když rozšiřujete rozsah zvýšením frekvence zpracování, přidáním dalších dokumentů nebo přidáním dalších algoritmů AI, budete muset připojit fakturovatelný prostředek služeb Azure AI. Poplatky se účtují při volání rozhraní API ve službách Azure AI a extrakce obrázků v rámci fáze prolomení dokumentů ve službě Azure AI Search. Za extrakci textu z dokumentů se neúčtují žádné poplatky.

Provádění integrovaných dovedností se účtuje za stávající cenu průběžných plateb za služby Azure AI. Ceny extrakce obrázků jsou popsané na stránce s cenami služby Azure AI Search.

@odata.type

Microsoft.Skills.Text.EntityRecognitionSkill

Omezení dat

Maximální velikost záznamu by měla být 50 000 znaků měřená String.Lengthhodnotou . Pokud potřebujete data před odesláním do extraktoru klíčových frází rozdělit, zvažte použití dovednosti Rozdělení textu. Pokud používáte dovednost rozdělení textu, nastavte délku stránky na 5 000 pro nejlepší výkon.

Parametry dovedností

Parametry rozlišují malá a velká písmena a jsou všechny volitelné.

Název parametru	Popis
`categories`	Pole kategorií, které by se měly extrahovat. Možné typy kategorií: `"Person"`, `"Location"`, `"Organization"`, `"Quantity""Datetime"`, , `"URL"`. `"Email"` Pokud není k dispozici žádná kategorie, vrátí se všechny typy.
`defaultLanguageCode`	Kód jazyka vstupního textu Podporují se následující jazyky: `ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans`. Ne všechny kategorie entit jsou podporovány pro všechny jazyky; viz poznámka níže.
`minimumPrecision`	Hodnota mezi 0 a 1. Pokud je skóre spolehlivosti (ve výstupu `namedEntities` ) nižší než tato hodnota, entita se nevrátí. Výchozí hodnota je 0.
`includeTypelessEntities`	Nastavte, `true` pokud chcete rozpoznat dobře známé entity, které neodpovídají aktuálním kategoriím. Rozpoznané entity se vrátí do komplexního výstupního `entities` pole. Například "Windows 10" je dobře známá entita (produkt), ale protože "Produkty" není podporovaná kategorie, tato entita by byla zahrnuta do výstupního pole entit. Výchozí hodnota je `false`

Vstupy dovedností

Název vstupu	Popis
`languageCode`	Nepovinné. Výchozí hodnota je `"en"`.
`text`	Text, který chcete analyzovat.

Výstupy dovedností

Poznámka:

Ne všechny kategorie entit jsou podporované pro všechny jazyky. Typy "Person"kategorií , "Location"a "Organization" entit jsou podporovány pro úplný seznam jazyků výše. Pouze de, en, es, fr a zh-hans podporují extrakci "Quantity", "Datetime", "URL"a "Email" typů. Další informace najdete v tématu Podpora jazyka a oblasti pro rozhraní ANALÝZA TEXTU API.

Název výstupu	Popis
`persons`	Pole řetězců, kde každý řetězec představuje jméno osoby.
`locations`	Pole řetězců, kde každý řetězec představuje umístění.
`organizations`	Pole řetězců, ve kterých každý řetězec představuje organizaci.
`quantities`	Pole řetězců, kde každý řetězec představuje množství.
`dateTimes`	Pole řetězců, kde každý řetězec představuje hodnotu DateTime (jak se zobrazuje v textu).
`urls`	Pole řetězců, kde každý řetězec představuje adresu URL
`emails`	Pole řetězců, ve kterých každý řetězec představuje e-mail
`namedEntities`	Pole komplexních typů, které obsahuje následující pole: category value (skutečný název entity) posun (umístění, kde byl nalezen v textu) confidence (Vyšší hodnota znamená, že se jedná o skutečnou entitu)
`entities`	Pole komplexních typů obsahující bohaté informace o entitách extrahovaných z textu s následujícími poli name (skutečný název entity. Představuje "normalizovaný" formulář) wikipediaId wikipediaLanguage wikipediaUrl (odkaz na stránku Wikipedie pro entitu) bingId type (kategorie rozpoznané entity) subType (k dispozici pouze pro určité kategorie, poskytuje podrobnější zobrazení typu entity). odpovídá (složitá kolekce, která obsahuje) text (nezpracovaný text entity) posun (umístění, kde byl nalezen) délka (délka nezpracovaného textu entity)

Ukázková definice

  {
    "@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en",
    "includeTypelessEntities": true,
    "minimumPrecision": 0.5,
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      },
      {
        "name": "emails",
        "targetName": "contact"
      },
      {
        "name": "entities"
      }
    ]
  }

Ukázkový vstup

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Ukázkový výstup

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "John Smith"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category":"Person",
            "value": "John Smith",
            "offset": 35,
            "confidence": 0.98
          }
        ],
        "entities":  
        [
          {
            "name":"John Smith",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Person",
            "subType": null,
            "matches": [{
                "text": "John Smith",
                "offset": 35,
                "length": 10
            }]
          },
          {
            "name": "contact@contoso.com",
            "wikipediaId": null,
            "wikipediaLanguage": null,
            "wikipediaUrl": null,
            "bingId": null,
            "type": "Email",
            "subType": null,
            "matches": [
            {
                "text": "contact@contoso.com",
                "offset": 70,
                "length": 19
            }]
          },
          {
            "name": "Contoso",
            "wikipediaId": "Contoso",
            "wikipediaLanguage": "en",
            "wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
            "bingId": "349f014e-7a37-e619-0374-787ebb288113",
            "type": null,
            "subType": null,
            "matches": [
            {
                "text": "Contoso",
                "offset": 0,
                "length": 7
            }]
          }
        ]
      }
    }
  ]
}

Všimněte si, že posuny vrácené entitami ve výstupu této dovednosti jsou přímo vráceny z rozhraní ANALÝZA TEXTU API, což znamená, že pokud je používáte k indexování do původního řetězce, měli byste k extrahování správného obsahu použít třídu StringInfo v .NET. Další podrobnosti najdete tady.

Případy upozornění

Pokud kód jazyka dokumentu není podporován, vrátí se upozornění a nebudou extrahovány žádné entity.

Sdílet prostřednictvím