你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Skillsets - Create
在搜索服务中创建新的技能集。
POST {endpoint}/skillsets?api-version=2024-09-01-preview
URI 参数
名称 | 在 | 必需 | 类型 | 说明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
搜索服务的终结点 URL。 |
api-version
|
query | True |
string |
客户端 API 版本。 |
请求头
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
x-ms-client-request-id |
string uuid |
随请求一起发送的跟踪 ID,以帮助进行调试。 |
请求正文
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
name | True |
string |
技能集的名称。 |
skills | True |
SearchIndexerSkill[]:
|
技能集中的技能列表。 |
@odata.etag |
string |
技能集的 ETag。 |
|
cognitiveServices | CognitiveServicesAccount: |
有关运行技能时要使用的 Azure AI 服务的详细信息。 |
|
description |
string |
技能集的说明。 |
|
encryptionKey |
描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至Microsoft)可以解密技能组定义时,此密钥用于为技能组定义提供额外的静态加密级别。 加密技能集定义后,它将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;技能组定义将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。 |
||
indexProjections |
对辅助搜索索引的其他投影的定义。。 |
||
knowledgeStore |
定义扩充数据的 Azure Blob、表或文件的其他投影。 |
响应
名称 | 类型 | 说明 |
---|---|---|
201 Created |
已成功创建技能集。 |
|
Other Status Codes |
错误响应。 |
示例
SearchServiceCreateSkillset
示例请求
POST https://previewexampleservice.search.windows.net/skillsets?api-version=2024-09-01-preview
{
"name": "tempskillset",
"description": "Skillset for extracting entities and more",
"skills": [
{
"@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
"name": "skill2",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "countryHint",
"source": "/document/countryHint"
}
],
"outputs": [
{
"name": "languageCode",
"targetName": "languageCode"
}
]
},
{
"textSplitMode": "pages",
"maximumPageLength": 4000,
"unit": "azureOpenAITokens",
"azureOpenAITokenizerParameters": {
"encoderModelName": "cl100k_base",
"allowedSpecialTokens": [
"[START]",
"[END]"
]
},
"@odata.type": "#Microsoft.Skills.Text.SplitSkill",
"name": "skill3",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/languageCode"
}
],
"outputs": [
{
"name": "textItems",
"targetName": "pages"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
"name": "skill4",
"context": "/document/pages/*",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/languageCode"
}
],
"outputs": [
{
"name": "keyPhrases",
"targetName": "keyPhrases"
}
]
},
{
"uri": "https://contoso.example.org/",
"httpMethod": "POST",
"timeout": "PT5S",
"@odata.type": "#Microsoft.Skills.Custom.WebApiSkill",
"name": "skill5",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/languageCode"
}
],
"outputs": [
{
"name": "customresult",
"targetName": "result"
}
]
}
],
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
}
}
示例响应
{
"name": "tempskillset",
"description": "Skillset for extracting entities and more",
"skills": [
{
"@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
"name": "skill2",
"inputs": [
{
"name": "text",
"source": "/document/content",
"inputs": []
},
{
"name": "countryHint",
"source": "/document/countryHint",
"inputs": []
}
],
"outputs": [
{
"name": "languageCode",
"targetName": "languageCode"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.SplitSkill",
"name": "skill3",
"textSplitMode": "pages",
"maximumPageLength": 4000,
"unit": "azureOpenAITokens",
"inputs": [
{
"name": "text",
"source": "/document/content",
"inputs": []
},
{
"name": "languageCode",
"source": "/document/languageCode",
"inputs": []
}
],
"outputs": [
{
"name": "textItems",
"targetName": "pages"
}
],
"azureOpenAITokenizerParameters": {
"encoderModelName": "cl100k_base",
"allowedSpecialTokens": [
"[START]",
"[END]"
]
}
},
{
"@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
"name": "skill4",
"context": "/document/pages/*",
"inputs": [
{
"name": "text",
"source": "/document/content",
"inputs": []
},
{
"name": "languageCode",
"source": "/document/languageCode",
"inputs": []
}
],
"outputs": [
{
"name": "keyPhrases",
"targetName": "keyPhrases"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Custom.WebApiSkill",
"name": "skill5",
"uri": "https://contoso.example.org/",
"httpMethod": "POST",
"timeout": "PT5S",
"inputs": [
{
"name": "text",
"source": "/document/content",
"inputs": []
},
{
"name": "languageCode",
"source": "/document/languageCode",
"inputs": []
}
],
"outputs": [
{
"name": "customresult",
"targetName": "result"
}
]
}
],
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
}
}
定义
名称 | 说明 |
---|---|
Aml |
借助 AML 技能,可以使用自定义 Azure 机器学习 (AML) 模型扩展 AI 扩充。 训练和部署 AML 模型后,AML 技能将其集成到 AI 扩充中。 |
Azure |
为搜索服务创建的已注册应用程序的凭据,用于对 Azure Key Vault 中存储的加密密钥进行身份验证的访问权限。 |
Azure |
允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。 |
Azure |
将调用的 Azure Open AI 模型名称。 |
Azure |
|
Cognitive |
附加到技能集的 Azure AI 服务资源的多区域帐户密钥。 |
Conditional |
一种技能,使需要布尔操作的方案能够确定要分配给输出的数据。 |
Custom |
一个对象,其中包含有关找到的匹配项和相关元数据的信息。 |
Custom |
可用于指定根实体名称的替代拼写或同义词的复杂对象。 |
Custom |
技能从自定义的用户定义字词和短语列表中查找文本。 |
Custom |
CustomEntityLookupSkill 支持的输入文本的语言代码。 |
Default |
一个空对象,表示技能集的默认 Azure AI 服务资源。 |
Document |
从扩充管道中的文件中提取内容的技能。 |
Entity |
一个字符串,指示要返回的实体类别。 |
Entity |
使用文本分析 API 从文本中提取链接的实体。 |
Entity |
此技能已弃用。 使用 V3。而是 EntityRecognitionSkill。 |
Entity |
荒废的。 EntityRecognitionSkill 支持的输入文本的语言代码。 |
Entity |
使用文本分析 API 从文本中提取不同类型的实体。 |
Error |
资源管理错误附加信息。 |
Error |
错误详细信息。 |
Error |
错误响应 |
Image |
分析图像文件的技能。 它基于图像内容提取一组丰富的视觉特征。 |
Image |
ImageAnalysisSkill 支持的输入语言代码。 |
Image |
一个字符串,指示要返回的特定于域的详细信息。 |
Index |
定义索引投影相对于索引器的其余部分的行为。 |
Input |
技能的输入字段映射。 |
Key |
使用文本分析进行关键短语提取的技能。 |
Key |
KeyPhraseExtractionSkill 支持的输入文本的语言代码。 |
Language |
一种技能,用于检测输入文本的语言,并报告请求上提交的每个文档的单个语言代码。 语言代码与指示分析置信度分数配对。 |
Line |
定义要在 OCR 技能识别的文本行之间使用的字符序列。 默认值为“space”。 |
Merge |
用于将两个或多个字符串合并到单个统一字符串的技能,使用可选的用户定义的分隔符分隔每个组件部件。 |
Ocr |
从图像文件中提取文本的技能。 |
Ocr |
OcrSkill 输入支持的语言代码。 |
Output |
技能的输出字段映射。 |
PIIDetection |
使用文本分析 API,从输入文本中提取个人信息,并提供屏蔽信息的选项。 |
PIIDetection |
一个字符串,指示用于屏蔽输入文本中检测到的个人信息的 maskingMode。 |
Search |
清除数据源的标识属性。 |
Search |
指定要使用的数据源的标识。 |
Search |
对辅助搜索索引的其他投影的定义。 |
Search |
指定搜索索引中要存储的数据的说明。 |
Search |
索引投影特定配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。 |
Search |
定义扩充数据的 Azure Blob、表或文件的其他投影。 |
Search |
要存储在 Azure 文件中的数据的投影定义。 |
Search |
要存储在 Azure Blob 中的数据的投影定义。 |
Search |
特定于知识存储的配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。 |
Search |
各种投影选择器的容器对象。 |
Search |
描述要存储在 Azure 表中的数据。 |
Search |
技能列表。 |
Search |
Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。 |
Sentiment |
此技能已弃用。 使用 V3。相反,SentimentSkill。 |
Sentiment |
荒废的。 SentimentSkill 支持的输入文本的语言代码。 |
Sentiment |
使用文本分析 API 评估非结构化文本,并为每个记录提供情绪标签(如“负”、“中性”和“正”),具体取决于服务在句子和文档级别找到的最高置信度分数。 |
Shaper |
用于重塑输出的技能。 它创建复杂类型以支持复合字段(也称为多部分字段)。 |
Split |
将字符串拆分为文本区块的技能。 |
Split |
仅当单元设置为 azureOpenAITokens 时才适用。 选项包括“R50k_base”、“P50k_base”、“P50k_edit”和“CL100k_base”。 默认值为“CL100k_base”。 |
Split |
SplitSkill 支持的输入文本的语言代码。 |
Split |
一个值,指示要使用的单位。 |
Text |
一个值,指示要执行的拆分模式。 |
Text |
将文本从一种语言翻译成另一种语言的技能。 |
Text |
TextTranslationSkill 支持的输入文本的语言代码。 |
Vision |
允许使用 Azure AI 服务视觉矢量化 API 为给定的图像或文本输入生成矢量嵌入。 |
Visual |
指示要返回的视觉特征类型的字符串。 |
Web |
一种可以调用 Web API 终结点的技能,允许你通过调用自定义代码来扩展技能集。 |
AmlSkill
借助 AML 技能,可以使用自定义 Azure 机器学习 (AML) 模型扩展 AI 扩充。 训练和部署 AML 模型后,AML 技能将其集成到 AI 扩充中。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
degreeOfParallelism |
integer |
(可选)指定时,指示索引器将与提供的终结点并行执行的调用数。 如果终结点在请求负载过高的情况下失败,或者如果终结点能够接受更多请求,并且希望提高索引器的性能,则可以降低此值。 如果未设置,则使用默认值 5。 degreeOfParallelism 可以设置为最多 10,最小设置为 1。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
key |
string |
(密钥身份验证必需)AML 服务的密钥。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
region |
string |
(可选)用于令牌身份验证。 AML 服务部署到的区域。 |
resourceId |
string |
(令牌身份验证所必需的)。 AML 服务的 Azure 资源管理器资源 ID。 它的格式应为 subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}。 |
timeout |
string |
(可选)指定后,指示发出 API 调用的 http 客户端的超时。 |
uri |
string |
(无需身份验证或密钥身份验证)要向其发送 JSON 有效负载的 AML 服务的评分 URI。 仅允许 https URI 方案。 |
AzureActiveDirectoryApplicationCredentials
为搜索服务创建的已注册应用程序的凭据,用于对 Azure Key Vault 中存储的加密密钥进行身份验证的访问权限。
名称 | 类型 | 说明 |
---|---|---|
applicationId |
string |
向 AAD 应用程序 ID 授予对静态数据加密时要使用的 Azure Key Vault 所需的访问权限。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。 |
applicationSecret |
string |
指定的 AAD 应用程序的身份验证密钥。 |
AzureOpenAIEmbeddingSkill
允许使用 Azure OpenAI 资源为给定文本输入生成矢量嵌入。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
apiKey |
string |
指定的 Azure OpenAI 资源的 API 密钥。 |
authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
deploymentId |
string |
指定资源上的 Azure OpenAI 模型部署的 ID。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
dimensions |
integer |
生成的输出嵌入应具有的维度数。 仅在文本嵌入-3 和更高版本中受支持。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
modelName |
在提供的 deploymentId 路径中部署的嵌入模型的名称。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
resourceUri |
string |
Azure OpenAI 资源的资源 URI。 |
AzureOpenAIModelName
将调用的 Azure Open AI 模型名称。
名称 | 类型 | 说明 |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAITokenizerParameters
名称 | 类型 | 说明 |
---|---|---|
allowedSpecialTokens |
string[] |
(可选)仅当单元设置为 azureOpenAITokens 时才适用。 此参数定义在标记化过程中允许的特殊令牌的集合。 |
encoderModelName |
仅当单元设置为 azureOpenAITokens 时才适用。 选项包括“R50k_base”、“P50k_base”、“P50k_edit”和“CL100k_base”。 默认值为“CL100k_base”。 |
CognitiveServicesAccountKey
附加到技能集的 Azure AI 服务资源的多区域帐户密钥。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定附加到技能集的 Azure AI 服务资源的类型的 URI 片段。 |
description |
string |
附加到技能集的 Azure AI 服务资源的说明。 |
key |
string |
用于预配附加到技能集的 Azure AI 服务资源的密钥。 |
ConditionalSkill
一种技能,使需要布尔操作的方案能够确定要分配给输出的数据。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
CustomEntity
一个对象,其中包含有关找到的匹配项和相关元数据的信息。
名称 | 类型 | 说明 |
---|---|---|
accentSensitive |
boolean |
默认值为 false。 指示与实体名称的比较是否应区分重音的布尔值。 |
aliases |
可用于指定根实体名称的替代拼写或同义词的复杂对象的数组。 |
|
caseSensitive |
boolean |
默认值为 false。 指示与实体名称的比较是否应区分字符大小写的布尔值。 “Microsoft”的示例不区分大小写的匹配可能是:microsoft、microSoft、MICROSOFT。 |
defaultAccentSensitive |
boolean |
更改此实体的默认重音敏感度值。 它用于更改所有别名区分重音值的默认值。 |
defaultCaseSensitive |
boolean |
更改此实体的默认区分大小写值。 它用于更改所有别名 caseSensitive 值的默认值。 |
defaultFuzzyEditDistance |
integer |
更改此实体的默认模糊编辑距离值。 它可用于更改所有别名模糊EditDistance 值的默认值。 |
description |
string |
此字段可用作有关匹配文本的自定义元数据的传递。 此字段的值将与技能输出中实体的每个匹配项一起显示。 |
fuzzyEditDistance |
integer |
默认值为 0。 最大值为 5。 表示仍构成与实体名称匹配的可接受不同字符数。 返回任何给定匹配项的最小可能模糊。 例如,如果编辑距离设置为 3,“Windows10”仍将匹配“Windows”、“Windows10”和“Windows 7”。 当区分大小写设置为 false 时,大小写差异不计入模糊容忍度,否则则这样做。 |
id |
string |
此字段可用作有关匹配文本的自定义元数据的传递。 此字段的值将与技能输出中实体的每个匹配项一起显示。 |
name |
string |
顶级实体描述符。 技能输出中的匹配项将按此名称进行分组,它应表示所找到文本的“规范化”形式。 |
subtype |
string |
此字段可用作有关匹配文本的自定义元数据的传递。 此字段的值将与技能输出中实体的每个匹配项一起显示。 |
type |
string |
此字段可用作有关匹配文本的自定义元数据的传递。 此字段的值将与技能输出中实体的每个匹配项一起显示。 |
CustomEntityAlias
可用于指定根实体名称的替代拼写或同义词的复杂对象。
名称 | 类型 | 说明 |
---|---|---|
accentSensitive |
boolean |
确定别名是否区分重音。 |
caseSensitive |
boolean |
确定别名是否区分大小写。 |
fuzzyEditDistance |
integer |
确定别名的模糊编辑距离。 |
text |
string |
别名的文本。 |
CustomEntityLookupSkill
技能从自定义的用户定义字词和短语列表中查找文本。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
一个值,该值指示要使用的语言代码。 默认值为 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
entitiesDefinitionUri |
string |
JSON 或 CSV 文件的路径,其中包含要匹配的所有目标文本。 此实体定义在索引器运行开始时读取。 在索引器运行期间,对此文件的任何更新在后续运行之前都不会生效。 必须可通过 HTTPS 访问此配置。 |
globalDefaultAccentSensitive |
boolean |
AccentSensitive 的全局标志。 如果未在 CustomEntity 中设置 AccentSensitive,则此值将为默认值。 |
globalDefaultCaseSensitive |
boolean |
CaseSensitive 的全局标志。 如果未在 CustomEntity 中设置 CaseSensitive,则此值将为默认值。 |
globalDefaultFuzzyEditDistance |
integer |
FuzzyEditDistance 的全局标志。 如果未在 CustomEntity 中设置 FuzzyEditDistance,则此值将是默认值。 |
inlineEntitiesDefinition |
内联 CustomEntity 定义。 |
|
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
CustomEntityLookupSkillLanguage
CustomEntityLookupSkill 支持的输入文本的语言代码。
名称 | 类型 | 说明 |
---|---|---|
da |
string |
丹麦语 |
de |
string |
德语 |
en |
string |
英语 |
es |
string |
西班牙语 |
fi |
string |
芬兰语 |
fr |
string |
法语 |
it |
string |
意大利语 |
ko |
string |
朝鲜语 |
pt |
string |
葡萄牙语 |
DefaultCognitiveServicesAccount
一个空对象,表示技能集的默认 Azure AI 服务资源。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定附加到技能集的 Azure AI 服务资源的类型的 URI 片段。 |
description |
string |
附加到技能集的 Azure AI 服务资源的说明。 |
DocumentExtractionSkill
从扩充管道中的文件中提取内容的技能。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
configuration |
object |
技能配置的字典。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
dataToExtract |
string |
要为技能提取的数据的类型。 如果未定义,将设置为“contentAndMetadata”。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
parsingMode |
string |
技能的 parsingMode。 如果未定义,将设置为“default”。 |
EntityCategory
一个字符串,指示要返回的实体类别。
名称 | 类型 | 说明 |
---|---|---|
datetime |
string |
描述日期和时间的实体。 |
string |
描述电子邮件地址的实体。 |
|
location |
string |
描述物理位置的实体。 |
organization |
string |
描述组织的实体。 |
person |
string |
描述人员的实体。 |
quantity |
string |
描述数量的实体。 |
url |
string |
描述 URL 的实体。 |
EntityLinkingSkill
使用文本分析 API 从文本中提取链接的实体。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
string |
一个值,该值指示要使用的语言代码。 默认值为 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
minimumPrecision |
number |
一个介于 0 和 1 之间的值,该值仅用于包含其置信度分数大于指定值的实体。 如果未设置(默认值),或者显式设置为 null,则将包括所有实体。 |
modelVersion |
string |
调用文本分析服务时要使用的模型版本。 如果未指定,它将默认为最新可用。 除非绝对必要,否则建议不要指定此值。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
EntityRecognitionSkill
此技能已弃用。 使用 V3。而是 EntityRecognitionSkill。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
categories |
应提取的实体类别的列表。 |
|
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
一个值,该值指示要使用的语言代码。 默认值为 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
includeTypelessEntities |
boolean |
确定是否包含已知但不符合预定义类型的实体。 如果未设置此配置(默认值),则设置为 null 或设置为 false,则不会显示不符合其中一个预定义类型的实体。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
minimumPrecision |
number |
一个介于 0 和 1 之间的值,该值仅用于包含其置信度分数大于指定值的实体。 如果未设置(默认值),或者显式设置为 null,则将包括所有实体。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
EntityRecognitionSkillLanguage
荒废的。 EntityRecognitionSkill 支持的输入文本的语言代码。
名称 | 类型 | 说明 |
---|---|---|
ar |
string |
阿拉伯语 |
cs |
string |
捷克语 |
da |
string |
丹麦语 |
de |
string |
德语 |
el |
string |
希腊语 |
en |
string |
英语 |
es |
string |
西班牙语 |
fi |
string |
芬兰语 |
fr |
string |
法语 |
hu |
string |
匈牙利语 |
it |
string |
意大利语 |
ja |
string |
日语 |
ko |
string |
朝鲜语 |
nl |
string |
荷兰语 |
no |
string |
挪威语(博克马尔) |
pl |
string |
波兰语 |
pt-BR |
string |
葡萄牙语(巴西) |
pt-PT |
string |
葡萄牙语(葡萄牙) |
ru |
string |
俄语 |
sv |
string |
瑞典语 |
tr |
string |
土耳其语 |
zh-Hans |
string |
Chinese-Simplified |
zh-Hant |
string |
Chinese-Traditional |
EntityRecognitionSkillV3
使用文本分析 API 从文本中提取不同类型的实体。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
categories |
string[] |
应提取的实体类别的列表。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
string |
一个值,该值指示要使用的语言代码。 默认值为 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
minimumPrecision |
number |
一个介于 0 和 1 之间的值,该值仅用于包含其置信度分数大于指定值的实体。 如果未设置(默认值),或者显式设置为 null,则将包括所有实体。 |
modelVersion |
string |
调用文本分析 API 时要使用的模型版本。 如果未指定,它将默认为最新可用。 除非绝对必要,否则建议不要指定此值。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
ErrorAdditionalInfo
资源管理错误附加信息。
名称 | 类型 | 说明 |
---|---|---|
info |
object |
其他信息。 |
type |
string |
其他信息类型。 |
ErrorDetail
错误详细信息。
名称 | 类型 | 说明 |
---|---|---|
additionalInfo |
错误附加信息。 |
|
code |
string |
错误代码。 |
details |
错误详细信息。 |
|
message |
string |
错误消息。 |
target |
string |
错误目标。 |
ErrorResponse
错误响应
名称 | 类型 | 说明 |
---|---|---|
error |
错误对象。 |
ImageAnalysisSkill
分析图像文件的技能。 它基于图像内容提取一组丰富的视觉特征。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
一个值,该值指示要使用的语言代码。 默认值为 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
details |
一个字符串,指示要返回的特定于域的详细信息。 |
|
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
visualFeatures |
视觉特征列表。 |
ImageAnalysisSkillLanguage
ImageAnalysisSkill 支持的输入语言代码。
名称 | 类型 | 说明 |
---|---|---|
ar |
string |
阿拉伯语 |
az |
string |
阿塞拜疆语 |
bg |
string |
保加利亚语 |
bs |
string |
波斯尼亚拉丁语 |
ca |
string |
加泰隆语 |
cs |
string |
捷克语 |
cy |
string |
威尔士语 |
da |
string |
丹麦语 |
de |
string |
德语 |
el |
string |
希腊语 |
en |
string |
英语 |
es |
string |
西班牙语 |
et |
string |
爱沙尼亚语 |
eu |
string |
巴士克语 |
fi |
string |
芬兰语 |
fr |
string |
法语 |
ga |
string |
爱尔兰语 |
gl |
string |
加利西亚语 |
he |
string |
希伯来语 |
hi |
string |
印地语 |
hr |
string |
克罗地亚语 |
hu |
string |
匈牙利语 |
id |
string |
印度尼西亚语 |
it |
string |
意大利语 |
ja |
string |
日语 |
kk |
string |
哈萨克语 |
ko |
string |
朝鲜语 |
lt |
string |
立陶宛语 |
lv |
string |
拉脱维亚语 |
mk |
string |
马其顿语 |
ms |
string |
马来西亚马来语 |
nb |
string |
挪威语(博克马尔) |
nl |
string |
荷兰语 |
pl |
string |
波兰语 |
prs |
string |
Dari |
pt |
string |
Portuguese-Portugal |
pt-BR |
string |
Portuguese-Brazil |
pt-PT |
string |
Portuguese-Portugal |
ro |
string |
罗马尼亚 |
ru |
string |
俄语 |
sk |
string |
斯洛伐克语 |
sl |
string |
斯洛文尼亚语 |
sr-Cyrl |
string |
塞尔维亚语 - 西里尔文 RS |
sr-Latn |
string |
塞尔维亚语 - 拉丁语 RS |
sv |
string |
瑞典语 |
th |
string |
泰语 |
tr |
string |
土耳其语 |
uk |
string |
乌克兰语 |
vi |
string |
越南语 |
zh |
string |
简体中文 |
zh-Hans |
string |
简体中文 |
zh-Hant |
string |
繁体中文 |
ImageDetail
一个字符串,指示要返回的特定于域的详细信息。
名称 | 类型 | 说明 |
---|---|---|
celebrities |
string |
被识别为名人的详细信息。 |
landmarks |
string |
识别为地标的详细信息。 |
IndexProjectionMode
定义索引投影相对于索引器的其余部分的行为。
名称 | 类型 | 说明 |
---|---|---|
includeIndexingParentDocuments |
string |
源文档将写入索引器的目标索引中。 这是默认模式。 |
skipIndexingParentDocuments |
string |
源文档将从写入索引器的目标索引中跳过。 |
InputFieldMappingEntry
技能的输入字段映射。
名称 | 类型 | 说明 |
---|---|---|
inputs |
创建复杂类型时使用的递归输入。 |
|
name |
string |
输入的名称。 |
source |
string |
输入的源。 |
sourceContext |
string |
用于选择递归输入的源上下文。 |
KeyPhraseExtractionSkill
使用文本分析进行关键短语提取的技能。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
一个值,该值指示要使用的语言代码。 默认值为 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
maxKeyPhraseCount |
integer |
一个数字,指示要返回的关键短语数。 如果不存在,将返回所有标识的关键短语。 |
modelVersion |
string |
调用文本分析服务时要使用的模型版本。 如果未指定,它将默认为最新可用。 除非绝对必要,否则建议不要指定此值。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
KeyPhraseExtractionSkillLanguage
KeyPhraseExtractionSkill 支持的输入文本的语言代码。
名称 | 类型 | 说明 |
---|---|---|
da |
string |
丹麦语 |
de |
string |
德语 |
en |
string |
英语 |
es |
string |
西班牙语 |
fi |
string |
芬兰语 |
fr |
string |
法语 |
it |
string |
意大利语 |
ja |
string |
日语 |
ko |
string |
朝鲜语 |
nl |
string |
荷兰语 |
no |
string |
挪威语(博克马尔) |
pl |
string |
波兰语 |
pt-BR |
string |
葡萄牙语(巴西) |
pt-PT |
string |
葡萄牙语(葡萄牙) |
ru |
string |
俄语 |
sv |
string |
瑞典语 |
LanguageDetectionSkill
一种技能,用于检测输入文本的语言,并报告请求上提交的每个文档的单个语言代码。 语言代码与指示分析置信度分数配对。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultCountryHint |
string |
如果语言检测模型无法消除语言歧义,则将其用作语言检测模型的提示的国家/地区代码。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
modelVersion |
string |
调用文本分析服务时要使用的模型版本。 如果未指定,它将默认为最新可用。 除非绝对必要,否则建议不要指定此值。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
LineEnding
定义要在 OCR 技能识别的文本行之间使用的字符序列。 默认值为“space”。
名称 | 类型 | 说明 |
---|---|---|
carriageReturn |
string |
行由回车符(“\r”)字符分隔。 |
carriageReturnLineFeed |
string |
行由回车符和换行符(“\r\n”)字符分隔。 |
lineFeed |
string |
行由单个换行符分隔(“\n”) 字符。 |
space |
string |
行由单个空格字符分隔。 |
MergeSkill
用于将两个或多个字符串合并到单个统一字符串的技能,使用可选的用户定义的分隔符分隔每个组件部件。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
|
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
|
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
||
insertPostTag |
string |
标记指示合并文本的末尾。 默认情况下,标记是一个空空间。 |
|
insertPreTag |
string |
标记指示合并文本的开头。 默认情况下,标记是一个空空间。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
|
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
OcrSkill
从图像文件中提取文本的技能。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
|
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
|
defaultLanguageCode |
一个值,该值指示要使用的语言代码。 默认值为 |
||
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
|
detectOrientation |
boolean |
False |
指示打开或不打开方向检测的值。 默认值为 false。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
||
lineEnding |
定义要在 OCR 技能识别的文本行之间使用的字符序列。 默认值为“space”。 |
||
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
|
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
OcrSkillLanguage
OcrSkill 输入支持的语言代码。
名称 | 类型 | 说明 |
---|---|---|
Jns |
string |
贾恩萨里 (德瓦纳吉里) |
af |
string |
南非荷兰语 |
anp |
string |
安吉卡(德瓦纳吉里) |
ar |
string |
阿拉伯语 |
ast |
string |
阿斯图里亚斯语 |
awa |
string |
Awadhi-Hindi(德瓦纳吉里) |
az |
string |
阿塞拜疆语(拉丁语) |
be |
string |
白俄罗斯语(西里尔语和拉丁语) |
be-cyrl |
string |
白俄罗斯语(西里尔文) |
be-latn |
string |
白俄罗斯语(拉丁语) |
bfy |
string |
巴格利 |
bfz |
string |
马哈苏·帕哈里(德瓦纳吉里) |
bg |
string |
保加利亚语 |
bgc |
string |
哈扬维 |
bho |
string |
Bhojpuri-Hindi(德瓦纳吉里) |
bi |
string |
Bislama |
bns |
string |
邦德利 |
br |
string |
布列塔尼语 |
bra |
string |
Brajbha |
brx |
string |
博多(德瓦纳吉里) |
bs |
string |
波斯尼亚拉丁语 |
bua |
string |
伯里亚特 (西里尔文) |
ca |
string |
加泰隆语 |
ceb |
string |
Cebuano |
ch |
string |
查莫罗 |
cnr-cyrl |
string |
黑山(西里尔文) |
cnr-latn |
string |
黑山(拉丁语) |
co |
string |
科西肯 |
crh |
string |
克里米亚·塔塔尔(拉丁语) |
cs |
string |
捷克语 |
csb |
string |
卡舒比语 |
cy |
string |
威尔士语 |
da |
string |
丹麦语 |
de |
string |
德语 |
dhi |
string |
迪马尔(德瓦纳吉里) |
doi |
string |
Dogri (德瓦纳吉里) |
dsb |
string |
低地文德语 |
el |
string |
希腊语 |
en |
string |
英语 |
es |
string |
西班牙语 |
et |
string |
爱沙尼亚语 |
eu |
string |
巴士克语 |
fa |
string |
波斯语 |
fi |
string |
芬兰语 |
fil |
string |
菲律宾语 |
fj |
string |
斐济语 |
fo |
string |
法罗语 |
fr |
string |
法语 |
fur |
string |
Frulian |
fy |
string |
西弗里西亚语 |
ga |
string |
爱尔兰语 |
gag |
string |
加古兹 (拉丁语) |
gd |
string |
苏格兰盖尔语 |
gil |
string |
吉尔伯特语 |
gl |
string |
加利西亚语 |
gon |
string |
冈迪 (德瓦纳吉里) |
gv |
string |
马恩语 |
gvr |
string |
古隆(德瓦纳吉里) |
haw |
string |
夏威夷人 |
hi |
string |
印地语 |
hlb |
string |
哈尔比(德瓦纳吉里) |
hne |
string |
查蒂斯加希 (德瓦纳吉里) |
hni |
string |
Hani |
hoc |
string |
何(德瓦纳吉里) |
hr |
string |
克罗地亚语 |
hsb |
string |
上索布语 |
ht |
string |
海地克里奥尔语 |
hu |
string |
匈牙利语 |
ia |
string |
国际语 |
id |
string |
印度尼西亚语 |
is |
string |
冰岛语 |
it |
string |
意大利语 |
iu |
string |
Inuktitut (拉丁语) |
ja |
string |
日语 |
jv |
string |
爪哇语 |
kaa |
string |
Kara-Kalpak (拉丁语) |
kaa-cyrl |
string |
Kara-Kalpak(西里尔文) |
kac |
string |
卡钦(拉丁语) |
kea |
string |
Kabuverdianu |
kfq |
string |
Korku |
kha |
string |
Khasi |
kk-cyrl |
string |
哈萨克语(西里尔文) |
kk-latn |
string |
哈萨克语(拉丁语) |
kl |
string |
格陵兰 |
klr |
string |
Khaling |
kmj |
string |
马尔托 (德瓦纳吉里) |
ko |
string |
朝鲜语 |
kos |
string |
Kosraean |
kpy |
string |
Koryak |
krc |
string |
Karachay-Balkar |
kru |
string |
库鲁克(德瓦纳吉里) |
ksh |
string |
里普里亚语 |
ku-arab |
string |
库尔德语(阿拉伯语) |
ku-latn |
string |
库尔德语 (拉丁语) |
kum |
string |
库米克(西里尔文) |
kw |
string |
康沃尔语 |
ky |
string |
吉尔吉斯(西里尔文) |
la |
string |
拉丁语 |
lb |
string |
卢森堡语 |
lkt |
string |
拉科他州 |
lt |
string |
立陶宛语 |
mi |
string |
毛利语 |
mn |
string |
蒙古语(西里尔文) |
mr |
string |
马拉地语 |
ms |
string |
马来语(拉丁语) |
mt |
string |
马耳他语 |
mww |
string |
苗族道(拉丁语) |
myv |
string |
埃尔齐亚 (西里尔文) |
nap |
string |
那不勒斯的 |
nb |
string |
挪威语 |
ne |
string |
尼泊尔语 |
niu |
string |
纽安 |
nl |
string |
荷兰语 |
no |
string |
挪威语 |
nog |
string |
Nogay |
oc |
string |
奥克语 |
os |
string |
Ossetic |
pa |
string |
旁遮普语(阿拉伯语) |
pl |
string |
波兰语 |
prs |
string |
Dari |
ps |
string |
普什图语 |
pt |
string |
葡萄牙语 |
quc |
string |
K'iche' |
rab |
string |
查姆林 |
rm |
string |
罗曼什语 |
ro |
string |
罗马尼亚 |
ru |
string |
俄语 |
sa |
string |
圣文(德瓦纳吉里) |
sat |
string |
桑塔利(德瓦纳吉里) |
sck |
string |
萨德里(德瓦纳吉里) |
sco |
string |
低地蘇格蘭語 |
sk |
string |
斯洛伐克语 |
sl |
string |
斯洛文尼亚语 |
sm |
string |
萨摩亚语(拉丁语) |
sma |
string |
南萨米 |
sme |
string |
北萨米 (拉丁语) |
smj |
string |
Lule Sami |
smn |
string |
Inari Sami |
sms |
string |
Skolt Sami |
so |
string |
索马里语(阿拉伯语) |
sq |
string |
阿尔巴尼亚语 |
sr |
string |
塞尔维亚语(拉丁语) |
sr-Cyrl |
string |
塞尔维亚语 (西里尔文) |
sr-Latn |
string |
塞尔维亚语(拉丁语) |
srx |
string |
西尔穆里(德瓦纳吉里) |
sv |
string |
瑞典语 |
sw |
string |
斯瓦希里语(拉丁语) |
tet |
string |
德顿语 |
tg |
string |
塔吉克语 (西里尔文) |
thf |
string |
Thangmi |
tk |
string |
土库曼语(拉丁语) |
to |
string |
汤加语 |
tr |
string |
土耳其语 |
tt |
string |
塔塔尔 (拉丁语) |
tyv |
string |
图万 |
ug |
string |
维吾尔语(阿拉伯语) |
unk |
string |
未知(全部) |
ur |
string |
乌都语 |
uz |
string |
乌兹别克语(拉丁语) |
uz-arab |
string |
乌兹别克语(阿拉伯语) |
uz-cyrl |
string |
乌兹别克语 (西里尔文) |
vo |
string |
Volapük |
wae |
string |
Walser |
xnr |
string |
康里(德瓦纳吉里) |
xsr |
string |
谢尔帕 (德瓦纳吉里) |
yua |
string |
尤卡特克·玛雅 |
za |
string |
壮语 |
zh-Hans |
string |
简体中文 |
zh-Hant |
string |
繁体中文 |
zu |
string |
祖鲁语 |
OutputFieldMappingEntry
技能的输出字段映射。
名称 | 类型 | 说明 |
---|---|---|
name |
string |
技能定义的输出的名称。 |
targetName |
string |
输出的目标名称。 它是可选的,默认为名称。 |
PIIDetectionSkill
使用文本分析 API,从输入文本中提取个人信息,并提供屏蔽信息的选项。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
string |
一个值,该值指示要使用的语言代码。 默认值为 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
domain |
string |
如果指定,将 PII 域设置为仅包含实体类别的子集。 可能的值包括:“phi”、“none”。 默认值为“none”。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
maskingCharacter |
string |
如果 maskingMode 参数设置为替换,则用于屏蔽文本的字符。 默认值为“*”。 |
maskingMode |
一个参数,提供各种方法来屏蔽输入文本中检测到的个人信息。 默认值为“none”。 |
|
minimumPrecision |
number |
一个介于 0 和 1 之间的值,该值仅用于包含其置信度分数大于指定值的实体。 如果未设置(默认值),或者显式设置为 null,则将包括所有实体。 |
modelVersion |
string |
调用文本分析服务时要使用的模型版本。 如果未指定,它将默认为最新可用。 除非绝对必要,否则建议不要指定此值。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
piiCategories |
string[] |
应提取和屏蔽的 PII 实体类别的列表。 |
PIIDetectionSkillMaskingMode
一个字符串,指示用于屏蔽输入文本中检测到的个人信息的 maskingMode。
名称 | 类型 | 说明 |
---|---|---|
none |
string |
不会发生掩码,并且不会返回 maskedText 输出。 |
replace |
string |
将检测到的实体替换为 maskingCharacter 参数中给定的字符。 字符将重复到检测到的实体的长度,以便偏移量与输入文本和输出掩码文本正确对应。 |
SearchIndexerDataNoneIdentity
清除数据源的标识属性。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定标识类型的 URI 片段。 |
SearchIndexerDataUserAssignedIdentity
指定要使用的数据源的标识。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定标识类型的 URI 片段。 |
userAssignedIdentity |
string |
用户分配的托管标识的完全限定的 Azure 资源 ID 通常以“/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentity/myId”的形式分配给搜索服务。 |
SearchIndexerIndexProjections
对辅助搜索索引的其他投影的定义。
名称 | 类型 | 说明 |
---|---|---|
parameters |
索引投影特定配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。 |
|
selectors |
要对辅助搜索索引执行的投影列表。 |
SearchIndexerIndexProjectionSelector
指定搜索索引中要存储的数据的说明。
名称 | 类型 | 说明 |
---|---|---|
mappings |
投影的映射,或应将哪个源映射到目标索引中的哪个字段。 |
|
parentKeyFieldName |
string |
搜索索引中要将父文档的键值映射到的字段的名称。 必须是可筛选的字符串字段,而不是键字段。 |
sourceContext |
string |
投影的源上下文。 表示将文档拆分为多个子文档的基数。 |
targetIndexName |
string |
要投影到的搜索索引的名称。 必须具有具有“keyword”分析器集的键字段。 |
SearchIndexerIndexProjectionsParameters
索引投影特定配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。
名称 | 类型 | 说明 |
---|---|---|
projectionMode |
定义索引投影相对于索引器的其余部分的行为。 |
SearchIndexerKnowledgeStore
定义扩充数据的 Azure Blob、表或文件的其他投影。
名称 | 类型 | 说明 |
---|---|---|
identity | SearchIndexerDataIdentity: |
编写知识存储投影时用于连接到 Azure 存储的用户分配托管标识。 如果连接字符串指示标识(ResourceId),并且未指定,则使用系统分配的托管标识。 对索引器的更新(如果未指定标识)时,该值保持不变。 如果设置为“none”,则会清除此属性的值。 |
parameters |
特定于知识存储的配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。 |
|
projections |
索引编制过程中要执行的其他投影的列表。 |
|
storageConnectionString |
string |
存储帐户投影的连接字符串将存储在其中。 |
SearchIndexerKnowledgeStoreFileProjectionSelector
要存储在 Azure 文件中的数据的投影定义。
名称 | 类型 | 说明 |
---|---|---|
generatedKeyName |
string |
要存储投影的生成的密钥的名称。 |
inputs |
复杂投影的嵌套输入。 |
|
referenceKeyName |
string |
指向不同投影的引用键的名称。 |
source |
string |
将数据源源到项目。 |
sourceContext |
string |
复杂投影的源上下文。 |
storageContainer |
string |
要在其中存储投影的 Blob 容器。 |
SearchIndexerKnowledgeStoreObjectProjectionSelector
要存储在 Azure Blob 中的数据的投影定义。
名称 | 类型 | 说明 |
---|---|---|
generatedKeyName |
string |
要存储投影的生成的密钥的名称。 |
inputs |
复杂投影的嵌套输入。 |
|
referenceKeyName |
string |
指向不同投影的引用键的名称。 |
source |
string |
将数据源源到项目。 |
sourceContext |
string |
复杂投影的源上下文。 |
storageContainer |
string |
要在其中存储投影的 Blob 容器。 |
SearchIndexerKnowledgeStoreParameters
特定于知识存储的配置属性的字典。 每个名称都是特定属性的名称。 每个值都必须是基元类型。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
synthesizeGeneratedKeyName |
boolean |
False |
投影是否应合成生成的键名称(如果尚不存在)。 |
SearchIndexerKnowledgeStoreProjection
各种投影选择器的容器对象。
名称 | 类型 | 说明 |
---|---|---|
files |
投影到 Azure 文件存储。 |
|
objects |
投影到 Azure Blob 存储。 |
|
tables |
投影到 Azure 表存储。 |
SearchIndexerKnowledgeStoreTableProjectionSelector
描述要存储在 Azure 表中的数据。
名称 | 类型 | 说明 |
---|---|---|
generatedKeyName |
string |
要存储投影的生成的密钥的名称。 |
inputs |
复杂投影的嵌套输入。 |
|
referenceKeyName |
string |
指向不同投影的引用键的名称。 |
source |
string |
将数据源源到项目。 |
sourceContext |
string |
复杂投影的源上下文。 |
tableName |
string |
要在其中存储投影数据的 Azure 表的名称。 |
SearchIndexerSkillset
技能列表。
名称 | 类型 | 说明 |
---|---|---|
@odata.etag |
string |
技能集的 ETag。 |
cognitiveServices | CognitiveServicesAccount: |
有关运行技能时要使用的 Azure AI 服务的详细信息。 |
description |
string |
技能集的说明。 |
encryptionKey |
描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至Microsoft)可以解密技能组定义时,此密钥用于为技能组定义提供额外的静态加密级别。 加密技能集定义后,它将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;技能组定义将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。 |
|
indexProjections |
对辅助搜索索引的其他投影的定义。。 |
|
knowledgeStore |
定义扩充数据的 Azure Blob、表或文件的其他投影。 |
|
name |
string |
技能集的名称。 |
skills |
SearchIndexerSkill[]:
|
技能集中的技能列表。 |
SearchResourceEncryptionKey
Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。
名称 | 类型 | 说明 |
---|---|---|
accessCredentials |
用于访问 Azure Key Vault 的可选 Azure Active Directory 凭据。 如果改用托管标识,则不需要。 |
|
identity | SearchIndexerDataIdentity: |
用于此加密密钥的显式托管标识。 如果未指定并且访问凭据属性为 null,则使用系统分配的托管标识。 更新资源时,如果未指定显式标识,则保持不变。 如果指定了“none”,则清除此属性的值。 |
keyVaultKeyName |
string |
用于加密静态数据的 Azure Key Vault 密钥的名称。 |
keyVaultKeyVersion |
string |
用于加密静态数据的 Azure Key Vault 密钥的版本。 |
keyVaultUri |
string |
Azure Key Vault 的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 示例 URI 可能是 |
SentimentSkill
此技能已弃用。 使用 V3。相反,SentimentSkill。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
一个值,该值指示要使用的语言代码。 默认值为 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
SentimentSkillLanguage
荒废的。 SentimentSkill 支持的输入文本的语言代码。
名称 | 类型 | 说明 |
---|---|---|
da |
string |
丹麦语 |
de |
string |
德语 |
el |
string |
希腊语 |
en |
string |
英语 |
es |
string |
西班牙语 |
fi |
string |
芬兰语 |
fr |
string |
法语 |
it |
string |
意大利语 |
nl |
string |
荷兰语 |
no |
string |
挪威语(博克马尔) |
pl |
string |
波兰语 |
pt-PT |
string |
葡萄牙语(葡萄牙) |
ru |
string |
俄语 |
sv |
string |
瑞典语 |
tr |
string |
土耳其语 |
SentimentSkillV3
使用文本分析 API 评估非结构化文本,并为每个记录提供情绪标签(如“负”、“中性”和“正”),具体取决于服务在句子和文档级别找到的最高置信度分数。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
|
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
|
defaultLanguageCode |
string |
一个值,该值指示要使用的语言代码。 默认值为 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
|
includeOpinionMining |
boolean |
False |
如果设置为 true,技能输出将包括文本分析中用于观点挖掘的信息,即目标(名词或谓词)及其相关评估(形容词)在文本中。 默认值为 false。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
||
modelVersion |
string |
调用文本分析服务时要使用的模型版本。 如果未指定,它将默认为最新可用。 除非绝对必要,否则建议不要指定此值。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
|
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
ShaperSkill
用于重塑输出的技能。 它创建复杂类型以支持复合字段(也称为多部分字段)。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
SplitSkill
将字符串拆分为文本区块的技能。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
azureOpenAITokenizerParameters |
仅当单元设置为 azureOpenAITokens 时才适用。 如果指定,则 splitSkill 在执行标记化时将使用这些参数。 参数是有效的“encoderModelName”和可选的“allowedSpecialTokens”属性。 |
|
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultLanguageCode |
一个值,该值指示要使用的语言代码。 默认值为 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
maximumPageLength |
integer |
所需的最大页长度。 默认值为 10000。 |
maximumPagesToTake |
integer |
仅当 textSplitMode 设置为“pages”时才适用。 如果指定,SplitSkill 将在处理第一个“maximumPagesToTake”页面后停止拆分,以便在每个文档只需要几个初始页面时提高性能。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
pageOverlapLength |
integer |
仅当 textSplitMode 设置为“pages”时才适用。 如果指定,则 n+1 区块将从第 n 个区块末尾开始此数量的字符/标记。 |
textSplitMode |
一个值,指示要执行的拆分模式。 |
|
unit |
仅当 textSplitMode 设置为页面时才适用。 有两个可能的值。 值的选择将决定长度(maximumPageLength 和 pageOverlapLength)度量。 默认值为“characters”,这意味着长度将由字符度量。 |
SplitSkillEncoderModelName
仅当单元设置为 azureOpenAITokens 时才适用。 选项包括“R50k_base”、“P50k_base”、“P50k_edit”和“CL100k_base”。 默认值为“CL100k_base”。
名称 | 类型 | 说明 |
---|---|---|
cl100k_base |
string |
具有 100,000 个令牌词汇的基本模型。 |
p50k_base |
string |
具有 50,000 个令牌词汇的基本模型,针对基于提示的任务进行优化。 |
p50k_edit |
string |
类似于p50k_base,但经过微调,可以编辑或重新编写包含 50,000 个标记词汇的任务。 |
r50k_base |
string |
指使用 50,000 个令牌词汇训练的基本模型,通常用于一般自然语言处理任务。 |
SplitSkillLanguage
SplitSkill 支持的输入文本的语言代码。
名称 | 类型 | 说明 |
---|---|---|
am |
string |
阿姆哈拉语 |
bs |
string |
波斯尼亚语 |
cs |
string |
捷克语 |
da |
string |
丹麦语 |
de |
string |
德语 |
en |
string |
英语 |
es |
string |
西班牙语 |
et |
string |
爱沙尼亚语 |
fi |
string |
芬兰语 |
fr |
string |
法语 |
he |
string |
希伯来语 |
hi |
string |
印地语 |
hr |
string |
克罗地亚语 |
hu |
string |
匈牙利语 |
id |
string |
印度尼西亚语 |
is |
string |
冰岛语 |
it |
string |
意大利语 |
ja |
string |
日语 |
ko |
string |
朝鲜语 |
lv |
string |
拉脱维亚语 |
nb |
string |
挪威语 |
nl |
string |
荷兰语 |
pl |
string |
波兰语 |
pt |
string |
葡萄牙语(葡萄牙) |
pt-br |
string |
葡萄牙语(巴西) |
ru |
string |
俄语 |
sk |
string |
斯洛伐克语 |
sl |
string |
斯洛文尼亚语 |
sr |
string |
塞尔维亚语 |
sv |
string |
瑞典语 |
tr |
string |
土耳其语 |
ur |
string |
乌都语 |
zh |
string |
中文(简体中文) |
SplitSkillUnit
一个值,指示要使用的单位。
名称 | 类型 | 说明 |
---|---|---|
azureOpenAITokens |
string |
长度将由 tiktoken 库中的 AzureOpenAI tokenizer 测量。 |
characters |
string |
长度将按字符进行度量。 |
TextSplitMode
一个值,指示要执行的拆分模式。
名称 | 类型 | 说明 |
---|---|---|
pages |
string |
将文本拆分为单个页面。 |
sentences |
string |
将文本拆分为单个句子。 |
TextTranslationSkill
将文本从一种语言翻译成另一种语言的技能。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
defaultFromLanguageCode |
用于翻译文档的语言代码,用于不显式指定来自语言的文档。 |
|
defaultToLanguageCode |
用于将文档翻译为未显式指定语言的文档的语言代码。 |
|
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
suggestedFrom |
如果未提供 fromLanguageCode 输入和 defaultFromLanguageCode 参数,并且自动语言检测不成功,则用于翻译文档的语言代码。 默认值为 |
TextTranslationSkillLanguage
TextTranslationSkill 支持的输入文本的语言代码。
名称 | 类型 | 说明 |
---|---|---|
af |
string |
南非荷兰语 |
ar |
string |
阿拉伯语 |
bg |
string |
保加利亚语 |
bn |
string |
孟加拉语 |
bs |
string |
波斯尼亚语(拉丁语) |
ca |
string |
加泰隆语 |
cs |
string |
捷克语 |
cy |
string |
威尔士语 |
da |
string |
丹麦语 |
de |
string |
德语 |
el |
string |
希腊语 |
en |
string |
英语 |
es |
string |
西班牙语 |
et |
string |
爱沙尼亚语 |
fa |
string |
波斯语 |
fi |
string |
芬兰语 |
fil |
string |
菲律宾语 |
fj |
string |
斐济语 |
fr |
string |
法语 |
ga |
string |
爱尔兰语 |
he |
string |
希伯来语 |
hi |
string |
印地语 |
hr |
string |
克罗地亚语 |
ht |
string |
海地克里奥尔语 |
hu |
string |
匈牙利语 |
id |
string |
印度尼西亚语 |
is |
string |
冰岛语 |
it |
string |
意大利语 |
ja |
string |
日语 |
kn |
string |
卡纳拉语 |
ko |
string |
朝鲜语 |
lt |
string |
立陶宛语 |
lv |
string |
拉脱维亚语 |
mg |
string |
马达加斯加 |
mi |
string |
毛利语 |
ml |
string |
马拉雅拉姆语 |
ms |
string |
马来语 |
mt |
string |
马耳他语 |
mww |
string |
苗族道 |
nb |
string |
挪威语 |
nl |
string |
荷兰语 |
otq |
string |
Queretaro Otomi |
pa |
string |
旁遮普语 |
pl |
string |
波兰语 |
pt |
string |
葡萄牙语 |
pt-PT |
string |
葡萄牙语(葡萄牙) |
pt-br |
string |
葡萄牙语(巴西) |
ro |
string |
罗马尼亚 |
ru |
string |
俄语 |
sk |
string |
斯洛伐克语 |
sl |
string |
斯洛文尼亚语 |
sm |
string |
萨摩亚语 |
sr-Cyrl |
string |
塞尔维亚语 (西里尔文) |
sr-Latn |
string |
塞尔维亚语(拉丁语) |
sv |
string |
瑞典语 |
sw |
string |
斯瓦希里语 |
ta |
string |
泰米尔语 |
te |
string |
泰卢固语 |
th |
string |
泰语 |
tlh |
string |
Klingon |
tlh-Latn |
string |
克林贡 (拉丁文脚本) |
tlh-Piqd |
string |
克林贡 (克林贡脚本) |
to |
string |
汤加语 |
tr |
string |
土耳其语 |
ty |
string |
大溪 地 |
uk |
string |
乌克兰语 |
ur |
string |
乌都语 |
vi |
string |
越南语 |
yua |
string |
尤卡特克·玛雅 |
yue |
string |
粤语(传统) |
zh-Hans |
string |
简体中文 |
zh-Hant |
string |
繁体中文 |
VisionVectorizeSkill
允许使用 Azure AI 服务视觉矢量化 API 为给定的图像或文本输入生成矢量嵌入。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
modelVersion |
string |
调用 AI 服务视觉服务时要使用的模型版本。 如果未指定,它将默认为最新可用。 |
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
VisualFeature
指示要返回的视觉特征类型的字符串。
名称 | 类型 | 说明 |
---|---|---|
adult |
string |
识别为成人的视觉特征。 |
brands |
string |
识别为商业品牌的视觉特征。 |
categories |
string |
类别。 |
description |
string |
描述。 |
faces |
string |
识别为人脸的视觉特征。 |
objects |
string |
识别为对象的视觉特征。 |
tags |
string |
标签。 |
WebApiSkill
一种可以调用 Web API 终结点的技能,允许你通过调用自定义代码来扩展技能集。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定技能类型的 URI 片段。 |
authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 如果未指定 authResourceId,则使用系统分配的托管标识。 对索引器的更新(如果未指定标识)时,该值保持不变。 如果设置为“none”,则会清除此属性的值。 |
authResourceId |
string |
适用于连接到 Azure 函数中的外部代码的自定义技能或提供转换的其他应用程序。 此值应该是在向 Azure Active Directory 注册函数或应用时为该函数或应用创建的应用程序 ID。 指定后,自定义技能使用搜索服务的托管 ID(系统或用户分配)和函数或应用的访问令牌连接到函数或应用,使用此值作为创建访问令牌范围的资源 ID。 |
batchSize |
integer |
指示文档数的所需批大小。 |
context |
string |
表示执行操作的级别,例如文档根或文档内容(例如 /document 或 /document/content)。 默认值为 /document。 |
degreeOfParallelism |
integer |
如果已设置,则可以对 Web API 进行并行调用的数量。 |
description |
string |
描述技能的说明,描述技能的输入、输出和用法。 |
httpHeaders |
object |
发出 http 请求所需的标头。 |
httpMethod |
string |
http 请求的方法。 |
inputs |
技能的输入可以是源数据集中的列,也可以是上游技能的输出。 |
|
name |
string |
唯一标识技能集内的技能的名称。 未定义名称的技能将在技能数组中为其基于 1 的索引提供默认名称,其前缀为字符“#”。 |
outputs |
技能的输出是搜索索引中的字段,或者是另一个技能可以用作输入的值。 |
|
timeout |
string |
请求的所需超时。 默认值为 30 秒。 |
uri |
string |
Web API 的 URL。 |