Microsoft Graph 连接器 SDK 合同连接器爬网程序 API 和模型
Microsoft Graph 连接器 SDK 协定连接器爬网程序 API 和模型在爬网期间调用。
连接器爬网程序 API
方法 | 参数 | 返回类型 | 说明 |
---|---|---|---|
GetCrawlStream | GetCrawlStreamRequest | CrawlStreamBit 作为流 | 从数据源读取数据。 在完全爬网和定期完全爬网期间将调用此方法,其中所有项都应从数据源读取并返回到平台。 |
GetIncrementalCrawlStream | GetIncrementalCrawlStreamRequest | IncrementalCrawlStreamBit 作为流 | 从数据源读取数据。 此方法是可选的,将在增量爬网期间调用,并且仅返回自上次增量爬网以来对项的增量更改。 |
连接器爬网程序模型
下面是连接器爬网程序模型。
GetCrawlStreamRequest
用于在爬网期间获取项的请求模型。
属性 | 类型 | 说明 |
---|---|---|
customConfiguration | CustomConfiguration | 提供连接器的配置数据。 |
authenticationData | AuthenticationData | 保存数据源访问 URL 和用于访问它的凭据。 |
crawlProgressMarker | CrawlCheckpoint | 保存数据以标识在上次爬网中处理的项。 连接器返回项的信息,如果平台在爬网过程中崩溃,它将使用它。 |
架构 | DataSourceSchema | 显示连接的架构。 此属性还可用于设置值。 |
CrawlStreamBit
包含指示成功或失败的项状态以及完全或定期爬网期间正在爬网的项的指示器/检查点的响应模型。
属性 | 类型 | 说明 |
---|---|---|
status | OperationStatus | 显示操作的状态和错误详细信息。 |
crawlItem | CrawlItem | 显示从数据源爬网的单个项。 |
crawlProgressMarker | CrawlCheckpoint | 标识从数据源中爬网的项。 |
GetIncrementalCrawlStreamRequest
请求模型,用于在增量爬网期间获取项。
属性 | 类型 | 说明 |
---|---|---|
customConfiguration | CustomConfiguration | 提供连接器的配置数据。 |
authenticationData | AuthenticationData | 保存数据源访问 URL 和用于访问它的凭据。 |
crawlProgressMarker | CrawlCheckpoint | 保存数据以标识在上次爬网中处理的项。 连接器返回项的信息,如果平台在爬网过程中崩溃,它将使用它。 |
模式 | DataSourceSchema | 显示连接的架构。 此属性还可用于设置值。 |
previousCrawlStartTimeInUtc | Timestamp | 显示上一个爬网开始时间(UTC)。 此值可以在第一次增量爬网中使用,但后续调用应使用检查点值。 |
IncrementalCrawlStreamBit
包含项的响应模型、指示成功/失败(如果有)的状态,以及增量爬网期间正在爬网的项的指示器/检查点。
属性 | 类型 | 说明 |
---|---|---|
status | OperationStatus | 显示操作的状态和错误详细信息。 |
crawlItem | IncrementalCrawlItem | 显示在和增量爬网期间从数据源爬网的单个项。 |
crawlProgressMarker | CrawlCheckpoint | 标识在上次增量爬网期间从数据源爬网的最后一项。 |
CrawlItem 的 ItemType 枚举成员
爬网项的枚举字段。
成员 | 值 | 说明 |
---|---|---|
ContentItem | 0 | 包含要引入的内容的数据项。 例如:网站内容。 |
LinkItem | 1 | 指向将在后续爬网中使用的内容项的链接。 例如:指向网站或文件夹的链接。 |
CrawlItem
表示数据源中的实体。 允许的最大大小为 4 MB。 例如:文件、文件夹或表中的记录。
属性 | 类型 | 说明 |
---|---|---|
itemId | string | 显示表示数据源中项的唯一 ID。 |
contentItem | ContentItem | 显示包含要引入的内容的数据项。 例如:网站的内容。 |
linkItem | LinkItem | 指向将在后续爬网中使用的内容项的链接。 例如:指向网站或文件夹的链接。 |
itemType | ItemType | 显示要发送的项的类型。 此模型应具有 contentItem 或 linkItem 集,并且此枚举字段应对应于该项。 |
注意
- linkItem 和 contentItem 的属性是互斥的。
IncrementalCrawlItem 的 ItemType 枚举成员
增量爬网项的枚举字段。
成员 | 值 | 说明 |
---|---|---|
ContentItem | 0 | 包含要引入的内容的数据项。 例如:网站的内容。 |
LinkItem | 1 | 指向将在后续爬网中使用的内容项的链接。 例如:指向网站或文件夹的链接。 |
DeletedItem | 2 | 已从数据源中删除且应从索引中删除的项。 |
IncrementalCrawlItem
表示数据源中的实体。 例如:文件、文件夹或表中的记录。
属性 | 类型 | 说明 |
---|---|---|
itemId | string | 显示表示数据源中项的唯一 ID。 |
contentItem | ContentItem | 显示包含要引入的内容的数据项。 例如:网站的内容。 |
linkItem | LinkItem | 指向将在后续爬网中使用的内容项的链接。 例如:指向网站或文件夹的链接。 |
deletedItem | DeletedItem | 从数据源中删除并应从索引中删除的项。 如果设置了 deletedItem ,则无法设置 contentItem 或 linkItem 。 |
itemType | ItemType | 显示要发送的项的类型。 此模型应具有 contentItem 或 linkItem 集,并且此枚举字段应对应于该项。 |
注意
- linkItem、contentItem 和 deletedItem 的属性是互斥的。
ContentItem
包含要引入的数据源实体内容的项。 例如:网站的内容。
属性 | 类型 | 说明 |
---|---|---|
propertyValues | SourcePropertyValueMap | 保留项中每个属性的键和值。 |
accessList | AccessControlList | 将项目的访问权限限制为特定用户或组。 |
content | 内容 | 显示可在显示搜索结果时使用的项的内容属性。 |
LinkItem
充当指向另一项的链接的项目。 这些链接项将再次发送到连接器进行重新抓取;例如,在文件夹内容中,文件将是内容项,子文件夹将是链接项。
属性 | 类型 | 说明 |
---|---|---|
元 | map<字符串, GenericType> | 保存连接器重新抓取项所需的元数据。 |
DeletedItem
表示已从数据源中删除且必须从索引中删除的项。
AccessControlList
限制可以查看搜索结果的用户。
属性 | 类型 | 说明 |
---|---|---|
Entries | 重复 AccessControlEntry | 显示访问控制列表条目的数组或集合。 |
AclAccessType 枚举成员
访问控制列表类型的枚举成员。
成员 | 值 | 说明 |
---|---|---|
无 | 0 | 指示默认值:deny。 |
授予 | 1 | 条目适用于有权访问项的用户/组。 |
拒绝 | 2 | 条目适用于没有访问项的用户/组,并替代任何用户/组的授权。 |
AccessControlEntry
保存单个访问控制条目。
属性 | 类型 | 说明 |
---|---|---|
accessType | AclAccessType | 显示实体的访问类型(授予或拒绝)。 |
主要 | Principal | 表示具有定义访问权限的组或用户。 |
PrincipalType 枚举成员
主体类型的枚举成员。
成员 | 值 | 说明 |
---|---|---|
PT_None | 0 | 指示默认值:user。 |
用户 | 1 | 用户类型。 |
组 | 2 | 组的类型。 |
所有人 | 3 | 向所有人授予访问权限的特殊组。 |
EveryoneExceptGuests | 4 | 向除来宾以外的所有人授予访问权限的特殊组。 |
IdentitySource 枚举成员
标识源的枚举成员。
成员 | 值 | 说明 |
---|---|---|
IS_None | 0 | 指示默认值:Microsoft Entra ID。 |
AzureActiveDirectory | 1 | 标识的源Microsoft Entra ID。 |
IdentityType 枚举成员
标识类型的枚举成员。
成员 | 值 | 说明 |
---|---|---|
IT_None | 0 | 指示默认值: (Azure ADId) 。 |
ActiveDirectorySId | 1 | SID (Active Directory (AD) 提供的本地安全标识符) 。 |
UserPrincipalName | 2 | 用户主体名称 (UPN) 。 |
AadId | 3 | Azure ADId。 |
校长
用于存储主体 (用户/组) 的属性的结构。
属性 | 类型 | 说明 |
---|---|---|
type | PrincipalType | 主体的类型。 |
值 | string | 主体值:SID、UPN、Azure ADId 等的值。 |
identitySource | IdentitySource | 标识的源。 |
identityType | IdentityType | 标识表示类型。 |
identitySourceProperties | map<字符串,字符串> | 有关标识源的元数据。 |
SourcePropertyValueMap
数据源中源属性键及其值的映射。 它存储每个项的属性值。
属性 | 类型 | 说明 |
---|---|---|
值 | map<字符串, GenericType> | 保留项属性的键和值。 键是属性名称,值为属性值。 例如,文件内容具有 title、modifiedDate 等属性。 属性键将是属性本身,其值将分别为文件和文件修改日期的标题。 |
ContentType 枚举成员
内容类型的枚举成员。
成员 | 值 | 说明 |
---|---|---|
无 | 0 | 默认值。 |
Text | 1 | 文本内容类型。 |
Html | 2 | HTML 内容类型。 |
内容
项的内容属性的值,用于呈现搜索结果。
属性 | 类型 | 说明 |
---|---|---|
contentType | ContentType | 内容类型。 |
contentValue | string | 内容属性的值。 |
CrawlCheckpoint
标识上次爬网的项。 它将由平台保存,并且如果出现故障或崩溃,上一个成功项批中的检查点将用于恢复爬网。 平台将在 GetCrawlStream API 中发送检查点。
属性 | 类型 | 说明 |
---|---|---|
pagenumber | uint32 | 显示用于标记爬网进度的页码。 |
batchSize | uint32 | 保留每批中返回的项数。 它的常量值为 1,因为每个项都是单独流式传输的。 |
customMarkerData | string | 标识从数据源中爬网的最后一项所需的自定义数据。 |
GenericType
用于在某些字段(如源属性值)中保存平台支持的值类型的模型。 只能设置以下字段之一。
属性 | 类型 | 说明 |
---|---|---|
stringValue | string | 表示字符串值。 |
intValue | int64 | 表示 int64 (长) 值。 |
doubleValue | double | 表示一个双精度值。 |
dateTimeValue | google.protobuf.Timestamp | 表示 dateTime 值。 |
boolValue | 布尔值 | 代表 Boolean 值。 |
stingCollectionValue | StringCollectionType | 表示字符串的集合。 |
intCollectionValue | IntCollectionType | 表示 int64 (长) 的集合。 |
doubleCollectionValue | DoubleCollectionType | 表示 double 的集合。 |
dateTimeCollectionValue | TimestampCollectionType | 表示 dateTime 的集合。 |
StringCollectionType
字符串的集合。
属性 | 类型 | 说明 |
---|---|---|
值 | 重复字符串 | 字符串的集合或数组。 |
IntCollectionType
整数值的集合。
属性 | 类型 | 说明 |
---|---|---|
值 | 重复 int64 | int64 的集合或数组 (长) 值。 |
DoubleCollectionType
双精度值的集合。
属性 | 类型 | 说明 |
---|---|---|
值 | 重复双精度 | 双精度值的集合或数组。 |
TimestampCollectionType
DateTime 值的集合。
属性 | 类型 | 说明 |
---|---|---|
值 | 重复 google.protobuf.Timestamp | dateTime 值的集合或数组。 |