Microsoft Graph 连接器 SDK 合同连接器爬网程序 API 和模型

Microsoft Graph 连接器 SDK 协定连接器爬网程序 API 和模型在爬网期间调用。

连接器爬网程序 API

方法 参数 返回类型 说明
GetCrawlStream GetCrawlStreamRequest CrawlStreamBit 作为流 从数据源读取数据。 在完全爬网和定期完全爬网期间将调用此方法,其中所有项都应从数据源读取并返回到平台。
GetIncrementalCrawlStream GetIncrementalCrawlStreamRequest IncrementalCrawlStreamBit 作为流 从数据源读取数据。 此方法是可选的,将在增量爬网期间调用,并且仅返回自上次增量爬网以来对项的增量更改。

连接器爬网程序模型

下面是连接器爬网程序模型。

GetCrawlStreamRequest

用于在爬网期间获取项的请求模型。

属性 类型 说明
customConfiguration CustomConfiguration 提供连接器的配置数据。
authenticationData AuthenticationData 保存数据源访问 URL 和用于访问它的凭据。
crawlProgressMarker CrawlCheckpoint 保存数据以标识在上次爬网中处理的项。 连接器返回项的信息,如果平台在爬网过程中崩溃,它将使用它。
架构 DataSourceSchema 显示连接的架构。 此属性还可用于设置值。

CrawlStreamBit

包含指示成功或失败的项状态以及完全或定期爬网期间正在爬网的项的指示器/检查点的响应模型。

属性 类型 说明
status OperationStatus 显示操作的状态和错误详细信息。
crawlItem CrawlItem 显示从数据源爬网的单个项。
crawlProgressMarker CrawlCheckpoint 标识从数据源中爬网的项。

GetIncrementalCrawlStreamRequest

请求模型,用于在增量爬网期间获取项。

属性 类型 说明
customConfiguration CustomConfiguration 提供连接器的配置数据。
authenticationData AuthenticationData 保存数据源访问 URL 和用于访问它的凭据。
crawlProgressMarker CrawlCheckpoint 保存数据以标识在上次爬网中处理的项。 连接器返回项的信息,如果平台在爬网过程中崩溃,它将使用它。
模式 DataSourceSchema 显示连接的架构。 此属性还可用于设置值。
previousCrawlStartTimeInUtc Timestamp 显示上一个爬网开始时间(UTC)。 此值可以在第一次增量爬网中使用,但后续调用应使用检查点值。

IncrementalCrawlStreamBit

包含项的响应模型、指示成功/失败(如果有)的状态,以及增量爬网期间正在爬网的项的指示器/检查点。

属性 类型 说明
status OperationStatus 显示操作的状态和错误详细信息。
crawlItem IncrementalCrawlItem 显示在和增量爬网期间从数据源爬网的单个项。
crawlProgressMarker CrawlCheckpoint 标识在上次增量爬网期间从数据源爬网的最后一项。

CrawlItem 的 ItemType 枚举成员

爬网项的枚举字段。

成员 说明
ContentItem 0 包含要引入的内容的数据项。 例如:网站内容。
LinkItem 1 指向将在后续爬网中使用的内容项的链接。 例如:指向网站或文件夹的链接。

CrawlItem

表示数据源中的实体。 允许的最大大小为 4 MB。 例如:文件、文件夹或表中的记录。

属性 类型 说明
itemId string 显示表示数据源中项的唯一 ID。
contentItem ContentItem 显示包含要引入的内容的数据项。 例如:网站的内容。
linkItem LinkItem 指向将在后续爬网中使用的内容项的链接。 例如:指向网站或文件夹的链接。
itemType ItemType 显示要发送的项的类型。 此模型应具有 contentItemlinkItem 集,并且此枚举字段应对应于该项。

注意

  • linkItemcontentItem 的属性是互斥的。

IncrementalCrawlItem 的 ItemType 枚举成员

增量爬网项的枚举字段。

成员 说明
ContentItem 0 包含要引入的内容的数据项。 例如:网站的内容。
LinkItem 1 指向将在后续爬网中使用的内容项的链接。 例如:指向网站或文件夹的链接。
DeletedItem 2 已从数据源中删除且应从索引中删除的项。

IncrementalCrawlItem

表示数据源中的实体。 例如:文件、文件夹或表中的记录。

属性 类型 说明
itemId string 显示表示数据源中项的唯一 ID。
contentItem ContentItem 显示包含要引入的内容的数据项。 例如:网站的内容。
linkItem LinkItem 指向将在后续爬网中使用的内容项的链接。 例如:指向网站或文件夹的链接。
deletedItem DeletedItem 从数据源中删除并应从索引中删除的项。 如果设置了 deletedItem ,则无法设置 contentItemlinkItem
itemType ItemType 显示要发送的项的类型。 此模型应具有 contentItemlinkItem 集,并且此枚举字段应对应于该项。

注意

  • linkItemcontentItemdeletedItem 的属性是互斥的。

ContentItem

包含要引入的数据源实体内容的项。 例如:网站的内容。

属性 类型 说明
propertyValues SourcePropertyValueMap 保留项中每个属性的键和值。
accessList AccessControlList 将项目的访问权限限制为特定用户或组。
content 内容 显示可在显示搜索结果时使用的项的内容属性。

LinkItem

充当指向另一项的链接的项目。 这些链接项将再次发送到连接器进行重新抓取;例如,在文件夹内容中,文件将是内容项,子文件夹将是链接项。

属性 类型 说明
map<字符串, GenericType> 保存连接器重新抓取项所需的元数据。

DeletedItem

表示已从数据源中删除且必须从索引中删除的项。

AccessControlList

限制可以查看搜索结果的用户。

属性 类型 说明
Entries 重复 AccessControlEntry 显示访问控制列表条目的数组或集合。

AclAccessType 枚举成员

访问控制列表类型的枚举成员。

成员 说明
0 指示默认值:deny。
授予 1 条目适用于有权访问项的用户/组。
拒绝 2 条目适用于没有访问项的用户/组,并替代任何用户/组的授权。

AccessControlEntry

保存单个访问控制条目。

属性 类型 说明
accessType AclAccessType 显示实体的访问类型(授予或拒绝)。
主要 Principal 表示具有定义访问权限的组或用户。

PrincipalType 枚举成员

主体类型的枚举成员。

成员 说明
PT_None 0 指示默认值:user。
用户 1 用户类型。
2 组的类型。
所有人 3 向所有人授予访问权限的特殊组。
EveryoneExceptGuests 4 向除来宾以外的所有人授予访问权限的特殊组。

IdentitySource 枚举成员

标识源的枚举成员。

成员 说明
IS_None 0 指示默认值:Microsoft Entra ID。
AzureActiveDirectory 1 标识的源Microsoft Entra ID。

IdentityType 枚举成员

标识类型的枚举成员。

成员 说明
IT_None 0 指示默认值: (Azure ADId) 。
ActiveDirectorySId 1 SID (Active Directory (AD) 提供的本地安全标识符) 。
UserPrincipalName 2 用户主体名称 (UPN) 。
AadId 3 Azure ADId。

校长

用于存储主体 (用户/组) 的属性的结构。

属性 类型 说明
type PrincipalType 主体的类型。
string 主体值:SID、UPN、Azure ADId 等的值。
identitySource IdentitySource 标识的源。
identityType IdentityType 标识表示类型。
identitySourceProperties map<字符串,字符串> 有关标识源的元数据。

SourcePropertyValueMap

数据源中源属性键及其值的映射。 它存储每个项的属性值。

属性 类型 说明
map<字符串, GenericType> 保留项属性的键和值。 键是属性名称,值为属性值。 例如,文件内容具有 title、modifiedDate 等属性。 属性键将是属性本身,其值将分别为文件和文件修改日期的标题。

ContentType 枚举成员

内容类型的枚举成员。

成员 说明
0 默认值。
Text 1 文本内容类型。
Html 2 HTML 内容类型。

内容

项的内容属性的值,用于呈现搜索结果。

属性 类型 说明
contentType ContentType 内容类型。
contentValue string 内容属性的值。

CrawlCheckpoint

标识上次爬网的项。 它将由平台保存,并且如果出现故障或崩溃,上一个成功项批中的检查点将用于恢复爬网。 平台将在 GetCrawlStream API 中发送检查点。

属性 类型 说明
pagenumber uint32 显示用于标记爬网进度的页码。
batchSize uint32 保留每批中返回的项数。 它的常量值为 1,因为每个项都是单独流式传输的。
customMarkerData string 标识从数据源中爬网的最后一项所需的自定义数据。

GenericType

用于在某些字段(如源属性值)中保存平台支持的值类型的模型。 只能设置以下字段之一。

属性 类型 说明
stringValue string 表示字符串值。
intValue int64 表示 int64 (长) 值。
doubleValue double 表示一个双精度值。
dateTimeValue google.protobuf.Timestamp 表示 dateTime 值。
boolValue 布尔值 代表 Boolean 值。
stingCollectionValue StringCollectionType 表示字符串的集合。
intCollectionValue IntCollectionType 表示 int64 (长) 的集合。
doubleCollectionValue DoubleCollectionType 表示 double 的集合。
dateTimeCollectionValue TimestampCollectionType 表示 dateTime 的集合。

StringCollectionType

字符串的集合。

属性 类型 说明
重复字符串 字符串的集合或数组。

IntCollectionType

整数值的集合。

属性 类型 说明
重复 int64 int64 的集合或数组 (长) 值。

DoubleCollectionType

双精度值的集合。

属性 类型 说明
重复双精度 双精度值的集合或数组。

TimestampCollectionType

DateTime 值的集合。

属性 类型 说明
重复 google.protobuf.Timestamp dateTime 值的集合或数组。