次の方法で共有


Enterprise Websites オンプレミス Microsoft Graph コネクタ

オンプレミスのエンタープライズ Web サイト Microsoft Graph コネクタを使用すると、organizationが会社所有の Web サイトの Web ページとコンテンツのインデックスを作成できます。 Web サイトからコネクタとインデックス コンテンツを構成した後、エンド ユーザーは Microsoft Search からそのコンテンツを検索し、Microsoft 365 Copilotできます。

この記事は、Microsoft 365 管理者、または Enterprise Websites オンプレミスの Microsoft Graph コネクタを構成、実行、監視するユーザーを対象とします。

機能

  • オンプレミスまたはプライベート クラウドでホストされている Web サイトから Web ページにインデックスを作成します。
  • 1 つの接続で最大 50 個の Web サイトにインデックスを作成します。
  • 除外ルールを使用してクロールから Web ページを除外します。
  • Copilot でセマンティック検索を使用して、ユーザーが関連するコンテンツを検索できるようにします。

サポートされているファイルの種類

File Extension ファイルの種類 説明
.pdf PDF Portable Document Format
.odt OpenDocument テキスト OpenDocument テキスト ドキュメント
.ods OpenDocument スプレッドシート OpenDocument スプレッドシート
.odp OpenDocument プレゼンテーション OpenDocument プレゼンテーション
.odg OpenDocument グラフィックス OpenDocument グラフィックス
.xls Excel (古い) Excel スプレッドシート (古い形式)
.xlsx Excel (新規) Excel スプレッドシート (新しい形式)
.ppt PowerPoint (古い) PowerPointプレゼンテーション (旧形式)
.pptx PowerPoint (新規) PowerPointプレゼンテーション (新しい形式)
.doc Word (古い) Word ドキュメント (旧形式)
.docx Word (新規) ドキュメントのWord (新しい形式)
.csv CSV Comma-Separated 値
.txt プレーン テキスト プレーン テキスト ファイル
.xml XML 拡張可能なマークアップ言語
.md Markdown Markdown ファイル
.rtf リッチ テキスト形式 リッチ テキスト形式
.tsv タブ区切り値 Tab-Separated 値

サポートされている MIME の種類

MIME タイプ 説明
text/html Web ページの構造の書式設定に使用される HyperText マークアップ言語 (HTML)。
text/webviewhtml WebView コントロールでレンダリングされる Web コンテンツに使用される MIME の種類。
text/x-server-parsed-html サーバー側インクルード (SSI) でよく使用されるサーバー解析 HTML ドキュメント。

制限事項

  • コネクタは、SAML、JWT トークン、Forms ベースの認証などの認証メカニズムをサポートしていません。

前提条件

  • organizationの Microsoft 365 テナントの検索管理者である必要があります。
  • Microsoft Graph コネクタ エージェントをインストールする: オンプレミスの Web サイトにアクセスするには、 Microsoft Graph コネクタ エージェントをインストールして構成する必要があります。 エージェント インストーラーをダウンロード し、インストール手順に従ってセットアップします。 インストールが完了したら、オンプレミスの Web サイトをコネクタに接続するようにエージェントが正しく構成されていることを確認します。
  • Web サイト URL: Web サイトのコンテンツに接続するには、Web サイトへの URL が必要です。 1 つの接続で複数の Web サイトにインデックスを作成できます (最大 50)。
  • サービス アカウント (省略可能): サービス アカウントは、Web サイトで認証が必要な場合にのみ必要です。 パブリック Web サイトは認証を必要とせず、直接クロールできます。 認証を必要とする Web サイトの場合は、コンテンツを認証してクロールするための専用アカウントを用意することをお勧めします。

はじめに

オンプレミスの Microsoft Graph Connector for Enterprise Websites の接続作成画面を示すスクリーンショット。

1. 表示名

表示名は、Copilot の各引用文献を識別するために使用され、ユーザーが関連付けられているファイルまたは項目を簡単に認識するのに役立ちます。 表示名は、信頼されたコンテンツも示します。 表示名は、 コンテンツ ソース フィルターとしても使用されます。 このフィールドには既定値が存在しますが、organizationのユーザーが認識する名前にカスタマイズできます。

2. インデックスを作成する Web サイトの URL

クロールする Web サイトのルートを指定します。 オンプレミスの Enterprise Websites Microsoft Graph コネクタは、この URL を出発点として使用し、クロールのためにこの URL のすべてのリンクに従います。 1 つの接続で最大 50 個の異なるサイト URL のインデックスを作成できます。 [URL] フィールドに、サイト URL をコンマ (,) で区切って入力します。 たとえば、「 https://www.contoso.com,https://www.contosoelectronics.com 」のように入力します。

注:

コネクタは常に URL のルートからクロールを開始します。 たとえば、指定した URL が https://www.contoso.com/electronicsされている場合、コネクタは https://www.contoso.comからクロールを開始します。

コネクタは、ルート URL のドメイン内の Web ページのみをクロールし、ドメイン外 URL のクロールをサポートしていません。 リダイレクトは、同じドメイン内でのみサポートされます。 クロールする Web ページにリダイレクトがある場合は、クロールする URL の一覧にリダイレクトされた URL を直接追加できます。

クロールにサイトマップを使用する

選択すると、コネクタはサイトマップに一覧表示されている URL のみをクロールします。 このオプションを使用すると、後の手順で増分クロールを構成することもできます。 選択されていない場合、またはサイトマップが見つからない場合、コネクタはサイトのルート URL で見つかったすべてのリンクのディープ クロールを実行します。

このオプションを選択すると、クローラーは次の手順を実行します。

a. クローラーは、ルートの場所で robots.txt ファイルを検索します。 たとえば、指定した URL が https://www.contoso.comされている場合、クローラーは https://www.contoso.com/robots.txtで robots.txt ファイルを検索します。

b. robots.txt ファイルを見つけると、クローラーは robots.txt ファイル内のサイトマップリンクを見つけます。

c. その後、クローラーはサイトマップ ファイルに一覧表示されているすべての Web ページをクロールします。

d. 上記のいずれかの手順でエラーが発生した場合、クローラはエラーをスローすることなく、Web サイトのディープ クロールを実行します。

3. Graph コネクタ エージェント

Graph コネクタ エージェントは、Web サイト インスタンスとコネクタ API の間のブリッジとして機能し、安全で効率的なデータ転送を可能にします。 この手順では、コネクタに使用するエージェント構成を選択します。

Microsoft Graph コネクタ エージェントをまだインストールしていない場合は、エージェント インストーラーをダウンロードし、インストール手順に従ってセットアップできます。 インストールが完了したら、オンプレミスの Web サイトをコネクタに接続するようにエージェントが正しく構成されていることを確認します。

4. 認証の種類

選択した認証方法は、接続でインデックスを作成するために指定したすべての Web サイトに適用されます。 Web サイトからコンテンツを認証して同期するには、サポートされている 5 つの方法のいずれかを 選択します。

a. なし
認証要件なしで Web サイトにパブリックにアクセスできる場合は、このオプションを選択します。

b. [ 基本認証]
基本認証を使用して認証するには、アカウントのユーザー名とパスワードを入力します。

c. Windows
Windows 認証には、ユーザー名、ドメイン、パスワードが必要です。 [ユーザー名] フィールドに、domain\ username または username@domainのいずれかの形式でユーザー名とドメインを指定する必要があります。 [パスワード] フィールドに パスワード を入力する必要があります。 Windows 認証の場合、指定されたユーザー名は、エージェントがインストールされているサーバーの管理者である必要もあります。

d. SiteMinder
Siteminder 認証には、適切な形式の URL、 https://custom_siteminder_hostname/smapi/rest/createsmsession、ユーザー名、パスワードが必要です。

e. OAuth 2.0 クライアント資格情報のMicrosoft Entra
Microsoft Entra IDを使用する OAuth 2.0 には、リソース ID、クライアント ID、およびクライアント シークレットが必要です。

リソース ID、クライアント ID、およびクライアント シークレットの値は、Web サイトのMicrosoft Entra ID ベースの認証のセットアップ方法によって異なります。 指定した 2 つのオプションの 1 つが、Web サイトに適している場合があります。

  1. Microsoft Entra アプリケーションを ID プロバイダーとクライアント アプリの両方として使用して Web サイトにアクセスする場合、クライアント ID とリソース ID はこの単一アプリケーションのアプリケーション ID であり、クライアント シークレットはこのアプリケーションで生成したシークレットです。

    クライアント アプリが構成されたら、アプリの [証明書 & シークレット ] セクションに移動して、新しいクライアント シークレットを作成します。 ページに表示されているクライアント シークレットの値は、再び表示されないためコピーします。

    次のスクリーンショットでは、クライアント ID とクライアント シークレットを取得し、独自にアプリを作成している場合にアプリを設定する手順を確認できます。

    • [ブランド化] セクションの設定を表示します。

    • 認証セクションの設定の表示:

      注:

      Web サイトのリダイレクト URI に上記のルートを指定する必要はありません。 認証に Azure によって送信されたユーザー トークンを Web サイトで使用する場合にのみ、ルートを作成する必要があります。

    • [Essentials] セクションのクライアント ID の表示:

    • [証明書 & シークレット] セクションでクライアント シークレットを 表示します。

  2. Web サイトの ID プロバイダーとしてアプリケーション (最初のアプリ) をリソースとして使用し、別のアプリケーション (2 番目のアプリ) を使用して Web サイトにアクセスする場合、クライアント ID は 2 番目のアプリのアプリケーション ID であり、クライアント シークレットは 2 番目のアプリで構成されたシークレットです。 ただし、リソース ID は最初のアプリの ID です。

    このアプリケーションでクライアント シークレットを構成する必要はありませんが、[アプリ ロール] セクション にアプリ ロールを追加する必要があります。これは後でクライアント アプリケーションに割り当てられます。 アプリ ロールを追加する方法については、画像を参照してください。

    • 新しいアプリ ロールの作成:

    • 新しいアプリ ロールの編集:

      リソース アプリを構成したら、クライアント アプリを作成し、クライアント アプリの API アクセス許可で上記で構成したアプリ ロールを追加して、リソース アプリにアクセスするためのアクセス許可を付与します。

      注:

      クライアント アプリにアクセス許可を付与する方法については、「 クイック スタート: Web API にアクセスするようにクライアント アプリケーションを構成する」を参照してください。

    次のスクリーンショットは、クライアント アプリにアクセス許可を付与するセクションを示しています。

    • アクセス許可の追加:

    • アクセス許可の選択:

    • アクセス許可の追加:

    アクセス許可が割り当てられたら、[証明書 & シークレット] セクションに移動して、このアプリケーションの新しいクライアント シークレットを作成する必要があります。 ページに表示されるクライアント シークレットの値は、再び表示されないためコピーします。 このアプリのアプリケーション ID をクライアント ID として使用し、このアプリのシークレットをクライアント シークレットとして使用し、最初のアプリのアプリケーション ID をリソース ID として使用します。

4. 限定対象ユーザーにロールアウトする

ロールアウトを広範な対象ユーザーに展開する前に、Copilot やその他の Search サーフェスで検証する場合は、制限付きユーザー ベースにこの接続をデプロイします。 制限付きロールアウトの詳細については、「 段階的なロールアウト」を参照してください。

この時点で、オンプレミス Web サイトの接続を作成する準備が整いました。 [ 作成 ] をクリックすると、Web サイトから接続とインデックス Web ページを発行できます。

アクセス許可データ包含ルールスキーマクロール頻度などのその他の設定については、Web サイトで最適な機能に基づいて既定値が設定されています。 既定値は次のとおりです。

ユーザー 説明
アクセス許可 organizationのすべてのユーザーにこのコンテンツが表示されます
コンテンツ 説明
除外する URL なし
プロパティの管理 既定のプロパティとそのスキーマをチェックするには、コンテンツに関するページを参照してください
同期 説明
増分クロール 頻度: 15 分ごと (サイトマップ クロールでのみサポート)
フル クロール 頻度: 毎日

これらの値のいずれかを編集する場合は、"カスタム セットアップ" オプションを選択する必要があります。

カスタム セットアップ

カスタム セットアップは、上記の表に示した設定の既定値を編集する管理者向けです。 [カスタム セットアップ] オプションをクリックすると、[ユーザー]、[コンテンツ]、[同期] の 3 つのタブが表示されます。

ユーザー

[ユーザー] タブを示すスクリーンショット

アクセス許可

Enterprise Websites オンプレミス コネクタでは、 すべてのユーザー にのみ表示される検索アクセス許可がサポートされています。 インデックス付きデータは、organization内のすべてのユーザーの検索結果に表示されます。

コンテンツ

除外ルールとプロパティを設定できる [コンテンツ] タブを示すスクリーンショット

除外する URL を追加する (オプションのクロール制限)

ページがクロールされないようにするには、robots.txt ファイルでページを禁止するか、除外リストに追加する方法の 2 つの方法があります。

  1. robots.txt のサポート

    コネクタは、ルート サイトの robots.txt ファイルがあるかどうかを確認します。 存在する場合は、そのファイル内の指示に従って尊重します。 コネクタがサイト上の特定のページまたはディレクトリをクロールしないようにする場合は、robots.txt ファイルの "許可しない" 宣言にページまたはディレクトリを含めます。

  2. 除外する URL を追加する

    必要に応じて 、除外リスト を作成して、コンテンツが機密性が高い場合やクロールする価値がない場合にクロールから一部の URL を除外できます。 除外リストを作成するには、ルート URL を参照します。 構成プロセス中に、除外された URL を一覧に追加できます。

動的サイト構成

Web サイトに動的コンテンツ (Confluence や Unily などのコンテンツ管理システムに存在する Web ページなど) が含まれている場合は、動的クローラーを有効にすることができます。 有効にするには、[ 動的サイトのクロールを有効にする] を選択します。 クローラーは、クロールを開始する前に動的コンテンツがレンダリングされるのを待ちます。

[チェック] ボックスに加えて、次の 3 つのオプション フィールドを使用できます。

  1. DOM の準備完了: クローラーがコンテンツが完全にレンダリングされ、クロールを開始する必要があることを示すシグナルとして使用する DOM 要素を入力します。
  2. 追加するヘッダー: 特定の Web URL を送信するときにクローラーに含める必要がある HTTP ヘッダーを指定します。 Web サイトごとに複数のヘッダーを設定できます。 認証トークンの値を含めることをお勧めします。
  3. スキップするヘッダー: 動的クロール要求から除外する必要がある不要なヘッダーを指定します。

ヘッダーは、次の構文で追加する必要があります。 {"Root-URL":["TKey=TValue"]}

例: {"https://www.contoso.com":["Token=Value","Type=Value2"]}

プロパティの管理

ここでは、Web サイトから使用可能なプロパティを追加または削除したり、プロパティにスキーマを割り当てたり (プロパティが検索可能、クエリ可能、取得可能、または絞り込み可能かどうかを定義する)、セマンティック ラベルを変更してプロパティにエイリアスを追加したりできます。 既定で選択されているプロパティを次に示します。

Source プロパティ Label 説明 Schema
ブロック ブロック データ ソース内のアイテムに参加したユーザーのPeople クエリ、取得
コンテンツ コンテンツ Web ページ内のすべてのテキスト コンテンツ 検索
CreatedDateTime 作成日時 データ ソースでアイテムが作成されたデータと時刻 クエリ、取得
説明 取得、検索
FileType ファイル拡張子 クロールされたコンテンツのファイル拡張子 クエリ、絞り込み、取得
IconURL IconUrl Web ページのアイコン URL 取り戻す
LastModifiedBy 最終更新者 データ ソース内のアイテムを最後に変更したユーザー クエリ、取得
LastModifiedDateTime 最終更新日時 データ ソースでアイテムが最後に変更された日時。 クエリ、取得
タイトル タイトル Copilot やその他の検索エクスペリエンスに表示するアイテムのタイトル 取得、検索
URL url データソース内のアイテムのターゲット URL 取り戻す

Enterprise Web サイトオンプレミス コネクタでは、次の 2 種類のソース プロパティがサポートされています。

  1. メタ タグ

    コネクタは、ルート URL に含まれる可能性があるメタ タグをフェッチして表示します。 クロールに含めるタグを選択できます。 選択したタグは、指定されたすべての URL に対してインデックスが作成されます (使用可能な場合)。

    メタ タグ パネルを含む [コンテンツ] タブを示すスクリーンショット

    選択したメタ タグを使用して、カスタム プロパティを作成できます。 また、スキーマ ページでは、それらをさらに管理できます (クエリ可能、検索可能、取得可能、絞り込み可能)。

  2. カスタム プロパティの設定

    インデックス付きデータをエンリッチするには、選択したメタ タグまたはコネクタの既定のプロパティのカスタム プロパティを作成します。

    カスタム プロパティ パネルを含む [コンテンツ] タブを示すスクリーンショット

    カスタム プロパティを追加するには:

    1. プロパティ名を入力します。 この名前は、このコネクタの検索結果に表示されます。
    2. 値の場合は、[Static] または [String/Regex Mapping]\(文字列/正規表現マッピング\) を選択します。 静的な値は、このコネクタのすべての検索結果に含まれます。 文字列/正規表現の値は、追加するルールによって異なります。
    3. 静的な値を選択した場合は、表示する値を入力します。
    4. String/rRegex 値を選択した場合:
      • [ 式の追加 ] セクションの [プロパティ ] の一覧で、一覧から既定のプロパティまたはメタ タグを選択します。 [ サンプル値] に、表示される可能性のある値の種類を表す文字列を入力します。 このサンプルは、ルールをプレビューするときに使用されます。 [ 式] に正規表現を入力して、検索結果に表示するプロパティ値の部分を定義します。 最大 3 つの式を追加できます。
      • [ 数式の作成 ] セクションで、式から抽出された値を結合する数式を入力します。

正規表現の詳細については、「 .NET 正規表現 」を参照するか、Web で正規表現式リファレンス ガイドを検索してください。

同期

クロール頻度を構成できる [同期] タブを示すスクリーンショット。

更新間隔によって、データ ソースと Graph コネクタ インデックスの間でデータが同期される頻度が決まります。 更新間隔には、フル クロールと増分クロールの 2 種類があります。 詳細については、「 更新設定」を参照してください。

必要に応じて、ここから更新間隔の既定値を変更できます。

注:

増分クロールは、サイトマップ クロール オプションが選択されている場合にのみサポートされます。

トラブルシューティング

接続を公開したら、管理センターの [データ ソース] タブの状態を確認できます。 更新と削除を行う方法については、「接続を監視する」をご覧ください。 よく見られる問題のトラブルシューティング手順 については、こちらを参照してください

問題がある場合、またはフィードバックを提供する場合は、Microsoft Graph にお問い合わせください |サポート