Condividi tramite


Connettore Microsoft Graph cloud per siti Web aziendali

Il connettore Microsoft Graph cloud siti Web aziendali consente all'organizzazione di indicizzare le pagine Web e il contenuto dei siti Web di proprietà dell'azienda o dei siti Web pubblici su Internet. Dopo aver configurato il connettore e il contenuto dell'indice dal sito Web, gli utenti finali possono cercare il contenuto in Microsoft Search e Microsoft 365 Copilot.

Questo articolo è destinato agli amministratori di Microsoft 365 o a tutti gli utenti che configurano, eseguono e monitorano un connettore Microsoft Graph cloud per siti Web aziendali.

Importante

È possibile utilizzare il connettore Microsoft Graph locale per siti Web aziendali per indicizzare i siti Web ospitati in locale o in cloud privati.

Funzionalità

  • Indicizzare le pagine Web da siti Web accessibili dal cloud.
  • Indicizzare fino a 50 siti Web in una singola connessione.
  • Escludere le pagine Web dalla ricerca per indicizzazione usando regole di esclusione.
  • Usare la ricerca semantica in Copilot per consentire agli utenti di trovare contenuto pertinente.

Tipi di file supportati

File Extension Tipo file Descrizione
.pdf PDF PDF (Portable Document Format)
.Odt ODT (OpenDocument Text) Documento di testo OpenDocument
.Ods Formato ODS (OpenDocument Spreadsheet) Formato ODS (OpenDocument Spreadsheet)
.odp ODP (OpenDocument Presentation) ODP (OpenDocument Presentation)
.odg OpenDocument Graphics OpenDocument Graphics
.xls Excel (vecchio) Foglio di calcolo di Excel (formato precedente)
.xlsx Excel (Nuovo) Foglio di calcolo di Excel (nuovo formato)
.ppt PowerPoint (precedente) Presentazione di PowerPoint (formato precedente)
.pptx PowerPoint (nuovo) Presentazione di PowerPoint (nuovo formato)
.doc Word (vecchio) documento Word (formato precedente)
.docx Word (Nuovo) documento Word (nuovo formato)
.csv CSV valori Comma-Separated
.txt Testo normale File di testo normale
.xml XML Extensible Markup Language
.Md Markdown Markdown File
.rtf Rich Text Format Rich Text Format
.tsv Valori separati da schede valori Tab-Separated

Tipi MIME supportati

Tipo MIME (MIME Type) Descrizione
testo/html HyperText Markup Language (HTML) usato per formattare la struttura di una pagina Web.
text/webviewhtml Tipo MIME usato per il rendering del contenuto Web nei controlli WebView.
text/x-server-parsed-html Documenti HTML analizzati dal server, spesso usati per SSI (Server Side Includes).

Limitazioni

  • Il connettore non supporta meccanismi di autenticazione come SAML, token JWT, autenticazione basata su Forms e così via.
  • Il connettore non supporta la ricerca per indicizzazione del contenuto dinamico nelle pagine Web.

Prerequisiti

  • È necessario essere l'amministratore della ricerca per il tenant di Microsoft 365 dell'organizzazione.
  • URL del sito Web: per connettersi al contenuto del sito Web, è necessario l'URL del sito Web. È possibile indicizzare più siti Web (fino a 50) in una singola connessione.
  • Account del servizio (facoltativo): un account del servizio è necessario solo quando i siti Web richiedono l'autenticazione. I siti Web pubblici non richiedono l'autenticazione e possono essere sottoposti a ricerca per indicizzazione direttamente. Per i siti Web che richiedono l'autenticazione, è consigliabile avere un account dedicato per l'autenticazione e la ricerca per indicizzazione del contenuto.

Introduzione

Screenshot che mostra la schermata di creazione della connessione per il cloud di Microsoft Graph Connector for Enterprise Websites.

1. Nome visualizzato

Un nome visualizzato viene usato per identificare ogni citazione in Copilot, consentendo agli utenti di riconoscere facilmente il file o l'elemento associato. Il nome visualizzato indica anche contenuto attendibile. Il nome visualizzato viene usato anche come filtro dell'origine di contenuto. Per questo campo è presente un valore predefinito, ma è possibile personalizzarlo in base a un nome riconosciuto agli utenti dell'organizzazione.

2. URL del sito Web da indicizzare

Specificare la radice del sito Web per cui si vuole eseguire la ricerca per indicizzazione. Il connettore Microsoft Graph cloud siti Web aziendali usa questo URL come punto di partenza e segue tutti i collegamenti di questo URL per la ricerca per indicizzazione. È possibile indicizzare fino a 50 URL di sito diversi in una singola connessione. Nel campo URL immettere gli URL del sito separati da virgole (,). Ad esempio, https://www.contoso.com,https://www.contosoelectronics.com.

Nota

Il connettore inizia sempre a eseguire la ricerca per indicizzazione dalla radice dell'URL. Ad esempio, se l'URL specificato è https://www.contoso.com/electronics, il connettore avvierà la ricerca per indicizzazione da https://www.contoso.com.

Il connettore esegue la ricerca per indicizzazione solo delle pagine Web nel dominio degli URL radice e non supporta la ricerca per indicizzazione degli URL fuori dominio. Il reindirizzamento è supportato solo all'interno dello stesso dominio. Se nelle pagine Web sono presenti reindirizzamenti da sottoporre a ricerca per indicizzazione, è possibile aggiungere l'URL reindirizzato direttamente nell'elenco degli URL per cui eseguire la ricerca per indicizzazione.

Usare sitemap per la ricerca per indicizzazione

Se selezionata, il connettore esegue la ricerca per indicizzazione solo degli URL elencati nella mappa del sito. Questa opzione consente anche di configurare la ricerca per indicizzazione incrementale durante un passaggio successivo. Se non è selezionata o non viene trovata alcuna mappa del sito, il connettore esegue una ricerca per indicizzazione approfondita di tutti i collegamenti presenti nell'URL radice del sito.

Quando questa opzione è selezionata, il crawler esegue la procedura seguente:

a. Il crawler cerca il file robots.txt nel percorso radice. Ad esempio, se l'URL specificato è https://www.contoso.com, il crawler cerca il file robots.txt in https://www.contoso.com/robots.txt.

b. Dopo aver individuato il file robots.txt, il crawler trova i collegamenti della mappa del sito nel file robots.txt.

c. Il crawler esegue quindi la ricerca per indicizzazione di tutte le pagine Web elencate nei file sitemap.

d. Se si verifica un errore in uno dei passaggi precedenti, il crawler esegue una ricerca per indicizzazione approfondita del sito Web, senza generare alcun errore.

3. Tipo di autenticazione

Il metodo di autenticazione scelto si applica a tutti i siti Web forniti per l'indicizzazione in una connessione. Per autenticare e sincronizzare il contenuto dai siti Web, scegliere uno dei quattro metodi supportati:

a. Nessuna
Selezionare questa opzione se i siti Web sono accessibili pubblicamente senza alcun requisito di autenticazione.

b. Autenticazione di base
Immettere il nome utente e la password dell'account per l'autenticazione usando l'autenticazione di base.

Consiglio

Provare più permutazioni del nome utente per l'autenticazione. Esempi-

  • nome utente
  • username@domain.com
  • dominio/nome utente

c. SiteMinder
L'autenticazione di SiteMinder richiede un URL formattato correttamente, https://custom_siteminder_hostname/smapi/rest/createsmsessionun nome utente e una password.

d. Microsoft Entra credenziali client OAuth 2.0
OAuth 2.0 con Microsoft Entra ID richiede un ID risorsa, un ID client e un segreto client.

L'ID risorsa, l'ID client e i valori del segreto client dipendono da come è stata configurata l'autenticazione basata su Microsoft Entra ID per il sito Web. Una delle due opzioni specificate potrebbe essere adatta al tuo sito Web:

  1. Se si usa un'applicazione Microsoft Entra sia come provider di identità che come app client per accedere al sito Web, l'ID client e l'ID risorsa sono l'ID applicazione di questa singola applicazione e il segreto client è il segreto generato in questa applicazione.

    Dopo aver configurato l'app client, assicurarsi di creare un nuovo segreto client passando alla sezione Certificati & segreti dell'app. Copiare il valore del segreto client visualizzato nella pagina perché non viene visualizzato di nuovo.

    Negli screenshot seguenti è possibile visualizzare i passaggi per ottenere l'ID client e il segreto client e configurare l'app se si sta creando l'app autonomamente.

    • Visualizzazione delle impostazioni nella sezione personalizzazione:

    • Visualizzazione delle impostazioni nella sezione autenticazione:

      Nota

      Non è necessario avere la route specificata sopra per l'URI di reindirizzamento nel sito Web. Solo se si usa il token utente inviato da Azure nel sito Web per l'autenticazione, sarà necessario disporre della route.

    • Visualizzazione dell'ID client nella sezione Essentials:

    • Visualizzazione del segreto client nella sezione Certificati & segreti :

  2. Se si usa un'applicazione (prima app) come provider di identità per il sito Web come risorsa e un'applicazione diversa (seconda app) per accedere al sito Web, l'ID client è l'ID applicazione della seconda app e il segreto client è il segreto configurato nella seconda app. Tuttavia, l'ID risorsa è l'ID della prima app.

    Non è necessario configurare un segreto client in questa applicazione, ma è necessario aggiungere un ruolo dell'app nella sezione Ruoli app, che verrà successivamente assegnata all'applicazione client. Per informazioni su come aggiungere un ruolo dell'app, vedere le immagini.

    • Creazione di un nuovo ruolo dell'app:

    • Modifica del nuovo ruolo dell'app:

      Dopo aver configurato l'app per le risorse, creare l'app client e concederle l'autorizzazione per accedere all'app per le risorse aggiungendo il ruolo dell'app configurato in precedenza nelle autorizzazioni API dell'app client.

      Nota

      Per informazioni su come concedere le autorizzazioni all'app client, vedere Avvio rapido: Configurare un'applicazione client per accedere a un'API Web.

    Gli screenshot seguenti mostrano la sezione per concedere le autorizzazioni all'app client.

    • Aggiunta di un'autorizzazione:

    • Selezione delle autorizzazioni:

    • Aggiunta delle autorizzazioni:

    Dopo aver assegnato le autorizzazioni, è necessario creare un nuovo segreto client per questa applicazione passando alla sezione Certificati & segreti. Copiare il valore del segreto client visualizzato nella pagina perché non viene visualizzato di nuovo. Usare l'ID applicazione di questa app come ID client, il segreto dell'app come segreto client e l'ID applicazione della prima app come ID risorsa.

4. Distribuire a un pubblico limitato

Distribuire questa connessione in una base di utenti limitata se si vuole convalidarla in Copilot e in altre aree di ricerca prima di espandere l'implementazione a un pubblico più ampio. Per altre informazioni sull'implementazione limitata, vedere Implementazione a fasi.

A questo punto, è possibile creare la connessione per i siti Web cloud. È possibile fare clic su Crea per pubblicare le pagine Web di connessione e indicizzazione dai siti Web.

Per altre impostazioni, ad esempio autorizzazioni di accesso, regole di inclusione dati, schema, frequenza di ricerca per indicizzazione e così via, sono disponibili impostazioni predefinite basate su ciò che funziona meglio con i siti Web. Di seguito sono riportati i valori predefiniti:

Utenti Descrizione
Autorizzazioni di accesso Tutti gli utenti dell'organizzazione visualizzeranno questo contenuto
Contenuto Descrizione
URL da escludere Nessuna
Gestisci proprietà Per controllare le proprietà predefinite e il relativo schema, vedere contenuto
Sincronizza Descrizione
Ricerca per indicizzazione incrementale Frequenza: ogni 15 minuti (supportato solo con la ricerca per indicizzazione della mappa del sito)
Ricerca per indicizzazione completa Frequenza: ogni giorno

Per modificare uno di questi valori, è necessario scegliere l'opzione "Installazione personalizzata".

Installazione personalizzata

L'installazione personalizzata è destinata agli amministratori che vogliono modificare i valori predefiniti per le impostazioni elencate nella tabella precedente. Dopo aver fatto clic sull'opzione "Installazione personalizzata", vengono visualizzate altre tre schede: Utenti, Contenuto e Sincronizzazione.

Utenti

Screenshot che mostra la scheda Utenti

Autorizzazioni di accesso

Il connettore cloud Siti Web aziendali supporta le autorizzazioni di ricerca visibili solo a Tutti . I dati indicizzati vengono visualizzati nei risultati della ricerca per tutti gli utenti dell'organizzazione.

Contenuto

Screenshot che mostra la scheda Contenuto in cui è possibile impostare le regole e le proprietà di esclusione

Aggiungere URL da escludere (restrizioni di ricerca per indicizzazione facoltative)

Esistono due modi per impedire la ricerca per indicizzazione delle pagine: non consentire le pagine nel file robots.txt o aggiungerle all'elenco esclusioni.

  1. Supporto per robots.txt

    Il connettore controlla se è presente un file robots.txt per il sito radice. Se ne esiste uno, segue e rispetta le direzioni trovate all'interno di tale file. Se non si vuole che il connettore esevi determinate pagine o directory nel sito, includere le pagine o le directory nelle dichiarazioni "Non consentire" nel file di robots.txt.

  2. Aggiungere URL da escludere

    Facoltativamente, è possibile creare un elenco di esclusione per escludere alcuni URL dalla ricerca per indicizzazione se il contenuto è sensibile o non vale la pena eseguire la ricerca per indicizzazione. Per creare un elenco di esclusione, esplorare l'URL radice. È possibile aggiungere gli URL esclusi all'elenco durante il processo di configurazione.

Gestisci proprietà

In questo caso, è possibile aggiungere o rimuovere le proprietà disponibili dai siti Web, assegnare uno schema alla proprietà (definire se una proprietà è ricercabile, ricercabile, recuperabile o perfezionabile), modificare l'etichetta semantica e aggiungere un alias alla proprietà. Di seguito sono elencate le proprietà selezionate per impostazione predefinita.

Source, proprietà Etichetta Descrizione Schema
Autori Autori Persone che ha partecipato all'elemento nell'origine dati Query, Retrieve
Contenuto Contenuto Tutto il contenuto di testo in una pagina Web Ricerca
CreatedDateTime Data e ora di creazione Dati e ora di creazione dell'elemento nell'origine dati Query, Retrieve
Descrizione Recupera, Cerca
FileType Estensione del file Estensione file del contenuto sottoposto a ricerca per indicizzazione Query, Refine, Retrieve
IconURL IconUrl URL icona della pagina Web Recuperare
LastModifiedBy Autore ultima modifica Persona che ha modificato l'elemento nell'origine dati per l'ultima volta Query, Retrieve
LastModifiedDateTime Data e ora dell'ultima modifica Data e ora dell'ultima modifica dell'elemento nell'origine dati. Query, Retrieve
Titolo Titolo Titolo dell'elemento da visualizzare in Copilot e in altre esperienze di ricerca Recupera, Cerca
URL URL URL di destinazione dell'elemento nell'origine dati Recuperare

Enterprise Website Cloud Connector supporta due tipi di proprietà di origine:

  1. Meta tag

    Il connettore recupera tutti i meta tag che gli URL radice possono avere e li mostra. È possibile selezionare i tag da includere per la ricerca per indicizzazione. Un tag selezionato viene indicizzato per tutti gli URL forniti, se disponibile.

    Screenshot che mostra la scheda Contenuto con il pannello meta tag

    I meta tag selezionati possono essere usati per creare proprietà personalizzate. Inoltre, nella pagina dello schema è possibile gestirli ulteriormente (Queryable, Searchable, Retrievable, Refinable).

  2. Impostazioni delle proprietà personalizzate

    È possibile arricchire i dati indicizzati creando proprietà personalizzate per i meta tag selezionati o le proprietà predefinite del connettore.

    Screenshot che mostra la scheda Contenuto con il pannello delle proprietà personalizzato

    Per aggiungere una proprietà personalizzata:

    1. Immettere un nome di proprietà. Questo nome viene visualizzato nei risultati della ricerca da questo connettore.
    2. Per il valore selezionare Static o String/Regex Mapping.For the value, select Static or String/Regex Mapping. Un valore statico è incluso in tutti i risultati della ricerca da questo connettore. Un valore string/regex varia in base alle regole aggiunte.
    3. Se è stato selezionato un valore statico, immettere il valore che si vuole visualizzare.
    4. Se è stato selezionato un valore String/rRegex:
      • Nell'elenco Proprietà della sezione Aggiungi espressioni selezionare una proprietà predefinita o un meta tag dall'elenco. Per Valore di esempio immettere una stringa per rappresentare il tipo di valori che potrebbero essere visualizzati. Questo esempio viene usato quando si visualizza in anteprima la regola. Per Espressione immettere un'espressione regex per definire la parte del valore della proprietà che deve essere visualizzata nei risultati della ricerca. È possibile aggiungere fino a tre espressioni.
      • Nella sezione Crea formula immettere una formula per combinare i valori estratti dalle espressioni.

Per altre informazioni sulle espressioni regex, vedere Espressioni regolari .NET o cercare nel Web una guida di riferimento alle espressioni regex.

Sincronizza

Screenshot che mostra la scheda Sincronizza in cui è possibile configurare la frequenza di ricerca per indicizzazione.

L'intervallo di aggiornamento determina la frequenza con cui i dati vengono sincronizzati tra l'origine dati e l'indice del connettore Graph. Esistono due tipi di intervalli di aggiornamento: ricerca per indicizzazione completa e ricerca per indicizzazione incrementale. Per altri dettagli, vedere Impostazioni di aggiornamento.

È possibile modificare i valori predefiniti dell'intervallo di aggiornamento da qui, se si vuole.

Nota

La ricerca per indicizzazione incrementale è supportata solo quando è selezionata l'opzione di ricerca per indicizzazione della mappa del sito.

Risoluzione dei problemi

Dopo aver pubblicato la connessione, è possibile esaminare lo stato nella scheda Origini datinell'interfaccia di amministrazione. Per informazioni su come eseguire aggiornamenti ed eliminazioni, vedere Gestire il connettore. È possibile trovare i passaggi per la risoluzione dei problemi più comuni qui.

In caso di problemi o se si desidera fornire commenti e suggerimenti, contattare Microsoft Graph | Supporto.