Esercitazione: Creare un motore di ricerca personalizzato e un sistema di risposte alle domande

Questa esercitazione illustra come indicizzare ed eseguire query su dati di grandi dimensioni caricati da un cluster Spark. Configurare un Jupyter Notebook che esegue le azioni seguenti:

  • Caricare vari moduli (fatture) in un frame di dati in una sessione di Apache Spark
  • Analizzarli per determinarne le funzionalità
  • Assemblare l'output risultante in una struttura dati tabulare
  • Scrivere l'output in un indice di ricerca ospitato in Azure Cognitive Search
  • Esplorare ed eseguire le query sul contenuto creato

1 - Configurare le dipendenze

Per iniziare, importare pacchetti e connettersi alle risorse di Azure usate in questo flusso di lavoro.

import os
from pyspark.sql import SparkSession
from import running_on_synapse, find_secret

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

cognitive_key = find_secret("cognitive-api-key") # replace with your cognitive api key
cognitive_location = "eastus"

translator_key = find_secret("translator-key") # replace with your cognitive api key
translator_location = "eastus"

search_key = find_secret("azure-search-key") # replace with your cognitive api key
search_service = "mmlspark-azure-search"
search_index = "form-demo-index-5"

openai_key = find_secret("openai-api-key") # replace with your open ai api key
openai_service_name = "synapseml-openai"
openai_deployment_name = "gpt-35-turbo"
openai_url = f"https://{openai_service_name}"

2 - Caricare i dati in Spark

Questo codice carica alcuni file esterni da un account di archiviazione di Azure utilizzato a scopi dimostrativi. I file sono diverse fatture e sono letti in un frame di dati.

from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

def blob_to_url(blob):
    [prefix, postfix] = blob.split("@")
    container = prefix.split("/")[-1]
    split_postfix = postfix.split("/")
    account = split_postfix[0]
    filepath = "/".join(split_postfix[1:])
    return "https://{}/{}/{}".format(account, container, filepath)

df2 = ("binaryFile")
    .select(udf(blob_to_url, StringType())("path").alias("url"))


3 - Applicare il riconoscimento del modulo

Questo codice carica il trasformatore AnalyzeInvoices e passa un riferimento al frame di dati contenente le fatture. Richiama il modello di fattura predefinito di Azure Forms Analyzer.

from import AnalyzeInvoices

analyzed_df = (


4 - Semplificare l'output di riconoscimento dei moduli

Questo codice usa FormOntologyLearner, un trasformatore che analizza l'output dei trasformatori Form Recognizer (per Azure AI Document Intelligence) e deduce una struttura dati tabulare. L'output di AnalyzeInvoices è dinamico e varia in base alle funzionalità rilevate nel contenuto.

FormOntologyLearner estende l'utilità del trasformatore AnalyzeInvoices cercando modelli che possono essere usati per creare una struttura dati tabulare. L'organizzazione dell'output in più colonne e righe semplifica l'analisi downstream.

from import FormOntologyLearner

organized_df = (
    .select("url", "extracted.*")


Con il dataframe tabulare interessante, è possibile rendere flat le tabelle nidificate presenti nei moduli con alcuni sparkSQL

from pyspark.sql.functions import explode, col

itemized_df = ("*", explode(col("Items")).alias("Item"))
    .select("Item.*", "*")


5 - Aggiungere le traduzioni

Questo codice carica Traduci, un trasformatore che chiama il servizio Traduttore per Azure AI nei Servizi di Azure AI. Il testo originale, in inglese si trova nella colonna "Descrizione", viene tradotto in varie lingue. L’intero output è consolidato nella matrice "output.translations".

from import Translate

translated_df = (
    .setToLanguage(["zh-Hans", "fr", "ru", "cy"])
    .withColumn("Translations", col("output.translations")[0])
    .drop("output", "TranslationError")


6 - Tradurre i prodotti in emoji con OpenAI 🤯

from import OpenAIPrompt
from pyspark.sql.functions import trim, split

emoji_template = """ 
  Your job is to translate item names into emoji. Do not add anything but the emoji and end the translation with a comma
  Two Ducks: 🦆🦆,
  Light Bulb: 💡,
  Three Peaches: 🍑🍑🍑,
  Two kitchen stoves: ♨️♨️,
  A red car: 🚗,
  A person and a cat: 🧍🐈,
  A {Description}: """

prompter = (

emoji_df = (
    .withColumn("Emoji", trim(split(col("Emoji"), ",").getItem(0)))
    .drop("error", "prompt")
display("Description", "Emoji"))

7 - Dedurre il continente dell'indirizzo del fornitore con OpenAI

continent_template = """
Which continent does the following address belong to? 

Pick one value from Europe, Australia, North America, South America, Asia, Africa, Antarctica. 

Dont respond with anything but one of the above. If you don't know the answer or cannot figure it out from the text, return None. End your answer with a comma.

Address: "6693 Ryan Rd, North Whales",
Continent: Europe,
Address: "6693 Ryan Rd",
Continent: None,
Address: "{VendorAddress}",

continent_df = (
    .withColumn("Continent", trim(split(col("Continent"), ",").getItem(0)))
    .drop("error", "prompt")
display("VendorAddress", "Continent"))

8 - Creare un indice di Ricerca di Azure per i moduli

from import *
from pyspark.sql.functions import monotonically_increasing_id, lit

    continent_df.withColumn("DocID", monotonically_increasing_id().cast("string"))
    .withColumn("SearchAction", lit("upload"))

9 - Provare una query di ricerca

import requests

search_url = "https://{}{}/docs/search?api-version=2019-05-06".format(
    search_service, search_index
    search_url, json={"search": "door"}, headers={"api-key": search_key}

10. Creare uno chatbot in grado di usare Ricerca di Azure come strumento 🧠🔧

import json
import openai

openai.api_type = "azure"
openai.api_base = openai_url
openai.api_key = openai_key
openai.api_version = "2023-03-15-preview"

chat_context_prompt = f"""
You are a chatbot designed to answer questions with the help of a search engine that has the following information:


If you dont know the answer to a question say "I dont know". Do not lie or hallucinate information. Be brief. If you need to use the search engine to solve the please output a json in the form of {{"query": "example_query"}}

def search_query_prompt(question):
    return f"""
Given the search engine above, what would you search for to answer the following question?

Question: "{question}"

Please output a json in the form of {{"query": "example_query"}}

def search_result_prompt(query):
    search_results =
        search_url, json={"search": query}, headers={"api-key": search_key}
    return f"""

You previously ran a search for "{query}" which returned the following results:


You should use the results to help you answer questions. If you dont know the answer to a question say "I dont know". Do not lie or hallucinate information. Be Brief and mention which query you used to solve the problem. 

def prompt_gpt(messages):
    response = openai.ChatCompletion.create(
        engine=openai_deployment_name, messages=messages, max_tokens=None, top_p=0.95
    return response["choices"][0]["message"]["content"]

def custom_chatbot(question):
    while True:
            query = json.loads(
                        {"role": "system", "content": chat_context_prompt},
                        {"role": "user", "content": search_query_prompt(question)},

            return prompt_gpt(
                    {"role": "system", "content": chat_context_prompt},
                    {"role": "system", "content": search_result_prompt(query)},
                    {"role": "user", "content": question},
        except Exception as e:
            raise e

11 - Porre una domanda al chatbot

custom_chatbot("What did Luke Diaz buy?")

12 - Un controllo doppio rapido

    continent_df.where(col("CustomerName") == "Luke Diaz")