Gegevenswizards importeren in Azure Portal

Artikel
11/23/2024

Azure AI Search heeft twee wizards voor importeren waarmee indexering en het maken van objecten worden geautomatiseerd, zodat u direct kunt beginnen met het uitvoeren van query's. Als u niet bekend bent met Azure AI Search, zijn deze wizards een van de krachtigste functies die u kunt gebruiken. Met minimale inspanning kunt u een indexerings- of verrijkingspijplijn maken die de meeste functionaliteit van Azure AI Search uitvoert.

De wizard Gegevens importeren ondersteunt niet-ctorwerkstromen. U kunt tekst en getallen extraheren uit onbewerkte documenten. U kunt ook toegepaste AI- en ingebouwde vaardigheden configureren waarmee structuur wordt afgeleid en tekst doorzoekbare inhoud wordt gegenereerd op basis van afbeeldingsbestanden en ongestructureerde gegevens.
De wizard Gegevens importeren en vectoriseren voegt segmentering en vectorisatie toe. U moet een bestaande implementatie van een insluitmodel opgeven, maar de wizard maakt de verbinding, formuleert de aanvraag en verwerkt het antwoord. Hiermee wordt vectorinhoud gegenereerd op basis van tekst- of afbeeldingsinhoud.

Als u de wizard gebruikt voor het testen van proof-of-concept, wordt in dit artikel de interne werking van de wizards uitgelegd, zodat u deze effectiever kunt gebruiken.

Dit artikel is geen stap voor stap. Zie voor hulp bij het gebruik van de wizard met voorbeeldgegevens:

Ondersteunde gegevensbronnen en scenario's

De wizards ondersteunen de meeste gegevensbronnen die worden ondersteund door indexeerfuncties.

Gegevens	Wizard Gegevens importeren	Wizard Gegevens importeren en vectoriseren
ADLS Gen2	✅	✅
Azure Blob-opslag	✅	✅
Azure File Storage	❌	❌
Azure-tabelopslag	✅	✅
Azure SQL-database en beheerd exemplaar	✅	✅
Cosmos DB for NoSQL	✅	✅
Cosmos DB voor MongoDB	✅	✅
Cosmos DB voor Apache Gremlin	✅	✅
MySQL	❌	❌
OneLake	✅	✅
SharePoint Online	❌	❌
SQL Server op Virtual Machines	✅	✅

Voorbeeldgegevens

Microsoft host voorbeeldgegevens, zodat u een gegevensbronconfiguratiestap kunt weglaten in een wizardwerkstroom.

Voorbeeldgegevens	Wizard Gegevens importeren	Wizard Gegevens importeren en vectoriseren
hotels	✅	❌
vastgoed	✅	❌

Vaardigheden

Deze sectie bevat de vaardigheden die kunnen worden weergegeven in een vaardighedenset die door een wizard wordt gegenereerd. Wizards genereren een vaardighedenset en uitvoerveldtoewijzingen op basis van de opties die u selecteert. Nadat de vaardighedenset is gemaakt, kunt u de JSON-definitie wijzigen om meer vaardigheden toe te voegen.

Hier volgen enkele punten om rekening te houden met de vaardigheden in de volgende lijst:

OCR- en afbeeldingsanalyseopties zijn beschikbaar voor blobs in Azure Storage en bestanden in OneLake, uitgaande van de standaardparseringsmodus. Afbeeldingen zijn een inhoudstype voor afbeeldingen (zoals PNG of JPG) of een ingesloten afbeelding in een toepassingsbestand (zoals PDF).
Shaper wordt toegevoegd als u een kennisarchief configureert.
Tekst splitsen en tekst samenvoegen worden toegevoegd voor gegevenssegmentering als u een insluitmodel kiest. Ze worden toegevoegd voor andere niet-ingesloten vaardigheden als de granulariteit van het bronveld is ingesteld op pagina's of zinnen.

Vaardigheden	Wizard Gegevens importeren	Wizard Gegevens importeren en vectoriseren
AI Vision multimodal	❌	✅
Azure OpenAI insluiten	❌	✅
Azure Machine Learning (Azure AI Foundry-modelcatalogus)	❌	✅
Documentindeling	❌	✅
Herkenning van entiteiten	✅	❌
Afbeeldingsanalyse (van toepassing op blobs, standaardparsering, hele bestandsindexering	✅	❌
Trefwoordextractie	✅	❌
Taaldetectie	✅	❌
Tekstvertaling	✅	❌
OCR (van toepassing op blobs, standaardparsering, hele bestandsindexering)	✅	✅
PII-detectie	✅	❌
Sentimentanalyse	✅	❌
Shaper (van toepassing op kennisarchief)	✅	❌
Tekst splitsen	✅	✅
Tekst samenvoegen	✅	✅

Kennisarchief

U kunt een kennisarchief genereren voor secundaire opslag van verrijkte (door vaardigheden gegenereerde) inhoud. Mogelijk wilt u een kennisarchief voor werkstromen voor het ophalen van gegevens waarvoor geen zoekmachine is vereist.

Kennisarchief	Wizard Gegevens importeren	Wizard Gegevens importeren en vectoriseren
opslag	✅	❌

Wat de wizards maken

Met de wizard Importeren worden de objecten gemaakt die in de volgende tabel worden beschreven. Nadat de objecten zijn gemaakt, kunt u hun JSON-definities bekijken in Azure Portal of ze aanroepen vanuit code.

Ga als volgt te werk om deze objecten weer te geven nadat de wizard is uitgevoerd:

Meld u aan bij Azure Portal en zoek uw zoekservice.
Selecteer Zoekbeheer in het menu om pagina's te zoeken voor indexen, indexeerfuncties, gegevensbronnen en vaardighedensets.

Object	Beschrijving
Indexeerfunctie	Een configuratieobject dat een gegevensbron, doelindex, een optionele vaardighedenset, optionele planning en optionele configuratie-instellingen opgeeft voor fout-handing en base-64-codering.
Gegevensbron	Bewaart verbindingsgegevens met een ondersteunde gegevensbron in Azure. Een gegevensbronobject wordt uitsluitend gebruikt met indexeerfuncties.
Index	Fysieke gegevensstructuur die wordt gebruikt voor zoeken in volledige tekst en andere query's.
Vaardighedenset	Optioneel. Een volledige set instructies voor het bewerken, transformeren en vormgeven van inhoud, waaronder het analyseren en extraheren van informatie uit afbeeldingsbestanden. Vaardighedensets worden ook gebruikt voor geïntegreerde vectorisatie. Tenzij het werkvolume onder de limiet van 20 transacties per indexeerfunctie per dag valt, moet de vaardighedenset een verwijzing bevatten naar een Azure AI-resource voor meerdere services die verrijking biedt. Voor geïntegreerde vectorisatie kunt u Azure AI Vision of een insluitmodel gebruiken in de Azure AI Foundry-modelcatalogus.
Kennisarchief	Optioneel. Alleen beschikbaar in de wizard Gegevens importeren. Slaat verrijkte vaardighedensetuitvoer op van tabellen en blobs in Azure Storage voor onafhankelijke analyse of downstreamverwerking in scenario's zonder onderzoek.

Vergoedingen

Voordat u code schrijft, kunt u de wizards gebruiken voor prototypen en testen van proof-of-concept. De wizards maken verbinding met externe gegevensbronnen, voorbeeld van de gegevens voor het maken van een initiële index en importeren en optioneel de gegevens als JSON-documenten importeren in een index in Azure AI Search.

Als u vaardighedensets evalueert, verwerkt de wizard uitvoerveldtoewijzingen en voegt u helperfuncties toe om bruikbare objecten te maken. Tekstsplitsing wordt toegevoegd als u een parseermodus opgeeft. Tekst samenvoegen wordt toegevoegd als u afbeeldingsanalyse hebt gekozen, zodat de wizard tekstbeschrijvingen opnieuw kan combineren met afbeeldingsinhoud. Shaper-vaardigheden worden toegevoegd ter ondersteuning van geldige projecties als u de optie voor het kennisarchief hebt gekozen. Alle bovenstaande taken hebben een leercurve. Als u geen ervaring hebt met verrijking, kunt u met de mogelijkheid om deze stappen af te handelen, de waarde van een vaardigheid meten zonder dat u veel tijd en moeite hoeft te investeren.

Steekproeven zijn het proces waarmee een indexschema wordt afgeleid en er zijn enkele beperkingen. Wanneer de gegevensbron wordt gemaakt, kiest de wizard een willekeurig voorbeeld van documenten om te bepalen welke kolommen deel uitmaken van de gegevensbron. Niet alle bestanden worden gelezen, omdat dit mogelijk uren kan duren voor zeer grote gegevensbronnen. Gezien een selectie van documenten, bronmetagegevens, zoals veldnaam of type, wordt gebruikt om een verzameling velden in een indexschema te maken. Afhankelijk van de complexiteit van brongegevens moet u mogelijk het oorspronkelijke schema bewerken voor nauwkeurigheid of deze uitbreiden voor volledigheid. U kunt uw wijzigingen inline aanbrengen op de pagina indexdefinitie.

Over het algemeen zijn de voordelen van het gebruik van de wizard duidelijk: zolang aan de vereisten wordt voldaan, kunt u binnen enkele minuten een doorzoekbare index maken. Sommige complexiteiten van het indexeren, zoals het serialiseren van gegevens als JSON-documenten, worden verwerkt door de wizards.

Beperkingen

De wizards importeren zijn niet zonder beperkingen. Beperkingen worden als volgt samengevat:

De wizards bieden geen ondersteuning voor iteratie of hergebruik. Elke pass through de wizard maakt een nieuwe index, vaardighedenset en indexeerfunctieconfiguratie. Alleen gegevensbronnen kunnen worden behouden en opnieuw worden gebruikt in de wizard. Als u andere objecten wilt bewerken of verfijnen, verwijdert u de objecten en begint u opnieuw, of gebruikt u de REST API's of .NET SDK om de structuren te wijzigen.
Broninhoud moet zich in een ondersteunde gegevensbron bevinden.
Steekproeven zijn meer dan een subset van brongegevens. Voor grote gegevensbronnen is het mogelijk dat de wizard velden mist. Mogelijk moet u het schema uitbreiden of de uitgestelde gegevenstypen corrigeren als er onvoldoende steekproeven zijn.
AI-verrijking, zoals weergegeven in Azure Portal, is beperkt tot een subset van ingebouwde vaardigheden.
Een kennisarchief, dat kan worden gemaakt door de wizard Gegevens importeren, is beperkt tot enkele standaardprojecties en maakt gebruik van een standaardnaamconventie. Als u namen of projecties wilt aanpassen, moet u het kennisarchief maken via REST API of de SDK's.

Beveiligde verbindingen

De importwizards maken uitgaande verbindingen met behulp van de Azure-portalcontroller en openbare eindpunten. U kunt de wizards niet gebruiken als Azure-resources worden geopend via een privéverbinding of via een gedeelde privékoppeling.

U kunt de wizards gebruiken via beperkte openbare verbindingen, maar niet alle functionaliteit is beschikbaar.

Voor het importeren van de ingebouwde voorbeeldgegevens in een zoekservice zijn een openbaar eindpunt en geen firewallregels vereist.

Voorbeeldgegevens worden gehost door Microsoft op specifieke Azure-resources. de Azure Portal-controller maakt verbinding met deze resources via een openbaar eindpunt. Als u uw zoekservice achter een firewall plaatst, krijgt u deze fout wanneer u probeert de ingebouwde voorbeeldgegevens op te halen: Import configuration failed, error creating Data Source, gevolgd door "An error has occured.".
Op ondersteunde Azure-gegevensbronnen die worden beveiligd door firewalls, kunt u gegevens ophalen als u over de juiste firewallregels beschikt.

De Azure-resource moet netwerkaanvragen van het IP-adres van het apparaat dat op de verbinding wordt gebruikt, toelaten. U moet azure AI Search ook vermelden als een vertrouwde service in de netwerkconfiguratie van de resource. In Azure Storage kunt u bijvoorbeeld een lijst weergeven Microsoft.Search/searchServices als een vertrouwde service.
Bij verbindingen met een Azure AI-account met meerdere services dat u opgeeft, of op verbindingen voor het insluiten van modellen die zijn geïmplementeerd in azure AI Foundry Portal of Azure OpenAI, moet openbare internettoegang worden ingeschakeld, tenzij uw zoekservice voldoet aan de vereisten voor het maken van de aanmaakdatum, laag en regio voor privéverbindingen. Zie Uitgaande verbindingen maken via een gedeelde privékoppeling voor meer informatie over deze vereisten.

Verbindingen met Azure AI multiservice zijn voor factureringsdoeleinden. Facturering vindt plaats wanneer API-aanroepen het aantal gratis transacties (20 per indexeerfunctieuitvoering) overschrijden voor ingebouwde vaardigheden die worden aangeroepen door de wizard Gegevens importeren of geïntegreerde vectorisatie in de wizard Gegevens importeren en vectoriseren .

Als Azure AI Search geen verbinding kan maken:
- In de wizard Gegevens importeren en vectoriseren is de fout "Access denied due to Virtual Network/Firewall rules."
- In de wizard Gegevens importeren is er geen fout, maar de vaardighedenset wordt niet gemaakt.

Als firewallinstellingen voorkomen dat uw wizardwerkstromen slagen, kunt u in plaats daarvan een script- of programmatische benadering overwegen.

Workflow

De wizard is ingedeeld in vier hoofdstappen:

Verbinding maken met een ondersteunde Azure-gegevensbron.
Maak een indexschema, afgeleid door steekproefbrongegevens.
Optioneel voegt het vaardigheden toe om inhoud en structuur te extraheren of te genereren. In deze stap worden invoer voor het maken van een kennisarchief verzameld.
Voer de wizard uit om objecten te maken, optioneel gegevens te vectoriseren, gegevens in een index te laden, een schema en andere configuratieopties in te stellen.

De werkstroom is een pijplijn, dus op één manier. U kunt de wizard niet gebruiken om een van de gemaakte objecten te bewerken, maar u kunt andere portalhulpprogramma's gebruiken, zoals de index- of indexeerfunctieontwerper of de JSON-editors, voor toegestane updates.

De wizards starten

U start de wizards als volgt.

Open in Azure Portal de zoekservicepagina vanuit het dashboard of zoek uw service in de lijst met services.
Selecteer op de pagina Overzicht van de service bovenaan Gegevens importeren of Gegevens importeren en vectoriseren.

De wizards worden volledig uitgevouwen in het browservenster, zodat u meer ruimte hebt om te werken.
Als u Gegevens importeren hebt geselecteerd, kunt u de optie Voorbeelden selecteren om een door Microsoft gehoste gegevensset te indexeren uit een ondersteunde gegevensbron.
Volg de resterende stappen in de wizard om de index en indexeerfunctie te maken.

U kunt ook importgegevens starten uit andere Azure-services, waaronder Azure Cosmos DB, Azure SQL Database, SQL Managed Instance en Azure Blob Storage. Zoek naar Azure AI Search toevoegen in het linkernavigatiedeelvenster op de overzichtspagina van de service.

Configuratie van gegevensbron in de wizard

De wizards maken verbinding met een externe ondersteunde gegevensbron met behulp van de interne logica van Azure AI Search-indexeerfuncties, die zijn uitgerust om de bron te samplen, metagegevens te lezen, documenten te kraken om inhoud en structuur te lezen en inhoud te serialiseren als JSON voor volgende import naar Azure AI Search.

U kunt een verbinding met een ondersteunde gegevensbron in een ander abonnement of een andere regio plakken, maar de optie Een bestaande verbindingskiezer kiezen is gericht op het actieve abonnement.

Niet alle voorbeeldgegevensbronnen zijn gegarandeerd beschikbaar in de wizard. Omdat elke gegevensbron de mogelijkheid heeft om andere wijzigingen downstream in te voeren, wordt een voorbeeldgegevensbron alleen toegevoegd aan de lijst met gegevensbronnen als deze volledig ondersteuning biedt voor alle ervaringen in de wizard, zoals definitie van vaardighedenset en indexschemadeductie.

U kunt alleen importeren uit één tabel, databaseweergave of equivalente gegevensstructuur, maar de structuur kan hiërarchische of geneste substructuren bevatten. Zie Complexe typen modelleren voor meer informatie.

Vaardighedensetconfiguratie in de wizard

De configuratie van de vaardighedenset vindt plaats na de definitie van de gegevensbron omdat het type gegevensbron de beschikbaarheid van bepaalde ingebouwde vaardigheden informeert. Met name als u bestanden indexeert uit Blob Storage, bepaalt uw keuze uit de parseringsmodus van deze bestanden of sentimentanalyse beschikbaar is.

De wizard voegt de vaardigheden toe die u kiest. Het voegt ook andere vaardigheden toe die nodig zijn voor het bereiken van een succesvol resultaat. Als u bijvoorbeeld een kennisarchief opgeeft, voegt de wizard een Shaper-vaardigheid toe om projecties (of fysieke gegevensstructuren) te ondersteunen.

Vaardighedensets zijn optioneel en er is een knop onder aan de pagina om verder te gaan als u geen AI-verrijking wilt.

Indexschemaconfiguratie in de wizard

De wizards voorbeeld van uw gegevensbron om de velden en het veldtype te detecteren. Afhankelijk van de gegevensbron kan het ook velden bieden voor het indexeren van metagegevens.

Omdat steekproeven een onnauwkeurig oefening zijn, bekijkt u de index voor de volgende overwegingen:

Is de lijst met velden nauwkeurig? Als uw gegevensbron velden bevat die niet zijn opgehaald in steekproeven, kunt u handmatig nieuwe velden toevoegen die een steekproef hebben gemist en die geen waarde toevoegen aan een zoekervaring of die niet worden gebruikt in een filterexpressie of scoreprofiel.
Is het gegevenstype geschikt voor de binnenkomende gegevens? Azure AI Search ondersteunt de gegevenstypen van het entiteitsgegevensmodel (EDM). Voor Azure SQL-gegevens is er een toewijzingsgrafiek waarin equivalente waarden worden vastgelegd. Zie Veldtoewijzingen en -transformaties voor meer achtergrondinformatie.
Hebt u één veld dat als sleutel kan fungeren? Dit veld moet Edm.string zijn en moet een document uniek identificeren. Voor relationele gegevens kan deze worden toegewezen aan een primaire sleutel. Voor blobs kan het de metadata-storage-path. Als veldwaarden spaties of streepjes bevatten, moet u de optie Base-64-coderingssleutel instellen in de stap Indexeerfunctie maken onder Geavanceerde opties om de validatiecontrole voor deze tekens te onderdrukken.
Stel kenmerken in om te bepalen hoe dat veld wordt gebruikt in een index.

Neem uw tijd met deze stap omdat kenmerken de fysieke expressie van velden in de index bepalen. Als u later kenmerken wilt wijzigen, zelfs programmatisch, moet u de index bijna altijd verwijderen en opnieuw opbouwen. Kernkenmerken zoals Doorzoekbaar en Ophaalbaar hebben een verwaarloosbaar effect op de opslag. Het inschakelen van filters en het gebruik van suggesties verhogen de opslagvereisten.
- Doorzoekbaar maakt zoeken in volledige tekst mogelijk. Elk veld dat wordt gebruikt in vrije formulierquery's of in query-expressies, moet dit kenmerk hebben. Omgekeerde indexen worden gemaakt voor elk veld dat u als doorzoekbaar markeert.
- Ophalen mogelijk retourneert het veld in zoekresultaten. Elk veld dat inhoud aan zoekresultaten levert, moet dit kenmerk hebben. Het instellen van dit veld heeft geen invloed op de indexgrootte.
- Met Filterbaar kan naar het veld worden verwezen in filterexpressies. Elk veld dat in een $filter expressie wordt gebruikt, moet dit kenmerk hebben. Filterexpressies zijn bedoeld voor exacte overeenkomsten. Omdat teksttekenreeksen intact blijven, is er meer opslagruimte vereist voor de exacte inhoud.
- Facetable maakt het veld mogelijk voor facetnavigatie. Alleen velden die als filterbaar zijn gemarkeerd, kunnen worden gemarkeerd als Facetable.
- Sorteerbaar maakt het mogelijk dat het veld in een sortering wordt gebruikt. Elk veld dat in een $Orderby expressie wordt gebruikt, moet dit kenmerk hebben.
Hebt u lexicale analyse nodig? Voor Edm.string-velden die doorzoekbaar zijn, kunt u een Analyzer instellen als u taalverbreeding en query's wilt uitvoeren.

De standaardwaarde is Standard Lucene, maar u kunt Microsoft Engels kiezen als u De analyse van Microsoft wilt gebruiken voor geavanceerde lexicale verwerking, zoals het oplossen van onregelmatige zelfstandig naamwoorden en werkwoordvormen. Alleen taalanalyses kunnen worden opgegeven in Azure Portal. Als u een aangepaste analyse of een niet-taalanalyse zoals Trefwoord, Patroon enzovoort gebruikt, moet u deze programmatisch maken. Zie Taalanalyses toevoegen voor meer informatie over analyse.
Hebt u typeaheadfunctionaliteit nodig in de vorm van automatisch aanvullen of voorgestelde resultaten? Schakel het selectievakje Suggestie in om suggesties voor typeaheadquery's in te schakelen en automatisch aan te vullen voor geselecteerde velden. Suggesties voegen toe aan het aantal tokenized termen in uw index en verbruiken dus meer opslagruimte.

Configuratie van indexeerfunctie in de wizard

De laatste pagina van de wizard verzamelt gebruikersinvoer voor de configuratie van de indexeerfunctie. U kunt een planning opgeven en andere opties instellen die variëren per gegevensbrontype.

Intern stelt de wizard ook de volgende definities in, die pas zichtbaar zijn in de indexeerfunctie nadat deze is gemaakt:

veldtoewijzingen tussen de gegevensbron en index
uitvoerveldtoewijzingen tussen vaardigheidsuitvoer en een index

De wizards proberen

De beste manier om de voordelen en beperkingen van de wizard te begrijpen, is door deze te doorlopen. Hier volgen enkele quickstarts die zijn gebaseerd op de wizard.

Delen via