Gegevens uit externe gegevensbronnen indexeren met behulp van Azure Data Factory
Het toevoegen van externe gegevens die zich niet in Azure bevinden, is een veelvoorkomende behoefte in de zoekoplossing van een organisatie. Azure AI Search is flexibel omdat het veel manieren biedt om gegevens te maken en naar indexen te pushen.
Gegevens pushen naar een zoekindex met behulp van Azure Data Factory (ADF)
Een eerste benadering is een optie voor nulcode voor het pushen van gegevens naar een index met behulp van ADF. ADF wordt geleverd met verbindingen naar bijna 100 verschillende gegevensarchieven. Met connectors zoals HTTP en REST waarmee u een onbeperkt aantal gegevensarchieven kunt verbinden. Deze gegevensarchieven worden gebruikt als bron of als doel (sinks in de kopieeractiviteit genoemd) in pijplijnen.
De Azure AI Search-indexconnector kan worden gebruikt als sink in een kopieeractiviteit.
Een ADF-pijplijn maken om gegevens naar een zoekindex te pushen
De stappen die u moet uitvoeren om de ADF-pijplijn te gebruiken om gegevens naar een zoekindex te pushen, zijn:
- Maak een Azure AI Search-index met alle velden waarin u gegevens wilt opslaan.
- Maak een pijplijn met een stap voor het kopiëren van gegevens.
- Maak een gegevensbronverbinding met de locatie waar uw gegevens zich bevinden.
- Maak een sink om verbinding te maken met uw zoekindex.
- Wijs de velden van uw brongegevens toe aan uw zoekindex.
- Voer de pijplijn uit om de gegevens naar de index te pushen.
Stel dat u klantgegevens in JSON-indeling hebt die extern worden gehost. U wilt deze klanten kopiëren naar een zoekindex. De JSON heeft deze indeling:
{
"_id": "5fed1b38309495de1bc4f653",
"firstName": "Sims",
"lastName": "Arnold",
"isAlive": false,
"age": 35,
"address": {
"streetAddress": "Sumner Place",
"city": "Canoochee",
"state": "Palau",
"postalCode": 1558
},
"phoneNumbers": [
{
"type": "home",
"number": "+1 (830) 465-2965"
},
{
"type": "home",
"number": "+1 (889) 439-3632"
}
]
}
Een zoekindex maken
Maak een Azure AI-Search-service en een index om deze informatie op te slaan. Als u de module Een Azure AI Search-oplossing maken hebt voltooid, hebt u gezien hoe u dit doet. Volg de stappen om de zoekservice te maken, maar stop op het punt van het importeren van gegevens. Als u gegevens naar een index pusht, hoeft u geen indexeerfunctie of vaardighedenset te maken.
Maak een index en voeg deze velden en eigenschappen toe:
Op dit moment moet u eerst de index maken, omdat ADF geen indexen kan maken.
Een pijplijn maken met het hulpprogramma ADF-gegevens kopiëren
Open Azure Data Factory Studio en selecteer uw Azure-abonnement en de naam van uw data factory.
Selecteer Opnemen.
Selecteer Volgende.
Notitie
U kunt ervoor kiezen om de pijplijn te plannen als uw gegevens veranderen en u uw index up-to-date moet houden. In dit voorbeeld importeert u de gegevens één keer.
De gekoppelde bronservice maken
Selecteer HTTP in brontype.
Selecteer + Nieuwe verbinding naast Verbinding maken ion.
Voer in het deelvenster Nieuwe verbinding in Naam dataLocation in.
Voer in het basis-URL-bestand in waar uw JSON-bestand zich bevindt. Voer in dit voorbeeld in https://raw.githubusercontent.com/Azure-Samples/azure-sql-db-import-data/main/json/user1.json.
Selecteer Anoniem in verificatietype.
Selecteer Maken.
Selecteer Volgende.
Selecteer JSON in de bestandsindeling.
Selecteer Volgende.
De gekoppelde doelservice maken
Selecteer Azure Search in het doeltype. Selecteer vervolgens + Nieuwe verbinding.
Voer in het deelvenster Nieuwe verbinding in Naam search_index in.
Selecteer uw Azure-abonnement in het Azure-abonnement.
Selecteer uw Azure AI-Search-service in servicenaam.
Selecteer Maken.
Selecteer in het deelvenster Doelgegevensarchief in Doel de zoekindex die u hebt gemaakt.
Bronvelden toewijzen aan doelvelden
Selecteer Volgende.
Als u een index hebt gemaakt met veldnamen die overeenkomen met de JSON-kenmerken, wordt de JSON automatisch toegewezen aan het veld in uw zoekindex.
In het bovenstaande voorbeeld moeten drie velden in het JSON-document worden toegewezen aan velden in de index.
Wijs uw velden toe en selecteer vervolgens Volgende.
Voer in het deelvenster Instellingen in Taaknaam jsonToSearchIndex in.
Selecteer Volgende.
Voer de pijplijn uit om de gegevens naar de index te pushen
Selecteer Volgende in het deelvenster Samenvatting.
Zodra de pijplijn is gevalideerd en geïmplementeerd, selecteert u Voltooien.
De pijplijn is geïmplementeerd en uitgevoerd. Het JSON-document is toegevoegd aan uw zoekindex. U kunt Azure Portal gebruiken en een zoekopdracht uitvoeren in Search Explorer. U ziet nu de geïmporteerde JSON-gegevens.
Door deze stappen te volgen, hebt u gezien hoe u gegevens naar een index kunt pushen. De pijplijn die u standaard hebt gemaakt, voegt updates samen in de index. Als u de JSON-gegevens hebt gewijzigd en de pijplijn opnieuw uitvoert, wordt de zoekindex bijgewerkt. U kunt het schrijfgedrag wijzigen om alleen te uploaden als u wilt dat de gegevens worden vervangen telkens wanneer u de pijplijn uitvoert.
Beperkingen van het gebruik van de ingebouwde Azure AI Search als een gekoppelde service
Op dit moment ondersteunt de gekoppelde Azure AI Search-service als sink alleen deze velden:
Azure AI Search-gegevenstype |
---|
String |
Int32 |
Int64 |
Dubbel |
Booleaanse waarde |
DataTimeOffset |
Dit betekent dat ComplexTypes en matrices momenteel niet worden ondersteund. Als u het JSON-document hierboven bekijkt, betekent dit dat het niet mogelijk is om alle telefoonnummers voor de klant toe te wijzen. Alleen het eerste telefoonnummer is toegewezen.