Uw gegevenstransformaties automatiseren

7 minuten

Het voorbereiden van gegevens voor machine learning is een noodzakelijke stap wanneer u effectieve modellen wilt bouwen. Azure Databricks kan grote gegevenssets efficiënt verwerken en voorbereiden vanwege de rekenkracht van Spark.

Laten we eens kijken hoe elke stap in de machine learning-werkstroom met betrekking tot gegevens kan worden uitgevoerd in Azure Databricks.

Verzamelde gegevens opslaan in Azure Storage

Wanneer u gegevens uit verschillende bronnen verzamelt, kunt u uw gegevens het beste opslaan in een opslagoplossing, zoals Azure Blob Storage of Azure Data Lake.

Het opslaan van gegevens in een Azure-opslagoplossing in plaats van rechtstreeks in Azure Databricks biedt betere schaalbaarheid, verbeterde beveiliging en integratie met andere Azure-services.

Azure Storage-oplossingen bieden een robuuste en flexibele omgeving voor het beheren van grote gegevenssets, zodat uw gegevens direct beschikbaar zijn voor verwerking en analyse.

Gebruik Unity Catalog om de toegang te beheren tot alle gegevens die zijn opgeslagen in cloudopslag. Unity Catalog biedt een geïntegreerde beheeroplossing voor alle gegevensassets, zodat u machtigingen en toegangsbeheer in uw gegevensomgeving kunt beheren.

Tip

Meer informatie over het maken van verbinding met cloudobjectopslag met behulp van Unity Catalog

Uw gegevens verkennen en voorbereiden

Nadat u verbinding hebt gemaakt met uw gegevens, wilt u de gegevens verkennen via Exploratory Data Analysis (EDA). Op basis van uw bevindingen bereidt u gegevens voor om ontbrekende gegevens af te handelen, functie-engineering uit te voeren en andere gegevenstransformaties uit te voeren die u denkt te profiteren van de prestaties van het model.

Voor de eerste analyse gebruikt u Databricks-notebooks om de gegevens te verkennen en te begrijpen. U kunt Spark SQL of PySpark gebruiken om te werken met grote gegevenssets, de gegevens samen te vatten, te controleren op null-waarden en gegevensdistributies te begrijpen.

Functie-engineering automatiseren in Azure Databricks

Geautomatiseerde hulpprogramma's en bibliotheken voor functie-engineering, zoals Featuretools en AutoFeat, winnen populariteit wanneer ze het proces van het genereren en selecteren van functies stroomlijnen. Deze hulpprogramma's gebruiken algoritmen om automatisch functies op basis van onbewerkte gegevens te maken, hun belang te evalueren en de meest relevante functies te selecteren voor modellering. Deze aanpak bespaart tijd en vermindert de afhankelijkheid van handmatige functie-engineering.

Uw gegevenstransformaties automatiseren in Azure Databricks

Na het verkennen kunt u ervoor kiezen om gegevenstransformaties te automatiseren door pijplijnen in te stellen. Een manier om automatisering te bereiken is door taken in Azure Databricks in te stellen om notebooks en scripts te automatiseren. Met Azure Databricks-taken kunt u uw notebooks of JAR-bestanden plannen en uitvoeren als taken, zodat u uw werkstromen voor gegevensverwerking kunt automatiseren.

Voer de volgende stappen uit om een taak in Azure Databricks in te stellen:

Een taak maken: Navigeer in de Databricks-werkruimte naar het tabblad Taken en selecteer aan Create job. Geef een naam op voor uw taak en geef het notebook- of JAR-bestand op dat u wilt uitvoeren.
Configureer de taak: stel de parameters voor uw taak in, zoals de clusterconfiguratie, het schema voor het uitvoeren van de taak en eventuele afhankelijkheden. U kunt ook e-mailmeldingen opgeven voor taakstatusupdates.
Voer de taak uit en controleer deze: nadat de taak is geconfigureerd, kunt u deze handmatig uitvoeren of de taak laten uitvoeren volgens de planning die u hebt ingesteld. U kunt de voortgang van de taak controleren en logboeken weergeven om eventuele problemen op te lossen.

Tip

Meer informatie over het maken en uitvoeren van Azure Databricks-taken.

U kunt ook Azure-services gebruiken om geautomatiseerde gegevenspijplijnen te maken.

Gegevensintegratie automatiseren met Azure Data Factory

Azure Data Factory is een hulpprogramma voor het bouwen en beheren van gegevenspijplijnen. Hiermee kunt u gegevensgestuurde werkstromen maken voor het organiseren van gegevensverplaatsing en -transformatie.

Voer de volgende stappen uit om een gegevenspijplijn te maken in Azure Data Factory:

Een Data Factory maken: maak in Azure Portal een nieuw Data Factory-exemplaar.
Een pijplijn maken: Maak in de Data Factory-gebruikersinterface een nieuwe pijplijn en voeg er activiteiten aan toe. Activiteiten kunnen bestaan uit gegevensverplaatsing, gegevenstransformatie en controlestroombewerkingen.
Activiteiten configureren: stel de parameters in voor elke activiteit, zoals de bron- en doelgegevensarchieven, de transformatielogica en eventuele afhankelijkheden.
Plannen en bewaken: plan de pijplijn om op opgegeven intervallen uit te voeren en de uitvoering ervan te bewaken. U kunt logboeken bekijken en waarschuwingen instellen voor eventuele problemen.

Tip

Meer informatie over Azure Data Factory.