Inzicht in Apache Spark voor U-SQL-ontwikkelaars
Belangrijk
Azure Data Lake Analytics op 29 februari 2024 buiten gebruik gesteld. Meer informatie over deze aankondiging.
Voor gegevensanalyse kan uw organisatie gebruikmaken van Azure Synapse Analytics of Microsoft Fabric.
Microsoft ondersteunt verschillende analytics-services, zoals Azure Databricks, Azure HDInsight en Azure Data Lake Analytics. We horen van ontwikkelaars dat ze een duidelijke voorkeur hebben voor opensource-oplossingen bij het bouwen van analysepijplijnen. Om U-SQL-ontwikkelaars inzicht te geven in Apache Spark en hoe u uw U-SQL-scripts kunt transformeren naar Apache Spark, hebben we deze richtlijnen opgesteld.
Het bevat de stappen die u kunt nemen en verschillende alternatieven.
Stappen voor het transformeren van U-SQL naar Apache Spark
Transformeer uw taakindelingspijplijnen.
Als u Azure Data Factory gebruikt om uw Azure Data Lake Analytics-scripts te organiseren, moet u deze aanpassen om de nieuwe Spark-programma's te organiseren.
Inzicht in de verschillen tussen de wijze waarop U-SQL en Spark gegevens beheren.
Als u uw gegevens van Azure Data Lake Storage Gen1 naar Azure Data Lake Storage Gen2 wilt verplaatsen, moet u zowel de bestandsgegevens als de in de catalogus onderhouden gegevens kopiƫren. Azure Data Lake Analytics ondersteunt alleen Azure Data Lake Storage Gen1. Zie Inzicht in Spark-gegevensindelingen voor meer informatie.
Transformeer uw U-SQL-scripts naar Spark.
Voordat u uw U-SQL-scripts gaat transformeren, moet u een analyseservice kiezen. Enkele van de beschikbare rekenservices zijn:
- Azure Data Factory gegevensstromen voor gegevensstroomtoewijzing zijn visueel ontworpen gegevenstransformaties waarmee data engineers een grafische logica voor gegevenstransformatie kunnen ontwikkelen zonder code te schrijven. Hoewel ze niet geschikt zijn voor het uitvoeren van complexe gebruikerscode, kunnen ze eenvoudig traditionele SQL-achtige gegevensstroomtransformaties vertegenwoordigen
- Azure HDInsight Hive Apache Hive in HDInsight is geschikt voor ETL-bewerkingen (Extract, Transform, and Load). Dit betekent dat u uw U-SQL-scripts gaat vertalen naar Apache Hive.
- Apache Spark-engines zoals Azure HDInsight Spark of Azure Databricks Dit betekent dat u uw U-SQL-scripts gaat vertalen naar Spark. Zie Inzicht in Spark-gegevensindelingen voor meer informatie
Waarschuwing
Zowel Azure Databricks als Azure HDInsight Spark zijn clusterservices en geen serverloze taken zoals Azure Data Lake Analytics. U moet overwegen hoe u de clusters kunt inrichten om de juiste kosten/prestatieverhouding te krijgen en hoe u de levensduur ervan kunt beheren om uw kosten te minimaliseren. Deze services hebben verschillende prestatiekenmerken met gebruikerscode die is geschreven in .NET, dus u moet wrappers schrijven of uw code herschrijven in een ondersteunde taal. Zie Informatie over Spark-gegevensindelingen, Inzicht in Apache Spark-codeconcepten voor U-SQL-ontwikkelaars, .NET voor Apache Spark voor meer informatie
Volgende stappen
- Informatie over Spark-gegevensindelingen voor U-SQL-ontwikkelaars
- Inzicht in Spark-codeconcepten voor U-SQL-ontwikkelaars
- Uw oplossingen voor big data-analyse upgraden van Azure Data Lake Storage Gen1 naar Azure Data Lake Storage Gen2
- .NET voor Apache Spark
- Gegevens transformeren met behulp van Hadoop Hive-activiteit in Azure Data Factory
- Gegevens transformeren met behulp van Spark-activiteit in Azure Data Factory
- Wat is Apache Spark in Azure HDInsight?