Tietojen muuntaminen suorittamalla Azure HDInsight -toiminto
Azure HDInsight -toiminnon Data Factory for Microsoft Fabricin avulla voit järjestää seuraavat Azure HDInsight -työtyypit:
- Suorita Hive-kyselyitä
- MapReduce-ohjelman käynnistäminen
- Suorita Sikakyselyt
- Spark-ohjelman suorittaminen
- Hadoop Stream -ohjelman suorittaminen
Tässä artikkelissa annetaan vaiheittaiset ohjeet Azure HDInsight -toiminnon luomiseen Data Factory -käyttöliittymän avulla.
Edellytykset
Jotta voit aloittaa, sinun on täytettävä seuraavat edellytykset:
- Vuokraajatili, jolla on aktiivinen tilaus. Luo ilmainen tili.
- Luodaan työtila.
Azure HDInsight (HDI) -aktiviteetin lisääminen putkeen käyttöliittymän avulla
Luo uusi tietoputki työtilaasi.
Hae Azure HDInsight aloitusnäytön kortista ja valitse se tai valitse aktiviteetti Toiminnot-palkista lisätäksesi sen putken pohjaan.
Valitse uusi Azure HDInsight -toiminto putkieditorin pohjassa, jos se ei jo ole valittuna.
Yleiset asetukset - ohjeissa on yleisiä asetuksia , jotka löytyvät Yleiset asetukset -välilehdestä.
HDI-klusterin määrittäminen
Valitse HDI-klusterin välilehti. Sitten voit valita olemassa olevan tai luoda uuden HDInsight-yhteyden.
Valitse resurssiyhteyttä varten Azure Blob -säilö, joka viittaa Azure HDInsight -klusteriin. Voit valita aiemmin luodun Blob-kaupan tai luoda uuden.
Määritä asetukset
Näet aktiviteetin lisäasetukset valitsemalla Asetukset-välilehden.
Kaikkia Azure Data Factoryn ja Synapse Analytics HDInsightin linkitetyn palvelun tukemia kehittyneitä klusteriominaisuuksia ja dynaamisia lausekkeita tuetaan nyt myös Azure HDInsight -toiminnossa Data Factorylle Microsoft Fabricissa käyttöliittymän Lisäasetukset-osiossa . Kaikki nämä ominaisuudet tukevat helppokäyttöisia mukautettuja parametrisoituja lausekkeita dynaamisen sisällön kanssa.
Klusterin tyyppi
Määritä HDInsight-klusterin asetukset valitsemalla ensin sen Tyyppi käytettävissä olevista vaihtoehdoista, kuten Hive, Map Reduce, Pig, Spark ja Streaming.
Hive
Jos valitset tyypiksi Hive, aktiviteetti suorittaa Hive-kyselyn. Voit halutessasi määrittää komentosarjayhteyden , joka viittaa tallennustiliin, joka sisältää Hive-tyypin. HDI-klusterin välilehdessä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Tiedostopolku , joka suoritetaan Azure HDInsightissa. Vaihtoehtoisesti voit määrittää lisää määrityksiä lisäosassa, virheenkorjauksen tiedot, kyselyn aikakatkaisu, argumentit, parametrit ja muuttujat.
Kartan pienentäminen
Jos valitset tyypiksi Kartan vähentäminen, aktiviteetti käynnistää Kartan pienentäminen -ohjelman. Voit halutessasi määrittää Jar-yhteydessä viitteenä tallennustiliin, joka sisältää Kartan pienennä -tyypin. HDI-klusterin välilehdessä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Luokan nimi ja Tiedostopolku , jotka suoritetaan Azure HDInsightissa. Vaihtoehtoisesti voit määrittää enemmän määritystietoja, kuten Jar-kirjastojen tuomisen, vianmäärityksen tiedot, argumentit ja parametrit Lisäasetukset-osassa.
Sika
Jos valitset tyypiksi Sika, aktiviteetti käynnistää Sika-kyselyn. Voit halutessasi määrittää Script-yhteysasetuksen, joka viittaa sikatyyppiä sisältävään tallennustiliin. HDI-klusterin välilehdellä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Tiedostopolku , joka suoritetaan Azure HDInsightissa. Vaihtoehtoisesti voit määrittää enemmän määrityksiä, kuten virheenkorjaustiedot, argumentit, parametrit ja muuttujat Lisäasetukset-osassa.
Spark
Jos valitset tyypiksi Spark, aktiviteetti käynnistää Spark-ohjelman. Valitse Spark-tyypiksi joko Komentosarja tai Jar. Voit halutessasi määrittää työyhteyden , joka viittaa Spark-tyypin sisältävään tallennustiliin. HDI-klusterin välilehdessä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Tiedostopolku , joka suoritetaan Azure HDInsightissa. Vaihtoehtoisesti voit määrittää enemmän määrityksiä, kuten luokan nimen, välityspalvelimen käyttäjän, virheenkorjauksen tiedot, argumentit ja spark-määritykset Lisäasetukset-osassa.
Suoratoisto
Jos valitset tyypiksi Virtautus, aktiviteetti käynnistää suoratoisto-ohjelman. Määritä Mapper- ja Reducer-nimet, ja voit halutessasi määrittää tiedostoyhteyden, joka viittaa striimaustyypin sisältävään tallennustiliin. HDI-klusterin välilehdellä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Mapperin tiedostopolku ja Reducer-tiedoston polku, joka suoritetaan Azure HDInsightissa. Sisällytä syöte- ja tulosteasetukset myös WASB-polulle. Vaihtoehtoisesti voit määrittää enemmän määrityksiä, kuten virheenkorjaustiedot, argumentit ja parametrit Lisäasetukset-osassa.
Ominaisuusviittaus
Ominaisuus | Kuvaus | Pakollinen |
---|---|---|
tyyppi | Hadoop-suoratoistotoiminnan toimintatyyppi on HDInsightStreaming | Kyllä |
kartoittaja | Määrittää suoritettavan mapper-tiedoston nimen | Kyllä |
pelkistin | Määrittää pienentäjän suoritettavan tiedoston nimen. | Kyllä |
yhdistämistoiminto | Määrittää yhdistettävän suoritettavan tiedoston nimen | En |
tiedostoyhteys | Viittaus Azure-tallennus Linked Serviceen, jota käytetään Mapper-, Combiner- ja Reducer-ohjelmien suorittamiseen. | En |
Vain Azure Blob -säilöä ja ADLS Gen2 -yhteyksiä tuetaan tässä. Jos et määritä tätä yhteyttä, käytetään HDInsight-yhteydellä määritettyä tallennusyhteyttä. | ||
filePath | Anna Mapper-, Combiner- ja Reducer-ohjelmiin matriisi, joka on tallennettu Azure-tallennus, johon tiedostoyhteys viittaa. | Kyllä |
input | Määrittää Mapperin syötetiedoston WASB-polun. | Kyllä |
output | Määrittää Pienentäjä-kohteen tulostiedoston WASB-polun. | Kyllä |
getDebugInfo | Määrittää, milloin lokitiedostot kopioidaan HDInsight-klusterin käyttämään Azure-tallennus (tai), jotka on määrittänyt scriptLinkedService. | En |
Sallitut arvot: Ei mitään, Aina tai Epäonnistuminen. Oletusarvo: Ei mitään. | ||
Argumentit | Määrittää Hadoop-työn argumenttimatriisin. Argumentit välitetään komentoriviargumentteina kuhunkin tehtävään. | En |
Määrittää | Määritä parametrit avain/arvo-pareina hive-komentosarjassa viittaamista varten. | En |
Putken tallentaminen ja suorittaminen tai ajoittaminen
Kun olet määrittänyt putkelle tarvittavat muut toiminnot, siirry putkieditorin yläreunassa olevaan Aloitus-välilehteen ja tallenna putki valitsemalla Tallenna-painike. Valitse Suorita , jos haluat suorittaa sen suoraan, tai Ajoita se. Voit myös tarkastella suoritushistoriaa täällä tai määrittää muita asetuksia.