Jaa


Tietojen muuntaminen suorittamalla Azure HDInsight -toiminto

Azure HDInsight -toiminnon Data Factory for Microsoft Fabricin avulla voit järjestää seuraavat Azure HDInsight -työtyypit:

  • Suorita Hive-kyselyitä
  • MapReduce-ohjelman käynnistäminen
  • Suorita Sikakyselyt
  • Spark-ohjelman suorittaminen
  • Hadoop Stream -ohjelman suorittaminen

Tässä artikkelissa annetaan vaiheittaiset ohjeet Azure HDInsight -toiminnon luomiseen Data Factory -käyttöliittymän avulla.

Edellytykset

Jotta voit aloittaa, sinun on täytettävä seuraavat edellytykset:

  • Vuokraajatili, jolla on aktiivinen tilaus. Luo ilmainen tili.
  • Luodaan työtila.

Azure HDInsight (HDI) -aktiviteetin lisääminen putkeen käyttöliittymän avulla

  1. Luo uusi tietoputki työtilaasi.

  2. Hae Azure HDInsight aloitusnäytön kortista ja valitse se tai valitse aktiviteetti Toiminnot-palkista lisätäksesi sen putken pohjaan.

    • Aktiviteetin luominen aloitusnäytön kortista:

      Näyttökuva, jossa näkyy, missä voit luoda uuden Azure HDInsight -toiminnon.

    • Aktiviteetin luominen Toiminnot-palkin avulla:

      Näyttökuva, jossa näkyy, missä voit luoda uuden Azure HDInsight -aktiviteetin Aktiviteetit-palkista putkieditorin ikkunassa.

  3. Valitse uusi Azure HDInsight -toiminto putkieditorin pohjassa, jos se ei jo ole valittuna.

    Näyttökuva, jossa näkyy Azure HDInsight -toiminto putkieditorin pohjalla.

    Yleiset asetukset - ohjeissa on yleisiä asetuksia , jotka löytyvät Yleiset asetukset -välilehdestä.

HDI-klusterin määrittäminen

  1. Valitse HDI-klusterin välilehti. Sitten voit valita olemassa olevan tai luoda uuden HDInsight-yhteyden.

  2. Valitse resurssiyhteyttä varten Azure Blob -säilö, joka viittaa Azure HDInsight -klusteriin. Voit valita aiemmin luodun Blob-kaupan tai luoda uuden.

    Näyttökuva, jossa näkyvät Azure HDInsight -toiminnan HDI-klusterin ominaisuudet.

Määritä asetukset

Näet aktiviteetin lisäasetukset valitsemalla Asetukset-välilehden.

Näyttökuva, jossa näkyy Azure HDInsightin toiminto-ominaisuuksien Asetukset-välilehti putkieditorin ikkunassa. .

Kaikkia Azure Data Factoryn ja Synapse Analytics HDInsightin linkitetyn palvelun tukemia kehittyneitä klusteriominaisuuksia ja dynaamisia lausekkeita tuetaan nyt myös Azure HDInsight -toiminnossa Data Factorylle Microsoft Fabricissa käyttöliittymän Lisäasetukset-osiossa . Kaikki nämä ominaisuudet tukevat helppokäyttöisia mukautettuja parametrisoituja lausekkeita dynaamisen sisällön kanssa.

Klusterin tyyppi

Määritä HDInsight-klusterin asetukset valitsemalla ensin sen Tyyppi käytettävissä olevista vaihtoehdoista, kuten Hive, Map Reduce, Pig, Spark ja Streaming.

Hive

Jos valitset tyypiksi Hive, aktiviteetti suorittaa Hive-kyselyn. Voit halutessasi määrittää komentosarjayhteyden , joka viittaa tallennustiliin, joka sisältää Hive-tyypin. HDI-klusterin välilehdessä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Tiedostopolku , joka suoritetaan Azure HDInsightissa. Vaihtoehtoisesti voit määrittää lisää määrityksiä lisäosassa, virheenkorjauksen tiedot, kyselyn aikakatkaisu, argumentit, parametrit ja muuttujat.

Näyttökuva, jossa näkyy pesäklusterin tyyppi.

Kartan pienentäminen

Jos valitset tyypiksi Kartan vähentäminen, aktiviteetti käynnistää Kartan pienentäminen -ohjelman. Voit halutessasi määrittää Jar-yhteydessä viitteenä tallennustiliin, joka sisältää Kartan pienennä -tyypin. HDI-klusterin välilehdessä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Luokan nimi ja Tiedostopolku , jotka suoritetaan Azure HDInsightissa. Vaihtoehtoisesti voit määrittää enemmän määritystietoja, kuten Jar-kirjastojen tuomisen, vianmäärityksen tiedot, argumentit ja parametrit Lisäasetukset-osassa.

Näyttökuva, jossa näkyy Map Reduce -vaihtoehto HDInsight-klusterityypin osalta.

Sika

Jos valitset tyypiksi Sika, aktiviteetti käynnistää Sika-kyselyn. Voit halutessasi määrittää Script-yhteysasetuksen, joka viittaa sikatyyppiä sisältävään tallennustiliin. HDI-klusterin välilehdellä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Tiedostopolku , joka suoritetaan Azure HDInsightissa. Vaihtoehtoisesti voit määrittää enemmän määrityksiä, kuten virheenkorjaustiedot, argumentit, parametrit ja muuttujat Lisäasetukset-osassa.

Näyttökuva, jossa näkyy Pig-tyypin valinta HDInsight-klusterille.

Spark

Jos valitset tyypiksi Spark, aktiviteetti käynnistää Spark-ohjelman. Valitse Spark-tyypiksi joko Komentosarja tai Jar. Voit halutessasi määrittää työyhteyden , joka viittaa Spark-tyypin sisältävään tallennustiliin. HDI-klusterin välilehdessä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Tiedostopolku , joka suoritetaan Azure HDInsightissa. Vaihtoehtoisesti voit määrittää enemmän määrityksiä, kuten luokan nimen, välityspalvelimen käyttäjän, virheenkorjauksen tiedot, argumentit ja spark-määritykset Lisäasetukset-osassa.

Näyttökuva, jossa näkyy HDInsight-klusterin Spark-tyypin valinta.

Suoratoisto

Jos valitset tyypiksi Virtautus, aktiviteetti käynnistää suoratoisto-ohjelman. Määritä Mapper- ja Reducer-nimet, ja voit halutessasi määrittää tiedostoyhteyden, joka viittaa striimaustyypin sisältävään tallennustiliin. HDI-klusterin välilehdellä määritettyä tallennusyhteyttä käytetään oletusarvoisesti. Sinun on määritettävä Mapperin tiedostopolku ja Reducer-tiedoston polku, joka suoritetaan Azure HDInsightissa. Sisällytä syöte- ja tulosteasetukset myös WASB-polulle. Vaihtoehtoisesti voit määrittää enemmän määrityksiä, kuten virheenkorjaustiedot, argumentit ja parametrit Lisäasetukset-osassa.

Näyttökuva, jossa näkyy HDInsight-klusterin Streaming-tyypin valinta.

Ominaisuusviittaus

Ominaisuus Kuvaus Pakollinen
tyyppi Hadoop-suoratoistotoiminnan toimintatyyppi on HDInsightStreaming Kyllä
kartoittaja Määrittää suoritettavan mapper-tiedoston nimen Kyllä
pelkistin Määrittää pienentäjän suoritettavan tiedoston nimen. Kyllä
yhdistämistoiminto Määrittää yhdistettävän suoritettavan tiedoston nimen En
tiedostoyhteys Viittaus Azure-tallennus Linked Serviceen, jota käytetään Mapper-, Combiner- ja Reducer-ohjelmien suorittamiseen. En
Vain Azure Blob -säilöä ja ADLS Gen2 -yhteyksiä tuetaan tässä. Jos et määritä tätä yhteyttä, käytetään HDInsight-yhteydellä määritettyä tallennusyhteyttä.
filePath Anna Mapper-, Combiner- ja Reducer-ohjelmiin matriisi, joka on tallennettu Azure-tallennus, johon tiedostoyhteys viittaa. Kyllä
input Määrittää Mapperin syötetiedoston WASB-polun. Kyllä
output Määrittää Pienentäjä-kohteen tulostiedoston WASB-polun. Kyllä
getDebugInfo Määrittää, milloin lokitiedostot kopioidaan HDInsight-klusterin käyttämään Azure-tallennus (tai), jotka on määrittänyt scriptLinkedService. En
Sallitut arvot: Ei mitään, Aina tai Epäonnistuminen. Oletusarvo: Ei mitään.
Argumentit Määrittää Hadoop-työn argumenttimatriisin. Argumentit välitetään komentoriviargumentteina kuhunkin tehtävään. En
Määrittää Määritä parametrit avain/arvo-pareina hive-komentosarjassa viittaamista varten. En

Putken tallentaminen ja suorittaminen tai ajoittaminen

Kun olet määrittänyt putkelle tarvittavat muut toiminnot, siirry putkieditorin yläreunassa olevaan Aloitus-välilehteen ja tallenna putki valitsemalla Tallenna-painike. Valitse Suorita , jos haluat suorittaa sen suoraan, tai Ajoita se. Voit myös tarkastella suoritushistoriaa täällä tai määrittää muita asetuksia.

Näyttökuva, jossa näkyy putkieditorin Aloitus-välilehti ja jossa näkyvät Tallenna-, Suorita- ja Aikataulu-painikkeet.

Putken suoritusten valvonta