Środowiska obliczeniowe obsługiwane przez potoki usługi Azure Data Factory i Synapse
DOTYCZY: Azure Data Factory Azure Synapse Analytics
Napiwek
Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !
Ważne
Obsługa usługi Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.
Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów usługi Machine Learning Studio (klasycznego) (obszaru roboczego i planu usługi internetowej). Do 31 sierpnia 2024 r. możesz nadal korzystać z istniejących eksperymentów i usług internetowych usługi Machine Learning Studio (klasycznych). Aby uzyskać więcej informacji, zobacz:
- Migrowanie do usługi Azure Machine Learning z usługi Machine Learning Studio (wersja klasyczna)
- Co to jest Azure Machine Learning?
Dokumentacja usługi Machine Learning Studio (klasyczna) jest wycofywana i może nie zostać zaktualizowana w przyszłości.
W tym artykule opisano różne środowiska obliczeniowe, których można użyć do przetwarzania lub przekształcania danych. Zawiera również szczegółowe informacje o różnych konfiguracjach (na żądanie a korzystanie z własnych) obsługiwanych podczas konfigurowania połączonych usług łączących te środowiska obliczeniowe.
Poniższa tabela zawiera listę obsługiwanych środowisk obliczeniowych i działań, które można na nich uruchomić.
Środowisko obliczeniowe usługi HDInsight
Zapoznaj się z poniższą tabelą, aby uzyskać szczegółowe informacje na temat obsługiwanych typów połączonych usług magazynu na potrzeby konfiguracji w środowisku na żądanie i byOC (Bring your own compute).
W połączonej usłudze obliczeniowej | Nazwa właściwości | Opis | Obiekt blob | ADLS Gen2 | Azure SQL DB | Usługa ADLS Gen 1 |
---|---|---|---|---|---|---|
Na żądanie | linkedServiceName | Połączona usługa Azure Storage używana przez klaster na żądanie do przechowywania i przetwarzania danych. | Tak | Tak | Nie. | Nie. |
additionalLinkedServiceNames | Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu. | Tak | Nie. | Nie. | Nie. | |
hcatalogLinkedServiceName | Nazwa połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Klaster usługi HDInsight na żądanie jest tworzony przy użyciu bazy danych Azure SQL Database jako magazynu metadanych. | Nie | Nie. | Tak | Nie. | |
BYOC | linkedServiceName | Dokumentacja połączonej usługi Azure Storage. | Tak | Tak | Nie. | Nie. |
additionalLinkedServiceNames | Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu. | Nie | Nie. | Nie. | Nie. | |
hcatalogLinkedServiceName | Odwołanie do połączonej usługi Azure SQL wskazującej bazę danych HCatalog. | Nie | Nie. | Nie. | Nie. |
Połączona usługa Azure HDInsight na żądanie
W tej konfiguracji środowisko obliczeniowe jest w pełni zarządzane przez usługę. Jest on tworzony automatycznie przez usługę, zanim zadanie zostanie przesłane do przetwarzania danych i usunięte po zakończeniu zadania. Możesz utworzyć połączoną usługę dla środowiska obliczeniowego na żądanie, skonfigurować ją i kontrolować szczegółowe ustawienia wykonywania zadań, zarządzania klastrem i akcji uruchamiania.
Uwaga
Konfiguracja na żądanie jest obecnie obsługiwana tylko w przypadku klastrów usługi Azure HDInsight. Usługa Azure Databricks obsługuje również zadania na żądanie przy użyciu klastrów zadań. Aby uzyskać więcej informacji, zobacz połączoną usługę Azure Databricks.
Usługa może automatycznie utworzyć klaster usługi HDInsight na żądanie w celu przetwarzania danych. Klaster jest tworzony w tym samym regionie co konto magazynu (właściwość linkedServiceName w formacie JSON) skojarzonym z klastrem. Konto magazynu to standardowe konto must
usługi Azure Storage ogólnego przeznaczenia.
Zwróć uwagę na następujące ważne kwestie dotyczące połączonej usługi HDInsight na żądanie:
- Klaster usługi HDInsight na żądanie jest tworzony w ramach subskrypcji platformy Azure. Klaster jest widoczny w witrynie Azure Portal, gdy klaster jest uruchomiony.
- Dzienniki zadań uruchamianych w klastrze usługi HDInsight na żądanie są kopiowane do konta magazynu skojarzonego z klastrem usługi HDInsight. KlasterUserName, clusterPassword, clusterSshUserName, clusterSshPassword zdefiniowany w połączonej definicji usługi służy do logowania się do klastra w celu szczegółowego rozwiązywania problemów w cyklu życia klastra.
- Opłaty są naliczane tylko za czas uruchamiania i uruchamiania klastra usługi HDInsight.
- Możesz użyć akcji skryptu z połączoną usługą Azure HDInsight na żądanie.
Ważne
Aprowizowania klastra usługi Azure HDInsight na żądanie zwykle trwa co najmniej 20 minut .
Przykład
Poniższy kod JSON definiuje połączoną usługę HDInsight opartą na systemie Linux. Usługa automatycznie tworzy klaster usługi HDInsight oparty na systemie Linux w celu przetworzenia wymaganego działania.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Ważne
Klaster usługi HDInsight tworzy kontener domyślny w magazynie obiektów blob określonym w kodzie JSON (linkedServiceName). Usługa HDInsight nie powoduje usunięcia tego kontenera w przypadku usunięcia klastra. Wynika to z ustawienia fabrycznego. W przypadku połączonej usługi HDInsight na żądanie klaster usługi HDInsight jest tworzony za każdym razem, gdy trzeba przetworzyć wycinek — o ile w tym momencie nie istnieje aktywny klaster (timeToLive) — i zostaje usunięty po zakończeniu przetwarzania.
W miarę uruchamiania większej liczby działań w usłudze Azure Blob Storage jest wyświetlanych wiele kontenerów. Jeśli nie potrzebujesz ich do rozwiązywania problemów z zadaniami, możesz je usunąć, aby zmniejszyć koszt magazynowania. Nazwy tych kontenerów są zgodne z następującym wzorcem: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp
. Użyj narzędzi, takich jak Eksplorator usługi Microsoft Azure Storage, aby usunąć kontenery w usłudze Azure Blob Storage.
Właściwości
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość type powinna być ustawiona na wartość HDInsightOnDemand. | Tak |
clusterSize | Liczba węzłów procesu roboczego/danych w klastrze. Klaster usługi HDInsight jest tworzony z 2 węzłami głównymi wraz z liczbą węzłów roboczych, które określisz dla tej właściwości. Węzły mają rozmiar Standard_D3, który ma 4 rdzenie, więc klaster 4 węzłów roboczych przyjmuje 24 rdzenie (4*4 = 16 rdzeni dla węzłów roboczych, plus 2*4 = 8 rdzeni dla węzłów głównych). Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Hadoop, Spark, Kafka i innych . | Tak |
linkedServiceName | Połączona usługa Azure Storage używana przez klaster na żądanie do przechowywania i przetwarzania danych. Klaster usługi HDInsight jest tworzony w tym samym regionie co to konto usługi Azure Storage. Usługa Azure HDInsight ma ograniczenia całkowitej liczby rdzeni, których możesz użyć w każdym obsługiwanym przez nią regionie platformy Azure. Upewnij się, że masz wystarczające limity przydziału rdzeni w tym regionie świadczenia usługi Azure, aby spełnić wymagany rozmiar klastra. Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Hadoop, Spark, Kafka i nie tylko Obecnie nie można utworzyć klastra usługi HDInsight na żądanie, który używa usługi Azure Data Lake Storage (Gen 2) jako magazynu. Jeśli chcesz przechowywać dane wynikowe z przetwarzania usługi HDInsight w usłudze Azure Data Lake Storage (Gen 2), użyj działania kopiowania, aby skopiować dane z usługi Azure Blob Storage do usługi Azure Data Lake Storage (Gen 2). |
Tak |
clusterResourceGroup | Klaster usługi HDInsight jest tworzony w tej grupie zasobów. | Tak |
timetolive | Dozwolony czas bezczynności klastra usługi HDInsight na żądanie. Określa, jak długo klaster usługi HDInsight na żądanie pozostaje aktywny po zakończeniu działania, jeśli w klastrze nie ma żadnych innych aktywnych zadań. Minimalna dozwolona wartość to 5 minut (00:05:00). Jeśli na przykład uruchomienie działania trwa 6 minut, a wartość timetolive jest ustawiona na 5 minut, klaster pozostaje aktywny przez 5 minut po 6 minutach przetwarzania działania. Jeśli zostanie wykonane inne uruchomienie działania z 6-minutowym oknem, jest ono przetwarzane przez ten sam klaster. Tworzenie klastra usługi HDInsight na żądanie jest kosztowną operacją (może chwilę potrwać), dlatego użyj tego ustawienia w razie potrzeby, aby zwiększyć wydajność usługi przez ponowne użycie klastra usługi HDInsight na żądanie. Jeśli ustawisz wartość timetolive na 0, klaster zostanie usunięty natychmiast po zakończeniu działania. Podczas ustawiania wysokiej wartości klaster może pozostać bezczynny, aby zalogować się w celu rozwiązywania problemów, ale może to spowodować wysokie koszty. Dlatego ważne jest, aby ustawić odpowiednią wartość na podstawie Twoich potrzeb. Jeśli wartość właściwości timetolive jest odpowiednio ustawiona, wiele potoków może współużytkować wystąpienie klastra usługi HDInsight na żądanie. |
Tak |
clusterType | Typ klastra usługi HDInsight do utworzenia. Dozwolone wartości to "hadoop" i "spark". Jeśli nie zostanie określony, wartość domyślna to hadoop. Nie można utworzyć klastra z obsługą pakietu Enterprise Security na żądanie, zamiast tego użyj istniejącego klastra/ użyj własnego środowiska obliczeniowego. | Nie. |
version | Wersja klastra usługi HDInsight. Jeśli nie zostanie określony, używa bieżącej wersji domyślnej zdefiniowanej w usłudze HDInsight. | Nie. |
hostSubscriptionId | Identyfikator subskrypcji platformy Azure używany do tworzenia klastra usługi HDInsight. Jeśli nie zostanie określony, używa identyfikatora subskrypcji kontekstu logowania platformy Azure. | Nie. |
clusterNamePrefix | Prefiks nazwy klastra USŁUGI HDI, znacznik czasu automatycznie dołącza na końcu nazwy klastra | Nie. |
sparkVersion | Wersja platformy Spark, jeśli typ klastra to "Spark" | Nie. |
additionalLinkedServiceNames | Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu. Te konta magazynu muszą znajdować się w tym samym regionie co klaster usługi HDInsight, który jest tworzony w tym samym regionie co konto magazynu określone przez linkedServiceName. | Nie. |
osType | Typ systemu operacyjnego. Dozwolone wartości to: Linux i Windows (tylko dla usługi HDInsight 3.3). Wartość domyślna to Linux. | Nie. |
hcatalogLinkedServiceName | Nazwa połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Klaster usługi HDInsight na żądanie jest tworzony przy użyciu usługi Azure SQL Database jako magazynu metadanych. | Nie. |
connectVia | Środowisko Integration Runtime do wysłania działań do tej połączonej usługi HDInsight. W przypadku połączonej usługi HDInsight na żądanie obsługuje tylko środowisko Azure Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. | Nie. |
clusterUserName | Nazwa użytkownika, aby uzyskać dostęp do klastra. | Nie. |
clusterPassword | Hasło w typie bezpiecznego ciągu w celu uzyskania dostępu do klastra. | Nie. |
clusterSshUserName | Nazwa użytkownika do protokołu SSH zdalnie łączy się z węzłem klastra (dla systemu Linux). | Nie. |
clusterSshPassword | Hasło w typie bezpiecznego ciągu do zdalnego łączenia węzła klastra SSH (dla systemu Linux). | Nie. |
scriptActions | Określ skrypt dostosowywania klastra usługi HDInsight podczas tworzenia klastra na żądanie. Obecnie narzędzie do tworzenia interfejsu użytkownika obsługuje określanie tylko 1 akcji skryptu, ale można przejść przez to ograniczenie w formacie JSON (określ wiele akcji skryptu w formacie JSON). |
Nie. |
Ważne
Usługa HDInsight obsługuje wiele wersji klastra Hadoop, które można wdrożyć. Każdy wybór wersji tworzy określoną wersję dystrybucji Hortonworks Data Platform (HDP) i zestaw składników zawartych w tej dystrybucji. Lista obsługiwanych wersji usługi HDInsight jest aktualizowana w celu udostępnienia najnowszych składników i poprawek ekosystemu usługi Hadoop. Upewnij się, że zawsze odwołujesz się do najnowszych informacji o obsługiwanej wersji usługi HDInsight i typie systemu operacyjnego, aby upewnić się, że używasz obsługiwanej wersji usługi HDInsight.
Ważne
Obecnie połączone usługi HDInsight nie obsługują technologii HBase, Interactive Query (Hive LLAP), Storm.
- przykład pliku JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Uwierzytelnianie nazwy głównej usługi
Połączona usługa HDInsight na żądanie wymaga uwierzytelniania jednostki usługi w celu utworzenia klastrów usługi HDInsight w Twoim imieniu. Aby użyć uwierzytelniania jednostki usługi, zarejestruj jednostkę aplikacji w usłudze Microsoft Entra ID i przyznaj jej rolę Współautor subskrypcji lub grupy zasobów, w której jest tworzony klaster usługi HDInsight. Aby uzyskać szczegółowe instrukcje, zobacz Tworzenie aplikacji i jednostki usługi Microsoft Entra przy użyciu portalu, które mogą uzyskiwać dostęp do zasobów. Zanotuj następujące wartości, których użyjesz do zdefiniowania połączonej usługi:
- Application ID
- Klucz aplikacji
- Identyfikator dzierżawy
Użyj uwierzytelniania jednostki usługi, określając następujące właściwości:
Właściwości | Opis | Wymagania |
---|---|---|
servicePrincipalId | Określ identyfikator klienta aplikacji. | Tak |
servicePrincipalKey | Określ klucz aplikacji. | Tak |
tenant | Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. | Tak |
Właściwości zaawansowane
Można również określić następujące właściwości dla szczegółowej konfiguracji klastra usługi HDInsight na żądanie.
Właściwości | Opis | Wymagania |
---|---|---|
coreConfiguration | Określa podstawowe parametry konfiguracji (jak w core-site.xml) dla klastra usługi HDInsight do utworzenia. | Nie. |
hBaseConfiguration | Określa parametry konfiguracji bazy danych HBase (hbase-site.xml) dla klastra usługi HDInsight. | Nie. |
hdfsConfiguration | Określa parametry konfiguracji systemu plików HDFS (hdfs-site.xml) dla klastra usługi HDInsight. | Nie. |
hiveConfiguration | Określa parametry konfiguracji hive (hive-site.xml) dla klastra usługi HDInsight. | Nie. |
mapReduceConfiguration | Określa parametry konfiguracji MapReduce (mapred-site.xml) dla klastra usługi HDInsight. | Nie. |
oozieConfiguration | Określa parametry konfiguracji Oozie (oozie-site.xml) dla klastra usługi HDInsight. | Nie. |
stormConfiguration | Określa parametry konfiguracji systemu Storm (storm-site.xml) dla klastra usługi HDInsight. | Nie. |
yarnConfiguration | Określa parametry konfiguracji usługi Yarn (yarn-site.xml) dla klastra usługi HDInsight. | Nie. |
- Przykład — konfiguracja klastra usługi HDInsight na żądanie z zaawansowanymi właściwościami
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Rozmiary węzłów
Rozmiary węzłów głównych, danych i węzłów dozorcy można określić przy użyciu następujących właściwości:
Właściwości | Opis | Wymagania |
---|---|---|
headNodeSize | Określa rozmiar węzła głównego. Wartość domyślna to: Standard_D3. Aby uzyskać szczegółowe informacje, zobacz sekcję Określanie rozmiarów węzłów . | Nie. |
dataNodeSize | Określa rozmiar węzła danych. Wartość domyślna to: Standard_D3. | Nie. |
zookeeperNodeSize | Określa rozmiar węzła usługi Zoo Keeper. Wartość domyślna to: Standard_D3. | Nie. |
- Określanie rozmiarów węzłów Zobacz artykuł Rozmiary maszyn wirtualnych dla wartości ciągów, które należy określić dla właściwości wymienionych w poprzedniej sekcji. Wartości muszą być zgodne z kluczami CMDLETs i APIS , do których odwołuje się artykuł. Jak widać w artykule, węzeł danych o dużym rozmiarze (domyślnym) ma 7 GB pamięci, co może nie być wystarczająco dobre dla danego scenariusza.
Jeśli chcesz utworzyć węzły główne o rozmiarze D4 i węzły robocze, określ Standard_D4 jako wartość właściwości headNodeSize i dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Jeśli określisz nieprawidłową wartość tych właściwości, może zostać wyświetlony następujący błąd: Nie można utworzyć klastra. Wyjątek: nie można ukończyć operacji tworzenia klastra. Operacja zakończona niepowodzeniem z kodem „400”. Końcowy stan klastra: „Błąd”. Komunikat: "PreClusterCreationValidationFailure". Po wystąpieniu tego błędu upewnij się, że używasz nazwy poleceń CMDLET i interfejsów API z tabeli w artykule Rozmiary maszyn wirtualnych.
Korzystanie z własnego środowiska obliczeniowego
W tej konfiguracji użytkownicy mogą zarejestrować już istniejące środowisko obliczeniowe jako połączoną usługę. Środowisko obliczeniowe jest zarządzane przez użytkownika, a usługa używa go do wykonywania działań.
Ten typ konfiguracji jest obsługiwany w następujących środowiskach obliczeniowych:
- Azure HDInsight
- Usługa Azure Batch
- Azure Machine Learning
- Azure Data Lake Analytics
- Azure SQL DB, Azure Synapse Analytics, SQL Server
Połączona usługa Azure HDInsight
Możesz utworzyć połączoną usługę Azure HDInsight, aby zarejestrować własny klaster usługi HDInsight za pomocą fabryki danych lub obszaru roboczego usługi Synapse.
Przykład
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Właściwości
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość type powinna być ustawiona na wartość HDInsight. | Tak |
clusterUri | Identyfikator URI klastra usługi HDInsight. | Tak |
nazwa użytkownika | Określ nazwę użytkownika, który ma zostać użyty do nawiązania połączenia z istniejącym klastrem usługi HDInsight. | Tak |
hasło | Określ hasło dla konta użytkownika. | Tak |
linkedServiceName | Nazwa połączonej usługi Azure Storage odwołującej się do magazynu obiektów blob platformy Azure używanego przez klaster usługi HDInsight. Obecnie nie można określić połączonej usługi Azure Data Lake Storage (Gen 2) dla tej właściwości. Jeśli klaster usługi HDInsight ma dostęp do usługi Data Lake Store, możesz uzyskać dostęp do danych w usłudze Azure Data Lake Storage (Gen 2) za pomocą skryptów Hive/Pig. |
Tak |
isEspEnabled | Określ wartość "true", jeśli klaster usługi HDInsight ma włączony pakiet Enterprise Security. Wartość domyślna to "false". | Nie. |
connectVia | Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. W przypadku klastra usługi HDInsight z obsługą pakietu Enterprise Security (ESP) należy użyć własnego środowiska Integration Runtime, które ma widok do klastra lub powinno zostać wdrożone w tej samej sieci wirtualnej co klaster ESP HDInsight. |
Nie. |
Ważne
Usługa HDInsight obsługuje wiele wersji klastra Hadoop, które można wdrożyć. Każdy wybór wersji tworzy określoną wersję dystrybucji Hortonworks Data Platform (HDP) i zestaw składników zawartych w tej dystrybucji. Lista obsługiwanych wersji usługi HDInsight jest aktualizowana w celu udostępnienia najnowszych składników i poprawek ekosystemu usługi Hadoop. Upewnij się, że zawsze odwołujesz się do najnowszych informacji o obsługiwanej wersji usługi HDInsight i typie systemu operacyjnego, aby upewnić się, że używasz obsługiwanej wersji usługi HDInsight.
Ważne
Obecnie połączone usługi HDInsight nie obsługują technologii HBase, Interactive Query (Hive LLAP), Storm.
Połączona usługa Azure Batch
Uwaga
Do interakcji z platformą Azure zalecamy używanie modułu Azure Az w programie PowerShell. Zobacz Instalowanie programu Azure PowerShell, aby rozpocząć. Aby dowiedzieć się, jak przeprowadzić migrację do modułu Az PowerShell, zobacz Migracja programu Azure PowerShell z modułu AzureRM do modułu Az.
Możesz utworzyć połączoną usługę Azure Batch, aby zarejestrować pulę maszyn wirtualnych usługi Batch w danych lub obszarze roboczym usługi Synapse. Działanie niestandardowe można uruchomić przy użyciu usługi Azure Batch.
Jeśli dopiero zaczynasz korzystać z usługi Azure Batch, zobacz następujące artykuły:
- Podstawy usługi Azure Batch dotyczące przeglądu usługi Azure Batch.
- Polecenie cmdlet New-AzBatchAccount w celu utworzenia konta usługi Azure Batch (lub) witryny Azure Portal w celu utworzenia konta usługi Azure Batch przy użyciu witryny Azure Portal. Aby uzyskać szczegółowe instrukcje dotyczące korzystania z polecenia cmdlet, zobacz artykuł Using PowerShell to manage Azure Batch Account (Zarządzanie kontem usługi Azure Batch przy użyciu programu PowerShell).
- Polecenie cmdlet New-AzBatchPool w celu utworzenia puli usługi Azure Batch.
Ważne
Podczas tworzenia nowej puli usługi Azure Batch należy użyć polecenia "VirtualMachineConfiguration" i NIE "CloudServiceConfiguration". Aby uzyskać więcej informacji, zobacz Wskazówki dotyczące migracji puli usługi Azure Batch.
Przykład
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Właściwości
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość type powinna być ustawiona na AzureBatch. | Tak |
accountName | Nazwa konta usługi Azure Batch. | Tak |
accessKey | Klucz dostępu dla konta usługi Azure Batch. | Tak |
batchUri | Adres URL konta usługi Azure Batch w formacie https:// batchaccountname.region.batch.azure.com. | Tak |
poolName | Nazwa puli maszyn wirtualnych. | Tak |
linkedServiceName | Nazwa połączonej usługi Azure Storage skojarzonej z tą połączoną usługą Azure Batch. Ta połączona usługa jest używana na potrzeby plików przejściowych wymaganych do uruchomienia działania. | Tak |
connectVia | Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. | Nie. |
Połączona usługa Machine Learning Studio (klasyczna)
Ważne
Obsługa usługi Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.
Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów usługi Machine Learning Studio (klasycznego) (obszaru roboczego i planu usługi internetowej). Do 31 sierpnia 2024 r. możesz nadal korzystać z istniejących eksperymentów i usług internetowych usługi Machine Learning Studio (klasycznych). Aby uzyskać więcej informacji, zobacz:
- Migrowanie do usługi Azure Machine Learning z usługi Machine Learning Studio (wersja klasyczna)
- Co to jest Azure Machine Learning?
Dokumentacja usługi Machine Learning Studio (klasyczna) jest wycofywana i może nie zostać zaktualizowana w przyszłości.
Utworzysz połączoną usługę Machine Learning Studio (klasyczną), aby zarejestrować punkt końcowy oceniania wsadowego usługi Machine Learning Studio (klasycznej) do fabryki danych lub obszaru roboczego usługi Synapse.
Przykład
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Właściwości
Właściwości | Opis | Wymagania |
---|---|---|
Typ | Właściwość type powinna być ustawiona na: AzureML. | Tak |
mlEndpoint | Adres URL oceniania wsadowego. | Tak |
apiKey | Interfejs API opublikowanego modelu obszaru roboczego. | Tak |
updateResourceEndpoint | Adres URL aktualizacji zasobu dla punktu końcowego usługi internetowej ML Studio (wersja klasyczna) służący do aktualizowania predykcyjnej usługi sieci Web przy użyciu wytrenowanego pliku modelu | Nie. |
servicePrincipalId | Określ identyfikator klienta aplikacji. | Wymagane, jeśli określono parametr updateResourceEndpoint |
servicePrincipalKey | Określ klucz aplikacji. | Wymagane, jeśli określono parametr updateResourceEndpoint |
tenant | Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. | Wymagane, jeśli określono parametr updateResourceEndpoint |
connectVia | Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. | Nie. |
Połączona usługa Azure Machine Learning
Utworzysz połączoną usługę Azure Machine Learning, aby połączyć obszar roboczy usługi Azure Machine Learning z fabryką danych lub obszarem roboczym usługi Synapse.
Uwaga
Obecnie tylko uwierzytelnianie jednostki usługi jest obsługiwane w przypadku połączonej usługi Azure Machine Learning.
Przykład
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Właściwości
Właściwości | Opis | Wymagania |
---|---|---|
Typ | Właściwość type powinna być ustawiona na: AzureMLService. | Tak |
subscriptionId | Identyfikator subskrypcji Azure | Tak |
resourceGroupName | name | Tak |
mlWorkspaceName | Nazwa obszaru roboczego usługi Azure Machine Learning | Tak |
servicePrincipalId | Określ identyfikator klienta aplikacji. | Tak |
servicePrincipalKey | Określ klucz aplikacji. | Tak |
tenant | Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. | Wymagane, jeśli określono parametr updateResourceEndpoint |
connectVia | Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. | Nie. |
Połączona usługa Azure Data Lake Analytics
Utworzysz połączoną usługę Azure Data Lake Analytics, aby połączyć usługę obliczeniową Azure Data Lake Analytics z fabryką danych lub obszarem roboczym usługi Synapse. Działanie U-SQL usługi Data Lake Analytics w potoku odwołuje się do tej połączonej usługi.
Przykład
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Właściwości
Właściwości | Opis | Wymagania |
---|---|---|
type | Właściwość typu powinna być ustawiona na: AzureDataLakeAnalytics. | Tak |
accountName | Nazwa konta usługi Azure Data Lake Analytics. | Tak |
dataLakeAnalyticsUri | Identyfikator URI usługi Azure Data Lake Analytics. | Nie. |
subscriptionId | Identyfikator subskrypcji Azure | Nie. |
resourceGroupName | Nazwa grupy zasobów platformy Azure | Nie. |
servicePrincipalId | Określ identyfikator klienta aplikacji. | Tak |
servicePrincipalKey | Określ klucz aplikacji. | Tak |
tenant | Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. | Tak |
connectVia | Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. | Nie. |
Połączona usługa Azure Databricks
Możesz utworzyć połączoną usługę Azure Databricks, aby zarejestrować obszar roboczy usługi Databricks używany do uruchamiania obciążeń usługi Databricks (notes, jar, python).
Ważne
Połączone usługi Databricks obsługują pule wystąpień i uwierzytelnianie tożsamości zarządzanej przypisanej przez system.
Przykład — używanie nowego klastra zadań w usłudze Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Przykład — używanie istniejącego klastra interaktywnego w usłudze Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Właściwości
Właściwości | Opis | Wymagania |
---|---|---|
name | Nazwa połączonej usługi | Tak |
type | Właściwość type powinna być ustawiona na: Azure Databricks. | Tak |
domena | Określ odpowiednio region świadczenia usługi Azure na podstawie regionu obszaru roboczego usługi Databricks. Przykład: https://eastus.azuredatabricks.net | Tak |
accessToken | Token dostępu jest wymagany, aby usługa uwierzytelniła się w usłudze Azure Databricks. Token dostępu należy wygenerować z obszaru roboczego usługi Databricks. Bardziej szczegółowe kroki znajdowania tokenu dostępu można znaleźć tutaj | Nie. |
MSI | Użyj tożsamości zarządzanej usługi (przypisanej przez system), aby uwierzytelnić się w usłudze Azure Databricks. Token dostępu nie jest potrzebny podczas korzystania z uwierzytelniania "MSI". Więcej szczegółów na temat uwierzytelniania tożsamości zarządzanej można znaleźć tutaj | Nie. |
existingClusterId | Identyfikator klastra istniejącego klastra do uruchamiania wszystkich zadań w tym celu. Powinien to być już utworzony klaster interaktywny. Jeśli klaster przestanie odpowiadać, może być konieczne ręczne ponowne uruchomienie klastra. Usługa Databricks sugeruje uruchamianie zadań w nowych klastrach w celu zwiększenia niezawodności. Identyfikator klastra interaktywnego klastra można znaleźć w obszarze roboczym usługi Databricks —> Klastry — nazwa klastra interakcyjnego —>> konfiguracja —> tagi. Więcej szczegółów | Nie. |
instancePoolId | Identyfikator puli wystąpień istniejącej puli w obszarze roboczym usługi Databricks. | Nie. |
newClusterVersion | Wersja platformy Spark klastra. Tworzy klaster zadań w usłudze databricks. | Nie. |
newClusterNumOfWorker | Liczba węzłów roboczych, które powinien mieć ten klaster. Klaster ma jeden sterownik Spark i funkcje wykonawcze num_workers dla łącznie num_workers i 1 węzłów platformy Spark. Ciąg sformatowany w formacie Int32, na przykład "1", oznacza, że wartość numOfWorker to 1 lub "1:10" oznacza automatyczne skalowanie z zakresu od 1 jako minuty i 10 jako maksimum. | Nie. |
newClusterNodeType | To pole koduje za pomocą jednej wartości zasoby dostępne dla każdego z węzłów platformy Spark w tym klastrze. Na przykład węzły platformy Spark można aprowizować i optymalizować pod kątem obciążeń intensywnie korzystających z pamięci lub obliczeń. To pole jest wymagane dla nowego klastra | Nie. |
newClusterSparkConf | zestaw opcjonalnych par klucz-wartość konfiguracji platformy Spark określonych przez użytkownika. Użytkownicy mogą również przekazać ciąg dodatkowych opcji JVM do sterownika i funkcji wykonawczych za pośrednictwem odpowiednio spark.driver.extraJavaOptions i spark.executor.extraJavaOptions. | Nie. |
newClusterInitScripts | zestaw opcjonalnych skryptów inicjowania zdefiniowanych przez użytkownika dla nowego klastra. Skrypty inicjowania można określić w plikach obszaru roboczego (zalecane) lub za pomocą ścieżki DBFS (starsza wersja). | Nie. |
Połączona usługa Azure SQL Database
Utworzysz połączoną usługę Azure SQL i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje o tej połączonej usłudze, zobacz artykuł Azure SQL Connector (Łącznik usługi Azure SQL).
Połączona usługa Azure Synapse Analytics
Utworzysz połączoną usługę Azure Synapse Analytics i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł Azure Synapse Analytics Connector (Łącznik usługi Azure Synapse Analytics).
Połączona usługa PROGRAMU SQL Server
Utworzysz połączoną usługę programu SQL Server i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł dotyczący łącznika programu SQL Server.
Połączona usługa Azure Synapse Analytics (Artifacts)
Utworzysz połączoną usługę Azure Synapse Analytics (Artifacts) i użyjesz jej z działaniem działania notesu usługi Synapse i definicji zadania platformy Synapse Spark.
Przykład
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntegrationRuntimeReference"
}
}
}
Właściwości
Właściwości | Opis | Wymagane |
---|---|---|
name | Nazwa połączonej usługi | Tak |
opis | opis połączonej usługi | Nie. |
Adnotacje | adnotacje połączonej usługi | Nie. |
type | Właściwość type powinna być ustawiona na AzureSynapseArtifacts | Tak |
endpoint | Adres URL usługi Azure Synapse Analytics | Tak |
uwierzytelnianie | Ustawieniem domyślnym jest tożsamość zarządzana przypisana przez system | Tak |
workspaceResourceId | identyfikator zasobu obszaru roboczego | Tak |
connectVia | Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Możesz użyć środowiska Azure Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Własne środowisko Integration Runtime nie jest obecnie obsługiwane. | Tak |
Połączona usługa funkcji platformy Azure
Utworzysz połączoną usługę funkcji platformy Azure i użyjesz jej z działaniem funkcji platformy Azure, aby uruchomić usługę Azure Functions w potoku. Zwracany typ funkcji platformy Azure musi być prawidłowym JObject
typem . (Pamiętaj, że JArray nie jest .JObject
) Każdy typ zwracany inny niż JObject
niepowodzenie i zgłasza błąd użytkownika Zawartość odpowiedzi nie jest prawidłowym obiektem JObject.
Właściwości | Opis | Wymagane |
---|---|---|
type | Właściwość type musi być ustawiona na: AzureFunction | tak |
adres URL aplikacji funkcji | Adres URL aplikacji funkcji platformy Azure. Format to https://<accountname>.azurewebsites.net . Ten adres URL jest wartością w sekcji Adres URL podczas wyświetlania aplikacji funkcji w witrynie Azure Portal |
tak |
klucz funkcji | Klucz dostępu dla funkcji platformy Azure. Kliknij sekcję Zarządzanie odpowiednią funkcją i skopiuj klucz funkcji lub klucz hosta. Dowiedz się więcej tutaj: Praca z kluczami dostępu | tak |
Powiązana zawartość
Aby uzyskać listę obsługiwanych działań przekształcania, zobacz Przekształcanie danych.