Freigeben über


Exportieren nach Hive-Abfrage

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

In diesem Artikel wird beschrieben, wie Sie die Option Daten nach Hive exportieren im Modul Daten exportieren in Machine Learning Studio (klassisch) verwenden. Diese Option ist nützlich, wenn Sie mit sehr großen Datasets arbeiten und Ihre Machine Learning-Experimentdaten in einem Hadoop-Cluster oder in einem verteilten HDInsight-Speicher speichern möchten. Möglicherweise möchten Sie auch Zwischenergebnisse oder andere Daten nach Hadoop exportieren, damit Sie sie mithilfe eines MapReduce verarbeiten können.

Exportieren von Daten in Hive

  1. Fügen Sie Ihrem Experiment das Modul Export Data hinzu. Sie finden dieses Modul in der Kategorie Dateneingabe und -ausgabe in Machine Learning Studio (klassisch).

    Verbinden Sie das Modul in das Dataset ein, das Sie exportieren möchten.

  2. Wählen Sie für Datenquelle die Option Hive-Abfrage aus.

  3. Geben Sie für Hive-Tabellenname den Namen der Hive-Tabelle ein, in der das Dataset gespeichert werden soll.

  4. Geben Sie im Textfeld HCatalog server URI (HCatalog-Server-URI ) den vollqualifizierten Namen Ihres Clusters ein.

    Wenn Sie beispielsweise einen Cluster mit dem Namen erstellt haben mycluster001, verwenden Sie dieses Format:

    https://mycluster001.azurehdinsight.net

  5. Fügen Sie in das Textfeld Name des Hadoop-Benutzerkontos das Hadoop-Benutzerkonto ein, das Sie beim Bereitstellen des Clusters verwendet haben.

  6. Geben Sie im Textfeld Kennwort des Hadoop-Benutzerkontos die Anmeldeinformationen ein, die Sie beim Bereitstellen des Clusters verwendet haben.

  7. Wählen Sie unter Speicherort der Ausgabedaten die Option aus, die angibt, wo die Daten gespeichert werden sollen: HDFS oder Azure.

    Wenn sich die Daten im Hadoop Distributed File System (HDFS) befindet, muss über dasselbe Konto und Kennwort, das Sie gerade eingegeben haben, darauf zugegriffen werden können.

    Wenn sich die Daten in Azure befinden, geben Sie den Speicherort und die Anmeldeinformationen des Speicherkontos an.

  8. Wenn Sie die OPTION HDFS ausgewählt haben, geben Sie für DEN HDFS-Server-URI den HDInsight-Clusternamen ohne Präfix https:// an.

  9. Wenn Sie die Option Azure ausgewählt haben, geben Sie den Speicherkontonamen und die Anmeldeinformationen an, die das Modul zum Herstellen einer Verbindung mit dem Speicher verwenden kann.

    • Name des Azure-Speicherkontos: Geben Sie den Namen des Azure-Kontos ein. Wenn die vollständige URL des Speicherkontos z.B. https://myshared.blob.core.windows.net lautet, geben Sie myshared ein.

    • Azure-Speicherschlüssel: Kopieren Sie den Schlüssel, der für den Zugriff auf das Speicherkonto bereitgestellt wird, und fügen Sie ihn ein.

    • Azure-Containername: Geben Sie den Standardcontainer für den Cluster an. Tipps zum Herausfinden des Standardcontainers finden Sie im Abschnitt Technische Hinweise .

  10. Zwischengespeicherte Ergebnisse verwenden: Wählen Sie diese Option aus, wenn Sie vermeiden möchten, die Hive-Tabelle jedes Mal neu zu schreiben, wenn Sie das Experiment ausführen. Wenn keine weiteren Änderungen an Modulparametern vorgenommen werden, schreibt das Experiment die Hive-Tabelle nur bei der ersten Ausführung des Moduls oder bei Änderungen an den Daten.

    Wenn Sie die Hive-Tabelle bei jeder Ausführung des Experiments schreiben möchten, deaktivieren Sie die Option Zwischengespeicherte Ergebnisse verwenden .

  11. Führen Sie das Experiment aus.

Beispiele

Beispiele für die Verwendung des Moduls "Export Data " finden Sie im Azure KI-Katalog.

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Häufig gestellte Fragen

Vermeiden von Problemen mit nicht genügend Arbeitsspeicher beim Schreiben großer Datasets

Manchmal ist die Standardkonfiguration des Hadoop-Clusters zu eingeschränkt, um die Ausführung des MapReduce unterstützen. In diesen Versionshinweisen für HDInsight werden die Standardeinstellungen beispielsweise als Cluster mit vier Knoten definiert.

Wenn die Anforderungen des MapReduce-Auftrags die verfügbare Kapazität überschreiten, geben die Hive-Abfragen möglicherweise eine Fehlermeldung vom Datentyp "Nicht genügend Arbeitsspeicher" zurück, was dazu führt, dass der Vorgang "Daten exportieren" fehlschlägt. In diesem Fall können Sie die Standardspeicherbelegung für Hive-Abfragen ändern.

Vermeiden des unnötigen erneuten Ladens derselben Daten

Wenn Sie die Hive-Tabelle nicht jedes Mal neu erstellen möchten, wenn Sie das Experiment ausführen, wählen Sie die Option Zwischengespeicherte Ergebnisse verwenden auf TRUE aus. Wenn diese Option auf TRUE festgelegt ist, überprüft das Modul, ob das Experiment zuvor ausgeführt wurde, und wenn eine vorherige Ausführung gefunden wird, wird der Schreibvorgang nicht ausgeführt.

Verwendungstipps

Es kann schwierig sein, den Standardcontainer für den Cluster zu finden. Hier einige Tipps:

  • Wenn Sie Ihren Cluster mithilfe der Standardeinstellungen erstellt haben, wurde zur gleichen Zeit, als der Cluster erstellt wurde, ein Container mit demselben Namen erstellt. Dieser Container ist der Standardcontainer für den Cluster.

  • Wenn Sie den Cluster mit der Option CUSTOM CREATE erstellt haben, haben Sie zwei Optionen zum Auswählen des Standardcontainers erhalten.

    Vorhandener Container: Wenn Sie einen vorhandenen Container ausgewählt haben, ist dieser Container der Standardspeichercontainer für den Cluster.

    Standardcontainer erstellen: Wenn Sie diese Option ausgewählt haben, wurde ein Container mit dem gleichen Namen wie der Cluster erstellt, und Sie sollten diesen Containernamen als Standardcontainer für den Cluster angeben.

Modulparameter

Name Range type Standard Beschreibung
Datenquellen- Liste Datenquelle oder Senke Azure Blob Storage Die Datenquelle kann HTTP, FTP, anonymes HTTPS oder FTPS, eine Datei im Azure-BLOB-Speicher, eine Azure-Tabelle, eine Azure SQL-Datenbank, eine Hive-Tabelle oder ein OData-Endpunkt sein.
Name der Hive-Tabelle any String Keine Name der Tabelle in Hive
HCatalog server URI any Zeichenfolge Keine Templeton-Endpunkt
Hadoop user account name any String Keine Hadoop HDFS/HDInsight-Benutzername
Hadoop-Benutzerkontokennwort any SecureString Keine Hadoop HDFS/HDInsight-Kennwort
Location of output data any DataLocation HDFS Angeben von HDFS oder Azure für outputDir
HDFS-Server-URI any Zeichenfolge Keine HDFS-Restendpunkt
Azure-Speicherkontoname any Zeichenfolge Keine Azure-Speicherkontoname
Azure-Speicherschlüssel any SecureString Keine Azure-Speicherschlüssel
Azure container name any Zeichenfolge Keine Azure container name
Zwischengespeicherte Ergebnisse verwenden TRUE/FALSE Boolean FALSE Das Modul wird nur ausgeführt, wenn kein gültiger Cache vorhanden ist. verwenden andernfalls zwischengespeicherte Daten aus der vorherigen Ausführung.

Ausnahmen

Ausnahme Beschreibung
Fehler 0027 Eine Ausnahme tritt auf, wenn zwei Objekte gleich groß sein müssen, dies aber nicht der Fall ist.
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0029 Eine Ausnahme tritt auf, wenn ein ungültiger URI übergeben wird.
Fehler 0030 Eine Ausnahme tritt auf, wenn es nicht möglich ist, eine Datei herunterzuladen.
Fehler 0002 Eine Ausnahme tritt auf, wenn mindestens ein Parameter nicht analysiert oder nicht aus einem angegebenen Typ in den für die Zielmethode erforderlichen Typ konvertiert werden konnte.
Fehler 0009 Eine Ausnahme tritt auf, wenn der Azure-Speicherkontoname oder der Containername falsch angegeben ist.
Fehler 0048 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu öffnen.
Fehler 0046 Eine Ausnahme tritt auf, wenn es nicht möglich ist, ein Verzeichnis im angegebenen Pfad zu erstellen.
Fehler 0049 Eine Ausnahme tritt auf, wenn es nicht möglich, eine Datei zu analysieren.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Daten importieren
Daten exportieren
Exportieren nach Azure SQL-Datenbank
Exportieren in Azure Blob Storage
Exportieren nach Azure Table