Exportera till Hive-fråga
Viktigt
Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.
Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.
- Se information om hur du flyttar maskininlärningsprojekt från ML Studio (klassisk) till Azure Machine Learning.
- Läs mer om Azure Machine Learning.
Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.
Anteckning
Gäller endast för: Machine Learning Studio (klassisk)
Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.
Den här artikeln beskriver hur du använder alternativet Exportera data till Hive i modulen Exportera data i Machine Learning Studio (klassisk). Det här alternativet är användbart när du arbetar med mycket stora datauppsättningar och vill spara dina maskininlärningsexperimentdata till ett Hadoop-kluster eller en distribuerad HDInsight-lagring. Du kanske också vill exportera mellanliggande resultat eller andra data till Hadoop så att du kan bearbeta dem med hjälp av ett MapReduce-jobb.
Så här exporterar du data till Hive
Lägg till modulen Exportera data i experimentet. Du hittar den här modulen i kategorin Indata och utdata i Machine Learning Studio (klassisk).
Anslut modulen till den datauppsättning som du vill exportera.
För Datakälla väljer du Hive-fråga.
För Hive-tabellnamn anger du namnet på Hive-tabellen där datauppsättningen ska lagras.
I textrutan HCatalog-server-URI skriver du det fullständigt kvalificerade namnet på klustret.
Om du till exempel har skapat ett kluster med namnet använder
mycluster001
du det här formatet:https://mycluster001.azurehdinsight.net
I textrutan Namn på Hadoop-användarkonto klistrar du in det Hadoop-användarkonto som du använde när du etablerade klustret.
I textrutan Lösenord för Hadoop-användarkonto anger du de autentiseringsuppgifter som du använde när du etablerade klustret.
För Plats för utdata väljer du det alternativ som anger var data ska lagras: HDFS eller Azure.
Om data finns i HDFS (Hadoop Distributed File System) måste de vara tillgängliga via samma konto och lösenord som du nyss angav.
Om data finns i Azure anger du lagringskontots plats och autentiseringsuppgifter.
Om du valde alternativet HDFS anger du HDInsight-klusternamnet utan prefixet för HDFS-server-URI
https://
.Om du valde alternativet Azure anger du namnet på lagringskontot och de autentiseringsuppgifter som modulen kan använda för att ansluta till lagringen.
Namn på Azure-lagringskonto: Ange namnet på Azure-kontot. Om den fullständiga URL:en för lagringskontot till exempel är
https://myshared.blob.core.windows.net
skriver dumyshared
.Azure-lagringsnyckel: Kopiera och klistra in den nyckel som finns för åtkomst till lagringskontot.
Azure-containernamn: Ange standardcontainern för klustret. Tips om hur du tar reda på standardcontainern finns i avsnittet Tekniska anteckningar.
Använd cachelagrade resultat: Välj det här alternativet om du vill undvika att skriva om Hive-tabellen varje gång du kör experimentet. Om det inte finns några andra ändringar av modulparametrarna skriver experimentet Hive-tabellen bara första gången modulen körs, eller när det finns ändringar i data.
Om du vill skriva Hive-tabellen varje gång experimentet körs avmarkerar du alternativet Använd cachelagrade resultat.
Kör experimentet.
Exempel
Exempel på hur du använder modulen Exportera data finns i Azure AI Gallery.
- Avancerad analysprocess och teknik i praktiken: Använda HDInsight Hadoop-kluster: Den här artikeln innehåller en detaljerad genomgång av hur du skapar ett kluster, laddar upp data och anropar data från Studio (klassisk) med Hive.
Teknisk information
Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.
Vanliga frågor
Så här undviker du minnesproblem när du skriver stora datamängder
Ibland är standardkonfigurationen för Hadoop-klustret för begränsad för att stödja körning av MapReduce-jobbet. I dessa Release Notes for HDInsight definieras till exempel standardinställningarna som ett kluster med fyra noder.
Om kraven för MapReduce-jobbet överskrider den tillgängliga kapaciteten kan Hive-frågorna returnera ett felmeddelande om att minnet är slut, vilket gör att åtgärden Exportera data misslyckas. Om detta inträffar kan du ändra standardminnesallokeringen för Hive-frågor.
Så här undviker du att läsa in samma data i onödan
Om du inte vill återskapa Hive-tabellen varje gång du kör experimentet väljer du alternativet Använd cachelagrade resultat till TRUE. När det här alternativet är inställt på TRUE kontrollerar modulen om experimentet har körts tidigare och om en tidigare körning hittas utförs inte skrivåtgärden.
Användningstips
Det kan vara svårt att ta reda på standardcontainern för klustret. Här följer några tips:
Om du skapade klustret med hjälp av standardinställningarna skapades en container med samma namn samtidigt som klustret skapades. Den containern är standardcontainern för klustret.
Om du skapade klustret med alternativet ANPASSAD SKAPA fick du två alternativ för att välja standardcontainern.
Befintlig container: Om du har valt en befintlig container är den containern standardlagringscontainern för klustret.
Skapa standardcontainer: Om du valde det här alternativet, har en container med samma namn som klustret skapats och du bör ange det containernamnet som standardcontainer för klustret.
Modulparametrar
Name | Intervall | Typ | Standardvärde | Description |
---|---|---|---|---|
Datakälla | Lista | Datakälla eller mottagare | Azure Blob Storage | Datakällan kan vara HTTP, FTP, anonym HTTPS eller FTPS, en fil i Azure BLOB Storage, en Azure-tabell, en Azure SQL Database, en Hive-tabell eller en OData-slutpunkt. |
Hive-tabellnamn | valfri | Sträng | inget | Namnet på tabellen i Hive |
URI för HCatalog-server | valfri | Sträng | inget | Slutpunkt för Templeton |
Kontonamn för Hadoop-användare | valfri | Sträng | inget | Hadoop HDFS/HDInsight-användarnamn |
Lösenord för Hadoop-användarkonto | valfri | SecureString | inget | Hadoop HDFS/HDInsight-lösenord |
Plats för utdata | valfri | DataLocation | HDFS | Ange HDFS eller Azure för outputDir |
URI för HDFS-server | valfri | Sträng | inget | HDFS REST-slutpunkt |
Azure Storage-kontonamn | valfri | Sträng | inget | Azure Storage-kontonamn |
Azure Storage-nyckel | valfri | SecureString | inget | Azure Storage-nyckel |
Azure-containernamn | valfri | Sträng | inget | Azure-containernamn |
Använda cachelagrade resultat | TRUE/FALSE | Boolesk | FALSE | Modulen körs bara om det inte finns någon giltig cache. använd annars cachelagrade data från föregående körning. |
Undantag
Undantag | Description |
---|---|
Fel 0027 | Ett undantag inträffar när två objekt måste ha samma storlek, men det är de inte. |
Fel 0003 | Ett undantag inträffar om ett eller flera indata är null eller tomma. |
Fel 0029 | Ett undantag inträffar när en ogiltig URI skickas. |
Fel 0030 | ett undantag inträffar när det inte går att ladda ned en fil. |
Fel 0002 | Ett undantag inträffar om en eller flera parametrar inte kunde parsas eller konverteras från den angivna typen till den typ som krävs av målmetoden. |
Fel 0009 | Ett undantag inträffar om namnet på Azure-lagringskontot eller containernamnet har angetts felaktigt. |
Fel 0048 | Ett undantag inträffar när det inte går att öppna en fil. |
Fel 0046 | Ett undantag inträffar när det inte går att skapa en katalog på den angivna sökvägen. |
Fel 0049 | Ett undantag inträffar när det inte går att parsa en fil. |
En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.
En lista över API-undantag finns i Machine Learning REST API felkoder.
Se även
Importera data
Exportera data
Exportera till Azure SQL Database
Exportera till Azure Blob Storage
Exportera till Azure Table