Chyby vytváření clusteru ve službě Azure HDInsight v AKS
Důležitý
Azure HDInsight v AKS byl vyřazen 31. ledna 2025. Další informace z tohoto oznámení .
Abyste se vyhnuli náhlému ukončení úloh, musíte migrovat úlohy do Microsoft Fabric nebo ekvivalentního produktu Azure.
Důležitý
Tato funkce je aktuálně ve verzi Preview. doplňkové smluvní podmínky pro verze předběžného vydání Microsoft Azure obsahují další právní podmínky, které se vztahují na funkce Azure, které jsou v beta verzi, ve verzi předběžného vydání nebo ještě nebyly vydány pro obecnou dostupnost. Informace o konkrétním previewu najdete v tématu Azure HDInsight na AKS previewu. Pokud máte dotazy nebo návrhy funkcí, odešlete prosím žádost o AskHDInsight s podrobnostmi a sledujte nás o dalších aktualizacích komunity Azure HDInsight.
Tento článek popisuje, jak řešit a odstraňovat chyby, ke kterým může dojít při vytváření Azure HDInsight v clusterech AKS.
Sr. Ne | Zpráva o chybě | Příčina | Usnesení |
---|---|---|---|
1 | ChybaInterníhoServeru NeznámáChyba | Tato chyba může indikovat nesprávnou použitou šablonu. V současné době jsou databázové konektory povolené pouze prostřednictvím šablony ARM. Proto není ověření konfigurace v šabloně možné. | |
2 | NeplatnáSpecifikaceClusteru – ChybaZávislostiSlužby – Neplatná konfigurace | Maximální velikost paměti na chybu uzlu | Podívejte se na maximální konfigurace paměti a hodnotové typy vlastností. |
3 | WaitingClusterResourcesReadyTimeOut – Nepřipravená služba metastoru | Příčinou této chyby může být název kontejneru, který může obsahovat jenom malá písmena, číslice a pomlčky. Název kontejneru musí začínat písmenem nebo číslem. | Každému spojovníku musí předcházet znak bez spojovníku a následovat ho. Název musí mít délku 3 až 63 znaků. |
4 | Neplatná konfigurace -Invalid ClusterSpec – ClusterUpsertActivity | Chyba: Neplatná vlastnost konfigurace hive.metastore.uri: may not be null . |
Projděte si dokumentaci ke konektoru Hive. |
5 |
InternalServerError - An exception has been raised that is likely due to a transient failure. Consider enabling transient error resiliency by adding 'EnableRetryOnFailure()' to the 'UseSqlServer' call . |
Zkuste operaci zopakovat nebo vytvořte žádost o podporu týmu Azure HDInsight. | |
6 |
InternalServerError - ObjectDisposedException se vyskytuje v kódu RP. |
Zkuste operaci zopakovat nebo otevřete žádost o podporu týmu Azure HDInsight. | |
7 |
PreconditionFailed – Selhání operace z důvodu omezení kvóty u předplatného uživatele |
Před vytvořením clusteru existuje ověření kvóty. Když se ale současně vytvoří několik clusterů ve stejném předplatném, je možné, že první cluster zabírá kvótu a druhý kvůli nedostatku kvót selže. | Ověřte, že existuje dostatečná kvóta, a zkuste vytvořit cluster nebo fond clusterů znovu. |
8 |
ReconcileApplicationSecurityGroupError – vnitřní chyba AKS |
Zkuste operaci zopakovat nebo otevřete tiket podpory týmu Azure HDInsight. | |
9 | ResourceGroupBeingDeleted |
Během vytváření nebo aktualizace prostředků AKS ve službě HDI uživatel také odstraňuje některé prostředky v souvisejících skupinách prostředků. | Neodstraňujte prostředky ve skupinách prostředků souvisejících s HDI, když se vytvářejí nebo aktualizují prostředky HDI na AKS. |
10 |
UpsertNodePoolTimeOut - Async operation dependentArmResourceTask has timed out . |
Problém s AKS – příčinou může být vysoký provoz v konkrétní oblasti v době operace. | Zkuste operaci zopakovat po nějaké době. Pokud je to možné, použijte jinou oblast. |
11 | Authorization_IdentityNotFound - {"code":null,"message":"The identity of the calling application could not be established."} |
Princip 1-p služby není integrován do nájemce. | Spusťte příkaz pro vytvoření principála služby 1-p v novém tenantském prostředí k provedení onboardingu. |
12 | NotFound - ARM/AKS sdk error |
Uživatel se pokusí aktualizovat HDI v clusteru AKS, ale odpovídající fond agentů byl odstraněn. | Odpovídající fond agentů byl odstraněn. Nedoporučujeme přímo provozovat fond agentů AKS. |
13 | AuthorizationFailed - Scope invalid role assignment issue with managed RG and cluster msi |
Nedostatek oprávnění k provedení operace. | Zkontrolujte, jestli je ID aplikace poskytovatele služby uvedené v chybové zprávě, které vlastníte. Pokud ano, udělte oprávnění podle chybové zprávy. Pokud ne, otevřete tiket podpory týmu Azure HDInsight. |
14 | DeleteAksClusterFailed - {"code":"DeleteAksClusterFailed","message":"An Azure service request has failed. ErrorCode: 'DeleteAksClusterFailed', ErrorMessage: 'Delete HDI cluster namespace failed. Additional info: 'Can't access a disposed object.\\r\\nObject name: 'Microsoft.Azure.Common.Configuration.ManagedConfiguration was already disposed'.''."} |
RP se neočekávaně přepnul na novou instanci role. | zkuste zopakovat operaci nebo otevřete ticket podpory týmu Azure HDInsight. |
15 | EntityStoreOperationError - ARM/AKS sdk error |
Během aktualizace clusteru došlo k selhání databázové operace na straně AKS. | Zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, založte tiket podpory Azure HDInsight týmu. |
16 | InternalServerError - {"exception":"System.Threading.Tasks.TaskCanceledException","message":"The operation was canceled."} |
Příčinou této chyby jsou různé problémy. | zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. |
17 | InternalServerError - {"exception":"System.IO.IOException","message":"Unable to read data from the transport connection: A connection attempt failed because the connected party didn't properly respond after a period of time, or established connection failed because connected host has failed to respond."} |
Příčinou této chyby jsou různé problémy. | zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, vytvořte žádost o podporu pro tým Azure HDInsight. |
18 |
InternalServerError - Null reference exception occurs in RP code . |
Příčinou této chyby jsou různé problémy. | Zkuste operaci zopakovat nebo otevřete podpůrný tiket týmu Azure HDInsight. |
19 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'InvalidOperationException, Sequence contains no elements.'"} |
Příčinou této chyby jsou různé problémy. | zkuste operaci zopakovat nebo otevřete lístek podpory pro tým Azure HDInsight. |
20 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'ArgumentNullException, Value can't be null. (Parameter 'roleAssignmentGuid')'"} |
Příčinou této chyby jsou různé problémy. | Opakujte operaci nebo otevřete žádost na tým Azure HDInsight. |
21 | OperationNotAllowed - {"code":"OperationNotAllowed","message":"An Azure service request has failed. ErrorCode: 'OperationNotAllowed', ErrorMessage: 'Service request failed.\\r\\nStatus: 409 (Conflict)\\r\\n\\r\\nContent:\\r\\n{\\ n \\"code\\": \\"OperationNotAllowed\\",\\ n \\"details\\": null,\\ n \\"message\\": \\"Operation isn't allowed: Another agent pool operation (Scaling) is in progress, wait for it to finish before starting a new operation. |
Probíhá jiná operace fondu agentů (škálování). Tato chyba byla způsobena restartováním RP Service Fabric. | Před zahájením nové operace počkejte, než se dokončí předchozí operace. Pokud problém přetrvává i po dalším pokusu, otevřete podpůrný tiket pro tým Azure HDInsight. |
22 | ReconcileVMSSAgentPoolFailed |
Před vytvořením clusteru existuje ověření kvóty. Když se ale současně vytvoří několik clusterů ve stejném předplatném, je možné, že první cluster zabírá kvótu a ostatní selžou kvůli nedostatku kvót. | Ověřte, že existuje dostatečná kvóta, a zkuste vytvořit cluster nebo fond clusterů znovu. |
23 |
ReconcileVMSSAgentPoolFailed – Nejde navázat odchozí připojení u agentů |
AKS/VMSS vedlejší problém: Virtuální počítač nahlásil chybu. |
zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, otevřete podpůrný tiket týmu Azure HDInsight. |
24 | InternalServerError - {"code":"InternalServerError","message":"An internal error has occurred, exception: 'SqlException'"} |
Tato chyba byla způsobena přechodným problémem s připojením SQL. | zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, odešlete tiket na tým Azure HDInsight. |
25 | NotLatestOperation - ARM/AKS SDK error |
Operace nemůže pokračovat. Buď byla operace zrušena jinou operací, nebo informace potřebné operací se nepodařilo uložit (nebo ještě nebyly uloženy). | zkuste operaci zopakovat po nějaké době. Pokud problém přetrvává, otevřete lístek podpory týmu Azure HDInsight. |
26 | ReconcileVMSSAgentPoolFailed - Agent pool drain failed |
Došlo k problému s redukcí velikosti operace. | Otevřete podpůrný tiket u týmu Azure HDInsight. |
27 | ResourceNotFound - ARM/AKS SDK error |
K tomuto problému dochází v případě, že uživatel odebral nebo odstranil požadovaný prostředek. | Ujistěte se, že prostředek uvedený v chybové zprávě existuje, a zkuste operaci zopakovat. Pokud problém přetrvává, vytvořte požadavek na podporu týmu Azure HDInsight. |
28 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance _'xyz'_ has invalid request due to - [Hive metastore storage location access check timed out.] . |
Inicializace HMS může vypršet časový limit kvůli problémům souvisejícím s SQL Serverem nebo úložištěm. | Otevřete ticket na podporu Azure HDInsight. |
29 |
InvalidClusterSpec - The cluster instance deployment failed with reason 'System.DependencyFailure' and message 'Metastoreservice instance '_xyz_' has invalid request due to - [Keyvault secrets weren't configured properly. Failed to fetch secrets from keyvault.] . |
K této chybě může dojít z důvodu nedostupného keyvault nebo nedostupného tajného klíče. V některých vzácných případech může být tato chyba způsobena pomalejší inicializací infrastruktury identity podu na uzlech clusteru. |
Pokud máte povolenou službu Log Analytics, zkontrolujte protokoly secretprovider-validate job a zjistěte důvod. Zkuste operaci provést znovu, a pokud problém přetrvává, otevřete podpůrný tiket týmu Azure HDInsight. |
30 | FlinkCluster unready - {"FlinkCluster": "Status can't be determined"} |
K této chybě může dojít z různých důvodů, jako je problém s vyžádáním imagí, nepřipravené pody kontroleru, nebo problém s MSI. | Po nějaké době zkuste operaci zopakovat, a pokud problém přetrvává, otevřete požadavek na podporu pro tým Azure HDInsight. |
31 | FlinkCluster unready - {"FlinkCluster": "StatefulSet instance 'flink-taskmanager' isn't ready due to - [Ready replicas don't match desired replica count]."} |
K této chybě může dojít z různých důvodů, jako je problém s taháním image, nebo když pody kontroleru nejsou připravené, nebo kvůli problému s MSI. | Po nějaké době zkuste operaci zopakovat, pokud problém přetrvává, otevřete podpůrný tiket týmu Azure HDInsight. |
32 |
InvalidClusterSpec (class com.microsoft.azure.hdinsight.services.spark.exception.ClusterConfigException:[SparkClusterValidator#ConfigurationValidator#][ISSUE:(1)-Component config valid:[[{serviceName='yarn-service,componentName=hadoop-config-client}, {serviceName='yarn-service,componentName=hadoop-config}]],current:[[{serviceName='yarn-service,componentName=yarn-config}' . |
K této chybě může dojít, pokud se konfigurace služby skládá z komponent, které nejsou povoleny. | Ověřte součásti konfigurace služby a zkuste to znovu. Pokud problém přetrvává, otevřete podpůrný tiket týmu Azure HDInsight. |
33 |
InvalidClusterSpec -1,"conditions":[{"type":"RequestIsValid","status":"UNKNOWN","reason":"UNKNOWN","message":"Unable to determine status of one or more dependencies . |
K této chybě může dojít kvůli tomu, že služby HMS, SPARK, YARN nejsou v provozu, může tato chyba souviset s úložištěm. | Otevřete podporovou žádanku pro tým Azure HDInsight. |
34 | WaitingClusterResourcesReadyTimeOut - Failed to reconcile from generation 1 to 1. |
Vytvořte požadavek na podporu týmu Azure HDInsight. | |
35 | WaitingClusterResourcesReadyTimeOut - {"YarnService":"StatefulSet instance 'resourcemanager' isn't ready due to - `` see service status for specific details and how to fix it. Failing services are: YarnService, SparkService"} |
K této chybě může dojít kvůli tomu, že služby HMS, SPARK, YARN nejsou v provozu, může tato chyba souviset s úložištěm. | Otevřete ticket podpory týmu Azure HDInsight. |
36 |
InvalidClusterSpec - [spec.configs[0].files[3].fileName: Invalid value: "yarn-env.sh": spec.configs[0].files[3].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[0].files[3].values: Required value, spec.configs[1].files[2].fileName: Invalid value: "yarn-env.sh": spec.configs[1].files[2].fileName in body should match '(^yarn-site\\.xml$)|(^capacity-scheduler\\.xml$)|(^core-site\\.xml$)|(^mapred-site\\.xml$)', spec.configs[1].files[2].values: Required value] . |
K této chybě může dojít při předání nepodporovaných souborů v konfiguraci služeb. | Ověřte součásti konfigurace služby a zkuste to znovu. Pokud problém přetrvává, otevřete podpůrný tiket pro tým Azure HDInsight. |
37 | InvalidClusterSpec - ".AccessDeniedException: Operation failed: "Server failed to authenticate the request. InvalidAuthenticationInfo, "Server failed to authenticate the request.." |
Neplatné parametry ověřování – umístění úložiště je nepřístupné. | Opravte parametry ověřování a zkuste to znovu. Pokud problém přetrvává, otevřete tiket podpory týmu Azure HDInsight. |
38 |
InvalidClusterSpec - “_xyz_.dfs.core.windows.net isn't accessible. Reason: HTTP Error -1; url=. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException :. AzureADAuthenticator.getTokenCall threw java.net.SocketTimeoutException : Read timed out.] . |
K této chybě může dojít v případě, že spuštění prostředků identity podu na uzlu trvá příliš dlouho, když je naplánovaný pod HMS. | Zkuste operaci zopakovat, pokud problém přetrvává, odešlete žádost o podporu týmu Azure HDInsight. |