Résoudre les problèmes liés aux clusters Big Data à l’aide de Jupyter Notebooks et d’Azure Data Studio
Cette page est un index des notebooks pour les clusters Big Data SQL Server. Ces notebooks exécutables (.ipynb) sont conçus pour SQL Server 2019 pour aider à résoudre les problèmes des clusters Big Data.
Important
Le module complémentaire Microsoft SQL Server 2019 Big Data Clusters sera mis hors service. La prise en charge des clusters Big Data SQL Server 2019 prendra fin le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme et le logiciel continuera d’être géré via les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.
Chaque notebook est conçu pour vérifier ses propres dépendances. L’option Exécuter toutes les cellules s’effectue correctement ou produit une exception avec un conseil en lien hypertexte vers un autre notebook qui va résoudre la dépendance manquante. Suivez le lien hypertexte de l’indicateur vers le notebook cible, puis cliquez sur Exécuter toutes les cellules. En cas de réussite, revenez au bloc-notes d’origine, puis cliquez sur Exécuter toutes les cellules.
Une fois toutes les dépendances installées, si toutefois l'étape Exécuter toutes les cellules échoue, chaque bloc-notes analysera les résultats et, le cas échéant, produira un lien hypertexte vers un autre bloc-notes pour faciliter la résolution du problème.
- Pour plus d'informations sur l'utilisation des notebooks pour administrer les clusters Big Data SQL Server, consultez Gérer les clusters Big Data SQL Server avec les notebooks d'Azure Data Studio.
- Pour plus d’informations sur l’emplacement des notebooks d’administration de cluster Big Data, consultez Emplacement des notebooks d’administration de clusters Big Data SQL Server.
Résolution des problèmes liés aux clusters Big Data
Cette section contient un ensemble de notebooks permettant d’obtenir des journaux à partir d’un cluster Big Data SQL Server.
Nom | Description |
---|---|
TSG100 - Utilitaire de résolution des problèmes des clusters Big Data | Vue d’ensemble de tous les notebooks disponibles sur la résolution des problèmes liés aux clusters Big Data et le moment de leur utilisation |
TSG101 - Utilitaire de résolution des problèmes SQL Server | Vue d’ensemble de tous les notebooks disponibles pour résoudre les problèmes liés à SQL Server et quand les utiliser |
TSG102 - Utilitaire de résolution des problèmes HDFS | Vue d’ensemble de tous les notebooks disponibles pour résoudre les problèmes HDFS et quand les utiliser |
TSG103 - Utilitaire de résolution des problèmes Spark | Vue d’ensemble de tous les notebooks disponibles pour résoudre les problèmes Spark et quand les utiliser |
TSG104 - Utilitaire de résolution des problèmes de contrôle | Vue d’ensemble de tous les notebooks disponibles pour résoudre les problèmes de contrôleur et quand les utiliser |
TSG105 - Utilitaire de résolution des problèmes de passerelle | Vue d’ensemble de tous les blocs-notes disponibles pour résoudre les problèmes de la passerelle Knox et quand les utiliser |
TSG106 - Utilitaire de résolution des problèmes d’application | Vue d’ensemble de tous les blocs-notes disponibles pour résoudre les problèmes de App-Deploy et quand les utiliser |
Diagnostiquer les problèmes à partir de clusters Big Data
Un ensemble de notebooks permettant de diagnostiquer des situations et des états liés à un cluster Big Data.
Nom | Description |
---|---|
TSG002 - CrashLoopBackoff | Ce TSG se connecte à chaque conteneur dont la dernière tentative d’atteindre l’état « en cours d’exécution » a échoué et qui obtient les journaux de conteneur actuels et précédents. Cela est utile pour déboguer les problèmes CrashLoopBackOff signalés dans les pods get kubectl. |
TSG025 - Navigateur FSM - État FSM du contrôleur de requêtes | Utilisez ce notebook pour vous connecter à la base de données du contrôleur et parcourir l’état FSM (Fine State Machine). Utilisez ce bloc-notes pour répertorier les ordinateurs d’état actifs et identifier les flux de travail bloqués. |
TSG026 - Se connecter au nœud du pool de données (pour exécuter T-SQL) | Utilisez ce notebook pour vous connecter au nœud du pool de données (pour exécuter T-SQL) |
TSG027 - Observer le déploiement de grappe | Utilisez ce notebook pour observer le déploiement de cluster, il fournit des conseils pour résoudre les problèmes liés aux clusters Big Data SQL Server qui créent des problèmes, les commandes suivantes sont souvent utiles pour identifier les causes sous-jacentes. |
TSG029 - Rechercher des dumps dans le cluster | Utilisez ce notebook pour observer des coredumps et des minidumps à partir de processus tels que SQL Server ou un contrôleur dans un cluster Big Data. |
TSG032 - Utilisation du processeur et de la mémoire pour tous les conteneurs | Utilisez ce notebook pour vérifier l’utilisation du processeur et de la mémoire pour tous les conteneurs. |
TSG037 - Déterminer le réplica principal hébergeant le pod du pool principal | Utilisez ce notebook pour déterminer le réplica principal hébergeant le pod du pool principal pour le cluster Big Data lorsque la haute disponibilité du pool principal est activée. |
TSG044 - Exécuter sqlcmd dans un conteneur de pool maître | Utilisez ce notebook pour vous connecter à un nœud de pool maître directement via T-SQL. |
TSG055 - Roulement de temps pour Sparkhead | Utilisez ce notebook pour diagnostiquer les étapes permettant de comprendre le temps de réponse du Roulement du pod contrôleur au pod sparkhead. |
TSG060 - Espace disque du volume persistant pour tous les PVC du cluster Big Data | Utilisez ce notebook pour vous connecter à chaque conteneur et obtenir l’espace disque utilisé/disponible pour chaque volume persistant (PV) mappé à chaque revendication de volume persistant (PVC) d’un cluster Big Data. |
TSG078 - Le cluster est-il sain ? | Utilisez ce notebook pour vérifier si votre cluster Big Data est sain. |
TSG079 - Générer une copie de sauvegarde de base du contrôleur | Utilisez ce notebook pour générer une copie de sauvegarde de base du contrôleur. |
TSG086 - Exécuter le niveau supérieur de tous les conteneurs | Utilisez ce notebook pour exécuter le niveau supérieur de tous les conteneurs. |
TSG087 - Utiliser l’interface CLI hadoop fs sur le pod namenode | Utilisez ce notebook pour utiliser l’interface CLI hadoop fs sur le pod namenode. |
TSG108 - Afficher la carte de configuration de mise à niveau du contrôleur | Utilisez ce notebook pour résoudre la défaillance survenue lors de l’exécution d’une mise à niveau du cluster Big Data à l’aide de la mise à niveau azdata BDC. |
TSG112 - Vérifications de prédéploiement Active Directory | Utilisez ce notebook pour valider qu'une configuration de cluster Big Data est appropriée pour un déploiement Active Directory. |
TSG115 - Traducteur de journal de sécurité SQL Server sur Linux | Utilisez ce notebook pour analyser les journaux générés par les enregistreurs d’événements security.ldap et security.kerberos pour SQL Server sur Linux. Pour activer ces enregistreurs d’événements, placez les lignes ci-dessous dans /var/opt/mssql/logger.ini sur la machine exécutant SQL Server sur Linux. Remarque : ce fichier respecte la casse. |
TSG116 - Translator de journaux de support de sécurité BDC SQL | Utilisez ce notebook pour analyser les journaux générés par le service de support de sécurité dans le BDC SQL. Pour récupérer les journaux, nous allons copier les journaux de débogage à partir du cluster et les extraire. Suivez les étapes ci-dessous : exécutez « azdata bdc debug copy-logs -n <espace_de_noms> ». Ceci va créer plusieurs fichiers .tar.gz - Extrayez le contenu de debuglogs-<espace_de_noms>-<date>-<time>.tar.gz - Recherchez le journal de support de sécurité stocké à l’emplacement ./<espace_de_noms>/control-<…>/security-support/supervisol/log/secsupp-stderr---<…>.log. |
TSG119 - Vérifications de post-déploiement Active Directory | Ce notebook est conçu pour valider votre configuration BDC après un déploiement AD. Il vérifie l’existence d’entrées DNS pour tous les points de terminaison avec un attribut dnsName et ces entrées DNS doivent être des enregistrements hôtes, et non des alias (c’est-à-dire des enregistrements non CNAME). En outre, l’existence de comptes AD connus et leur activation et l’existence des SPN attendus |
Résoudre les problèmes liés aux clusters Big Data
Ensemble de blocs-notes pour résoudre des situations et états connus d'un cluster de Big Data SQL Server.
Nom | Description |
---|---|
TSG005 - Boucle de transfert détectée | Utilisez ce notebook pour gérer la boucle de transfert détectée, étant donné que l’utilitaire dnsmasq peut placer un bouclage local dans resolv.conf, ce qui peut conduire les pods de contrôleur à entrer dans un CrashLoopBackOff durant le déploiement initial du cluster : https://askubuntu.com/questions/627899/nameserver-127-0-1-1-in-resolv-conf-wont-go-away| |
TSG011 - Redémarrer le serveur sparkhistory | Utilisez ce notebook pour redémarrer le serveur sparkhistory, car le processus java sparkhistory peut cesser de répondre au démarrage. Le redémarrage du serveur sparkhistory (supervisorctl restart sparkhistory) peut résoudre ce problème. |
TSG018 - Tuer le processus sqlservr sur le pool maître | Utilisez ce notebook lorsque SHUTDOWN de T-SQL ne parvient pas à recycler le processus ./sqlservr. Utilisez ce notebook pour tuer le processus sqlservr principal, lequel sera automatiquement redémarré par le processus frontal ./sqlservr. |
TSG024 - Namenode est en mode sans échec | Utilisez ce notebook lorsque HDFS passe en mode de sécurité. Par exemple, si un trop grand nombre de pods sont recyclés trop rapidement dans la piscine de stockage, le mode sécurisé peut être activé automatiquement. |
TSG028 - Redémarrer le gestionnaire de nœuds sur tous les nœuds du pool de stockage | Utilisez ce notebook lorsque vous devez redémarrer le gestionnaire de nœuds sur tous les nœuds du pool de stockage. |
TSG038 - Échecs de création du BDC en raison de l’absence de clé dans doc | Utilisez ce notebook lors des échecs de création du BDC en raison de l’absence de clé dans doc. |
TSG039 - Nom d’objet non valide 'role_permissions' | Utilisez ce notebook lorsque vous rencontrez un problème d’objet non valide en raison de l’autorisation de rôle dans gateway.log de Knox |
TSG040 - Échec de l’obtention des noms de fichiers à partir du contrôleur en raison de l'erreur | Utilisez ce notebook lorsque le délai d’expiration de la Passerelle 504 est dépassé lors de l’obtention des noms de fichiers du contrôleur. |
TSG041 : Impossible de créer un contexte d’E/S asynchrone (augmentez sysctl fs.aio-max-nr) | Utilisez ce notebook lorsqu’il est impossible de créer un contexte d’E/S asynchrone (augmentez sysctl fs.aio-max-nr). |
TSG045 : nombre maximal de disques de données autorisés à être attachés à une machine virtuelle de cette taille (AKS) | Utilisez ce notebook lorsque le nombre maximal de disques de données pouvant être attachés à une machine virtuelle de cette taille (AKS) est atteint. |
TSG047 - ConfigException - Un seul objet est attendu avec le nom | Utilisez ce bloc-notes lorsque ConfigException attend un seul objet avec un nom. |
TSG048 - Déploiement bloqué « en attente de la création du pod du contrôleur » | Utilisez ce notebook lorsque le déploiement est bloqué sur « en attente de la création du pod du contrôleur ». |
TSG050 - La création du cluster s’arrête avec le problème « expiration du délai d’attente de l’attachement ou du montage des volumes pour le pod » | Utilisez ce notebook lorsque la création du cluster s’arrête avec le problème « expiration du délai d’attente de l’attachement ou du montage des volumes pour le pod ». |
TSG052 : la tentative d'obtenir le DNS master-svc a échoué et va réessayer. | Utilisez ce notebook lorsque la création du cluster s’arrête avec le problème « expiration du délai d’attente de l’attachement ou du montage des volumes pour le pod ». |
TSG057 - Échec lors du démarrage du service de contrôleur . System.TimeoutException | Utilisez ce notebook lors du démarrage du service de contrôleur et de l’obtention de System.TimeoutException. |
TSG067 - Échec de l'achèvement de la configuration kube | Utilisez ce notebook lors de l’échec de Terminer l’installation de la configuration Kube. |
TSG074 - Supprimer App-Deploys | Utilisez ce notebook lorsque vous rencontrez un problème pour supprimer des applications dans un cluster Big Data. |
TSG075 - FailedCreatePodSandBox en raison de l’échec de configuration du pod par le CNI NetworkPlugin | Utilisez ce notebook lors de l’obtention d’une exception FailedCreatePodSandBox en raison de l’échec de configuration du pod par le CNI NetworkPlugin. |
TSG080 - Supprimer des sessions Spark à l’aide d’azdata | Utilisez ce notebook en cas de problème lors de la suppression des sessions Spark. |
TSG109 - Définir des délais d’attente de mise à niveau | Utilisez ce notebook lorsque vous rencontrez un problème de mise à niveau du BDC. |
TSG110 - Azdata retourne ApiError | Utilisez ce notebook quand Azdata retourne ApiError. |
Étapes suivantes
Pour plus d’informations sur les clusters Big Data, consultez Qu’est-ce que les clusters Big Data SQL Server ?.