Propriétés de configuration d’Apache Spark et Apache Hadoop (HDFS)

Article
03/21/2023

S’applique à : SQL Server 2019 (15.x)

Important

Le module complémentaire Clusters Big Data Microsoft SQL Server 2019 sera mis hors service. La prise en charge de la plateforme Clusters Big Data Microsoft SQL Server 2019 se terminera le 28 février 2025. Tous les utilisateurs existants de SQL Server 2019 avec Software Assurance seront entièrement pris en charge sur la plateforme, et le logiciel continuera à être maintenu par les mises à jour cumulatives SQL Server jusqu’à ce moment-là. Pour plus d’informations, consultez le billet de blog d’annonce et les Options Big Data sur la plateforme Microsoft SQL Server.

Les Clusters Big Data prennent en charge la configuration à l’heure du déploiement et post-déploiement des composants Apache Spark et Hadoop au niveau du service et des ressources. Les Clusters Big Data utilisent les mêmes valeurs de configuration par défaut que le projet open source respectif pour la plupart des paramètres. Les paramètres que nous modifions sont répertoriés ci-dessous, avec une description et leur valeur par défaut. Hormis la ressource de passerelle, il n’y a pas de différence entre les paramètres configurables au niveau de l’étendue du service et au niveau de l’étendue de la ressource.

Vous trouverez toutes les configurations possibles et les valeurs par défaut pour chacune sur le site de documentation Apache correspondant :

Apache Spark : https://spark.apache.org/docs/latest/configuration.html
Apache Hadoop :
- HDFS (hdfs-site) : https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
- HDFS (core-site) : https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/core-default.xml
- Yarn : https://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/ResourceModel.html
Hive : https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties#ConfigurationProperties-MetaStore
Livy : https://github.com/cloudera/livy/blob/master/conf/livy.conf.template
Passerelle Apache Knox : https://knox.apache.org/books/knox-0-14-0/user-guide.html#Gateway+Details

Les paramètres qui ne prennent pas en charge la configuration sont également répertoriés ci-dessous.

Notes

Pour inclure Spark dans le pool de stockage, définissez la valeur booléenne includeSpark dans le fichier de configuration bdc.json à spec.resources.storage-0.spec.settings.spark. Consultez Configurer Apache Spark et Apache Hadoop dans les clusters Big Data pour plus d’instructions.

Paramètres Spark par défaut spécifiques aux Clusters Big Data

Les paramètres Spark ci-dessous sont ceux qui ont des valeurs par défaut spécifiques aux Clusters Big Data, mais qui sont configurables par l’utilisateur. Les paramètres managés par le système ne sont pas inclus.

Nom du paramètre	Description	Type	Valeur par défaut
capacity-scheduler.yarn.scheduler.capacity.maximum-applications	Nombre maximal d’applications dans le système qui peuvent être actives simultanément, en cours d’exécution et en attente.	int	10000
capacity-scheduler.yarn.scheduler.capacity.resource-calculator	Implémentation de ResourceCalculator servant à comparer des ressources dans le planificateur.	string	org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
capacity-scheduler.yarn.scheduler.capacity.root.queues	Planificateur de capacité avec file d’attente prédéfinie nommée racine.	string	default
capacity-scheduler.yarn.scheduler.capacity.root.default.capacity	Capacité de la file d’attente en pourcentage (%) en tant que capacité minimale absolue de la file d’attente de ressources pour la file d’attente racine.	int	100
spark-defaults-conf.spark.driver.cores	Nombre de cœurs à utiliser pour le processus du pilote, uniquement en mode cluster.	int	1
spark-defaults-conf.spark.driver.memoryOverhead	Quantité de mémoire hors tas à allouer par pilote en mode cluster.	int	384
spark-defaults-conf.spark.executor.instances	Nombre d’exécuteurs pour l’allocation statique.	int	1
spark-defaults-conf.spark.executor.cores	Nombre de cœurs à utiliser sur chaque exécuteur.	int	1
spark-defaults-conf.spark.driver.memory	Quantité de mémoire à utiliser pour le processus du pilote.	string	1g
spark-defaults-conf.spark.executor.memory	Quantité de mémoire à utiliser par processus d’exécuteur.	string	1g
spark-defaults-conf.spark.executor.memoryOverhead	Quantité de mémoire hors tas à allouer par exécuteur.	int	384
yarn-site.yarn.nodemanager.resource.memory-mb	Quantité de mémoire physique (en Mo) qui peut être allouée aux conteneurs.	int	8 192
yarn-site.yarn.scheduler.maximum-allocation-mb	Allocation maximale pour chaque requête de conteneur au gestionnaire des ressources.	int	8 192
yarn-site.yarn.nodemanager.resource.cpu-vcores	Nombre de cœurs de processeur pouvant être alloués aux conteneurs.	int	32
yarn-site.yarn.scheduler.maximum-allocation-vcores	Allocation maximale pour chaque requête de conteneur au gestionnaire des ressources, en termes de cœurs de processeur.	int	8
yarn-site.yarn.nodemanager.linux-container-executor.secure-mode.pool-user-count	Nombre d’utilisateurs de pool pour l’exécuteur de conteneur Linux en mode sécurisé.	int	6
yarn-site.yarn.scheduler.capacity.maximum-am-resource-percent	Pourcentage maximal de ressources dans le cluster qui peuvent être utilisées pour exécuter des applications maîtres.	float	0.1
yarn-site.yarn.nodemanager.container-executor.class	Exécuteurs de conteneur pour un ou plusieurs systèmes d’exploitation spécifiques.	string	org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor
capacity-scheduler.yarn.scheduler.capacity.root.default.user-limit-factor	Multiple de la capacité de la file d’attente qui peut être configuré pour permettre à un seul utilisateur d’acquérir plus de ressources.	int	1
capacity-scheduler.yarn.scheduler.capacity.root.default.maximum-capacity	Capacité maximale de la file d’attente en pourcentage (%), en valeur flottante OU en valeur absolue. Si vous définissez cette valeur sur -1, la capacité maximale est définie sur 100 %.	int	100
capacity-scheduler.yarn.scheduler.capacity.root.default.state	L’état de la file d’attente peut être « En cours d’exécution » ou « Arrêté ».	string	RUNNING
capacity-scheduler.yarn.scheduler.capacity.root.default.maximum-application-lifetime	Durée de vie maximale d’une application qui est soumise à une file d’attente en secondes. Toute valeur inférieure ou égale à zéro sera considérée comme désactivée.	int	-1
capacity-scheduler.yarn.scheduler.capacity.root.default.default-application-lifetime	Durée de vie par défaut d’une application qui est soumise à une file d’attente en secondes. Toute valeur inférieure ou égale à zéro sera considérée comme désactivée.	int	-1
capacity-scheduler.yarn.scheduler.capacity.node-locality-delay	Nombre d’opportunités de planification manquées après lesquelles le CapacityScheduler tente de planifier des conteneurs rack locaux.	int	40
capacity-scheduler.yarn.scheduler.capacity.rack-locality-additional-delay	Nombre d’opportunités de planification manquées supplémentaires par rapport au retard de nœud local, après lesquelles le CapacityScheduler tente de planifier des conteneurs désactivés.	int	-1
hadoop-env.HADOOP_HEAPSIZE_MAX	Taille maximale par défaut du tas de tous les processus de machine virtuelle Java Hadoop.	int	2 048
yarn-env.YARN_RESOURCEMANAGER_HEAPSIZE	Taille du tas de ResourceManager Yarn.	int	2 048
yarn-env.YARN_NODEMANAGER_HEAPSIZE	Taille du tas de NodeManager Yarn.	int	2 048
mapred-env.HADOOP_JOB_HISTORYSERVER_HEAPSIZE	Taille du tas de la tâche Hadoop HistoryServer.	int	2 048
hive-env.HADOOP_HEAPSIZE	Taille du tas de la tâche Hadoop pour Hive.	int	2 048
livy-conf.livy.server.session.timeout-check	Vérifiez le délai d’expiration de session du serveur Livy.	bool	true
livy-conf.livy.server.session.timeout-check.skip-busy	Valeur skip-busy pour la vérification du délai d’expiration de session du serveur Livy.	bool	true
livy-conf.livy.server.session.timeout	Délai d’expiration de la session du serveur Livy en (ms/s/m \| min/h/j/a).	string	2 h
livy-conf.livy.server.yarn.poll-interval	Fréquence d’interrogation pour Yarn dans le serveur Livy en (ms/s/m \| min/h/j/a).	string	500 ms
livy-conf.livy.rsc.jars	Jars Livy RSC.	string	local:/opt/livy/rsc-jars/livy-api.jar,local:/opt/livy/rsc-jars/livy-rsc.jar,local:/opt/livy/rsc-jars/netty-all.jar
livy-conf.livy.repl.jars	Fichiers JAR Livy repl.	string	local:/opt/livy/repl_2.11-jars/livy-core.jar,local:/opt/livy/repl_2.11-jars/livy-repl.jar,local:/opt/livy/repl_2.11-jars/commons-codec.jar
livy-conf.livy.rsc.sparkr.package	Package Livy RSC SparkR.	string	hdfs:///system/livy/sparkr.zip
livy-env.LIVY_SERVER_JAVA_OPTS	Options Java du serveur Livy.	string	-Xmx2g
spark-defaults-conf.spark.r.backendConnectionTimeout	Délai d’attente de connexion défini par le processus R sur sa connexion à RBackend en secondes.	int	86400
spark-defaults-conf.spark.pyspark.python	Option Python pour Spark.	string	/opt/bin/python3
spark-defaults-conf.spark.yarn.jars	Fichiers JAR Yarn.	string	local:/opt/spark/jars/*
spark-history-server-conf.spark.history.fs.cleaner.maxAge	Ancienneté maximale des fichiers d’historique des travaux avant leur suppression par la fonctionnalité de nettoyage de l’historique du système de fichiers en (ms/s/m \| min/h/j/a).	string	7d
spark-history-server-conf.spark.history.fs.cleaner.interval	Intervalle de la fonctionnalité de nettoyage de l’historique Spark en (ms/s/m \| min/h/j/a).	string	12h
hadoop-env.HADOOP_CLASSPATH	Définit le paramètre Hadoop classpath supplémentaire.	string
spark-env.SPARK_DAEMON_MEMORY	Mémoire du démon Spark.	string	2g
yarn-site.yarn.log-aggregation.retain-seconds	Quand l’agrégation des journaux est activée, cette propriété détermine le nombre de secondes pendant lesquelles conserver les journaux.	int	604800
yarn-site.yarn.nodemanager.log-aggregation.compression-type	Type de compression pour l’agrégation des journaux pour NodeManager Yarn.	string	gz
yarn-site.yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds	Intervalle en secondes pour la surveillance du renouvellement pour l’agrégation des journaux NodeManager.	int	3600
yarn-site.yarn.scheduler.minimum-allocation-mb	Allocation minimale pour chaque requête de conteneur au Resource Manager, en Mo.	int	512
yarn-site.yarn.scheduler.minimum-allocation-vcores	Allocation minimale pour chaque requête de conteneur au Resource Manager en termes de cœurs de processeur virtuel.	int	1
yarn-site.yarn.nm.liveness-monitor.expiry-interval-ms	Délai d’attente jusqu’à ce qu’un NodeManager soit considéré comme mort.	int	180000
yarn-site.yarn.resourcemanager.zk-timeout-ms	Délai d’expiration de session « ZooKeeper » en millisecondes.	int	40000
capacity-scheduler.yarn.scheduler.capacity.root.default.acl_application_max_priority	Liste ACL indiquant qui peut soumettre des applications avec un ordre de priorité configuré. Par exemple : [user={name} group={name} max_priority={priority} default_priority={priority}].	string	*
includeSpark	Expression booléenne pour autoriser ou non l’exécution de travaux Spark dans le pool de stockage.	bool	true
enableSparkOnK8s	Expression booléenne pour configurer l’activation ou non de Spark sur K8s, qui ajoute des conteneurs pour K8s dans l’en-tête Spark.	bool	false
sparkVersion	Version de Spark	string	2.4
spark-env.PYSPARK_ARCHIVES_PATH	Chemin d’accès aux fichiers JAR d’archive pyspark utilisés dans les tâches Spark.	string	local:/opt/spark/python/lib/pyspark.zip,local:/opt/spark/python/lib/py4j-0.10.7-src.zip

Dans les sections suivantes sont répertoriées les configurations non prises en charge.

Paramètres HDFS par défaut spécifiques aux Clusters Big Data

Les paramètres HDFS ci-dessous sont ceux qui ont des valeurs par défaut spécifiques aux Clusters Big Data, mais qui sont configurables par l’utilisateur. Les paramètres managés par le système ne sont pas inclus.

Nom du paramètre	Description	Type	Valeur par défaut
hdfs-site.dfs.replication	Réplication de bloc par défaut.	int	2
hdfs-site.dfs.namenode.provided.enabled	Permet au NameNode de gérer les stockages fournis.	bool	true
hdfs.site.dfs.namenode.mount.acls.enabled	Affectez la valeur true pour hériter des listes de contrôle d’accès (ACL) des magasins distants au cours du montage.	bool	false
hdfs-site.dfs.datanode.provided.enabled	Permet au DataNode de gérer les stockages fournis.	bool	true
hdfs-site.dfs.datanode.provided.volume.lazy.load	Permet le chargement différé dans le DataNode pour les stockages fournis.	bool	true
hdfs-site.dfs.provided.aliasmap.inmemory.enabled	Permet le mappage d’alias en mémoire pour les stockages fournis.	bool	true
hdfs-site.dfs.provided.aliasmap.class	Classe utilisée pour spécifier le format d’entrée des blocs sur les stockages fournis.	string	org.apache.hadoop.hdfs.server.common.blockaliasmap.impl.InMemoryLevelDBAliasMapClient
hdfs-site.dfs.namenode.provided.aliasmap.class	Classe utilisée pour spécifier le format d’entrée des blocs sur les stockages fournis pour NameNode.	string	org.apache.hadoop.hdfs.server.common.blockaliasmap.impl.NamenodeInMemoryAliasMapClient
hdfs-site.dfs.provided.aliasmap.load.retries	Nombre de nouvelles tentatives sur le DataNode pour charger la valeur aliasmap fournie.	int	0
hdfs-site.dfs.provided.aliasmap.inmemory.batch-size	Taille du lot lors de l’itération au sein de la base de données qui sauvegarde la valeur aliasmap.	int	500
hdfs-site.dfs.datanode.provided.volume.readthrough	Active readthrough pour les stockages fournis dans le DataNode.	bool	true
hdfs-site.dfs.provided.cache.capacity.mount	Activez le montage de capacité du cache pour les stockages fournis.	bool	true
hdfs-site.dfs.provided.overreplication.factor	Facteur de surduplication pour les stockages fournis. Nombre de blocs de cache sur le BDC créés par bloc HDFS distant.	float	1
hdfs-site.dfs.provided.cache.capacity.fraction	Fraction de la capacité du cache pour le stockage fourni. 0Fraction de la capacité totale du cluster qui peut être utilisée pour mettre en cache des données à partir de magasins fournis.	float	0,01
hdfs-site.dfs.provided.cache.capacity.bytes	Capacité du cluster à utiliser comme espace de cache pour les blocs fournis, en octets.	int	-1
hdfs-site.dfs.ls.limit	Limite le nombre de fichiers imprimés par ls.	int	500
hdfs-env.HDFS_NAMENODE_OPTS	Options HDFS NameNode.	string	-Dhadoop.security.logger=INFO,RFAS -Xmx2g
hdfs-env.HDFS_DATANODE_OPTS	Options HDFS DataNode.	string	-Dhadoop.security.logger=ERROR,RFAS -Xmx2g
hdfs-env.HDFS_ZKFC_OPTS	Options HDFS ZKFC.	string	-Xmx1g
hdfs-env.HDFS_JOURNALNODE_OPTS	Options HDFS JournalNode.	string	-Xmx2g
hdfs-env.HDFS_AUDIT_LOGGER	Options HDFS Audit Logger.	string	INFO,RFAAUDIT
core-site.hadoop.security.group.mapping.ldap.search.group.hierarchy.levels	Niveaux hiérarchiques pour le groupe de recherche LDAP Hadoop du site principal.	int	10
core-site.fs.permissions.umask-mode	Mode d’autorisation umask.	string	077
core-site.hadoop.security.kms.client.failover.max.retries	Nombre maximal de nouvelles tentatives pour le basculement du client.	int	20
zoo-cfg.tickTime	Durée du cycle pour la configuration « ZooKeeper ».	int	2000
zoo-cfg.initLimit	Durée d’initialisation pour la configuration « ZooKeeper ».	int	10
zoo-cfg.syncLimit	Durée de synchronisation pour la configuration « ZooKeeper ».	int	5
zoo-cfg.maxClientCnxns	Nombre maximal de connexions client pour la configuration « ZooKeeper ».	int	60
zoo-cfg.minSessionTimeout	Délai d’expiration de session minimal pour la configuration « ZooKeeper ».	int	4000
zoo-cfg.maxSessionTimeout	Délai d’expiration de session maximal pour la configuration « ZooKeeper ».	int	40000
zoo-cfg.autopurge.snapRetainCount	Nombre d’instantanés conservés pour la configuration de la purge automatique « ZooKeeper ».	int	3
zoo-cfg.autopurge.purgeInterval	Intervalle des purges pour la configuration de purge automatique « ZooKeeper ».	int	0
zookeeper-java-env.JVMFLAGS	Indicateurs JVM pour l’environnement Java dans « ZooKeeper ».	string	-Xmx1G -Xms1G
zookeeper-log4j-properties.zookeeper.console.threshold	Seuil de la console log4j dans « ZooKeeper ».	string	INFO
zoo-cfg.zookeeper.request.timeout	Contrôle le délai d’attente de la requête « ZooKeeper » en millisecondes.	int	40000
kms-site.hadoop.security.kms.encrypted.key.cache.size	Taille du cache pour la clé chiffrée dans Hadoop KMS.	int	500

Paramètres de la passerelle par défaut spécifiques aux Clusters Big Data

Les paramètres de la passerelle ci-dessous sont ceux qui ont des valeurs par défaut spécifiques aux Clusters Big Data, mais qui sont configurables par l’utilisateur. Les paramètres managés par le système ne sont pas inclus. Les paramètres de la passerelle peuvent être configurés uniquement au niveau de l’étendue de la ressource.

Nom du paramètre	Description	Type	Valeur par défaut
gateway-site.gateway.httpclient.socketTimeout	Délai d’expiration du socket pour le client HTTP dans la passerelle en (ms/s/m).	string	90s
gateway-site.sun.security.krb5.debug	Débogage pour la sécurité Kerberos.	bool	true
knox-env.KNOX_GATEWAY_MEM_OPTS	Options de mémoire de la passerelle Knox.	string	-Xmx2g

Configurations Spark non prises en charge

Les configurations spark suivantes ne sont ni prises en charge ni modifiables dans le contexte du cluster Big Data.

Sous-catégorie	Fichier	Configurations non prises en charge
yarn-site	yarn-site.xml	yarn.log-aggregation-enable
		yarn.log.server.url
		yarn.nodemanager.pmem-check-enabled
		yarn.nodemanager.vmem-check-enabled
		yarn.nodemanager.aux-services
		yarn.resourcemanager.address
		yarn.nodemanager.address
		yarn.client.failover-no-ha-proxy-provider
		yarn.client.failover-proxy-provider
		yarn.http.policy
		yarn.nodemanager.linux-container-executor.secure-mode.use-pool-user
		yarn.nodemanager.linux-container-executor.secure-mode.pool-user-prefix
		yarn.nodemanager.linux-container-executor.nonsecure-mode.local-user
		yarn.acl.enable
		yarn.admin.acl
		yarn.resourcemanager.hostname
		yarn.resourcemanager.principal
		yarn.resourcemanager.keytab
		yarn.resourcemanager.webapp.spnego-keytab-file
		yarn.resourcemanager.webapp.spnego-principal
		yarn.nodemanager.principal
		yarn.nodemanager.keytab
		yarn.nodemanager.webapp.spnego-keytab-file
		yarn.nodemanager.webapp.spnego-principal
		yarn.resourcemanager.ha.enabled
		yarn.resourcemanager.cluster-id
		yarn.resourcemanager.zk-address
		yarn.resourcemanager.ha.rm-ids
		yarn.resourcemanager.hostname.*
capacity-scheduler	capacity-scheduler.xml	yarn.scheduler.capacity.root.acl_submit_applications
		yarn.scheduler.capacity.root.acl_administer_queue
		yarn.scheduler.capacity.root.default.acl_application_max_priority
yarn-env	yarn-env.sh
spark-defaults-conf	spark-defaults.conf	spark.yarn.archive
		spark.yarn.historyServer.address
		spark.eventLog.enabled
		spark.eventLog.dir
		spark.sql.warehouse.dir
		spark.sql.hive.metastore.version
		spark.sql.hive.metastore.jars
		spark.extraListeners
		spark.metrics.conf
		spark.ssl.enabled
		spark.authenticate
		spark.network.crypto.enabled
		spark.ssl.keyStore
		spark.ssl.keyStorePassword
		spark.ui.enabled
spark-env	spark-env.sh	SPARK_NO_DAEMONIZE
		SPARK_DIST_CLASSPATH
spark-history-server-conf	spark-history-server.conf	spark.history.fs.logDirectory
		spark.ui.proxyBase
		spark.history.fs.cleaner.enabled
		spark.ssl.enabled
		spark.authenticate
		spark.network.crypto.enabled
		spark.ssl.keyStore
		spark.ssl.keyStorePassword
		spark.history.kerberos.enabled
		spark.history.kerberos.principal
		spark.history.kerberos.keytab
		spark.ui.filters
		spark.acls.enable
		spark.history.ui.acls.enable
		spark.history.ui.admin.acls
		spark.history.ui.admin.acls.groups
livy-conf	livy.conf	livy.keystore
		livy.keystore.password
		livy.spark.master
		livy.spark.deploy-mode
		livy.rsc.jars
		livy.repl.jars
		livy.rsc.pyspark.archives
		livy.rsc.sparkr.package
		livy.repl.enable-hive-context
		livy.superusers
		livy.server.auth.type
		livy.server.launch.kerberos.keytab
		livy.server.launch.kerberos.principal
		livy.server.auth.kerberos.principal
		livy.server.auth.kerberos.keytab
		livy.impersonation.enabled
		livy.server.access-control.enabled
		livy.server.access-control.*
livy-env	livy-env.sh
hive-site	hive-site.xml	javax.jdo.option.ConnectionURL
		javax.jdo.option.ConnectionDriverName
		javax.jdo.option.ConnectionUserName
		javax.jdo.option.ConnectionPassword
		hive.metastore.uris
		hive.metastore.pre.event.listeners
		hive.security.authorization.enabled
		hive.security.metastore.authenticator.manager
		hive.security.metastore.authorization.manager
		hive.metastore.use.SSL
		hive.metastore.keystore.path
		hive.metastore.keystore.password
		hive.metastore.truststore.path
		hive.metastore.truststore.password
		hive.metastore.kerberos.keytab.file
		hive.metastore.kerberos.principal
		hive.metastore.sasl.enabled
		hive.metastore.execute.setugi
		hive.cluster.delegation.token.store.class
hive-env	hive-env.sh

Configurations HDFS non prises en charge

Les configurations hdfs suivantes ne sont ni prises en charge ni modifiables dans le contexte du cluster Big Data.

Sous-catégorie	Fichier	Configurations non prises en charge
core-site	core-site.xml	fs.defaultFS
		ha.zookeeper.quorum
		hadoop.tmp.dir
		hadoop.rpc.protection
		hadoop.security.auth_to_local
		hadoop.security.authentication
		hadoop.security.authorization
		hadoop.http.authentication.simple.anonymous.allowed
		hadoop.http.authentication.type
		hadoop.http.authentication.kerberos.principal
		hadoop.http.authentication.kerberos.keytab
		hadoop.http.filter.initializers
		hadoop.security.group.mapping.*
		hadoop.security.key.provider.path
mapred-env	mapred-env.sh
hdfs-site	hdfs-site.xml	dfs.namenode.name.dir
		dfs.datanode.data.dir
		dfs.namenode.acls.enabled
		dfs.namenode.datanode.registration.ip-hostname-check
		dfs.client.retry.policy.enabled
		dfs.permissions.enabled
		dfs.nameservices
		dfs.ha.namenodes.nmnode-0
		dfs.namenode.rpc-address.nmnode-0.*
		dfs.namenode.shared.edits.dir
		dfs.ha.automatic-failover.enabled
		dfs.ha.fencing.methods
		dfs.journalnode.edits.dir
		dfs.client.failover.proxy.provider.nmnode-0
		dfs.namenode.http-address
		dfs.namenode.httpS-address
		dfs.http.policy
		dfs.encrypt.data.transfer
		dfs.block.access.token.enable
		dfs.data.transfer.protection
		dfs.encrypt.data.transfer.cipher.suites
		dfs.https.port
		dfs.namenode.keytab.file
		dfs.namenode.kerberos.principal
		dfs.namenode.kerberos.internal.spnego.principal
		dfs.datanode.data.dir.perm
		dfs.datanode.address
		dfs.datanode.http.address
		dfs.datanode.ipc.address
		dfs.datanode.https.address
		dfs.datanode.keytab.file
		dfs.datanode.kerberos.principal
		dfs.journalnode.keytab.file
		dfs.journalnode.kerberos.principal
		dfs.journalnode.kerberos.internal.spnego.principal
		dfs.web.authentication.kerberos.keytab
		dfs.web.authentication.kerberos.principal
		dfs.webhdfs.enabled
		dfs.permissions.superusergroup
hdfs-env	hdfs-env.sh	HADOOP_HEAPSIZE_MAX
zoo-cfg	zoo.cfg	secureClientPort
		clientPort
		dataDir
		dataLogDir
		4lw.commands.whitelist
zookeeper-java-env	java.env	ZK_LOG_DIR
		SERVER_JVMFLAGS
zookeeper-log4j-properties	log4j.properties (zookeeper)	log4j.rootLogger
		log4j.appender.CONSOLE.*

Notes

Cet article contient le terme whitelist, un terme considéré comme neutre par Microsoft dans ce contexte. Le terme apparaît dans cet article, car il apparaît actuellement dans le logiciel. Lorsque le terme sera supprimé du logiciel, nous le supprimerons de l’article.

Configurations `gateway` non prises en charge

Les configurations gateway suivantes ne sont ni prises en charge ni modifiables dans le contexte du cluster Big Data.

Sous-catégorie	Fichier	Configurations non prises en charge
gateway-site	gateway-site.xml	gateway.port
		gateway.path
		gateway.gateway.conf.dir
		gateway.hadoop.kerberos.secured
		java.security.krb5.conf
		java.security.auth.login.config
		gateway.websocket.feature.enabled
		gateway.scope.cookies.feature.enabled
		ssl.exclude.protocols
		ssl.include.ciphers

Étapes suivantes

Configurer des clusters Big Data SQL Server

Partager via

Propriétés de configuration d’Apache Spark et Apache Hadoop (HDFS)

Paramètres Spark par défaut spécifiques aux Clusters Big Data

Paramètres HDFS par défaut spécifiques aux Clusters Big Data

Paramètres de la passerelle par défaut spécifiques aux Clusters Big Data

Configurations Spark non prises en charge

Configurations HDFS non prises en charge

Configurations `gateway` non prises en charge

Étapes suivantes

Commentaires

Ressources supplémentaires

Partager via

Propriétés de configuration d’Apache Spark et Apache Hadoop (HDFS)

Paramètres Spark par défaut spécifiques aux Clusters Big Data

Paramètres HDFS par défaut spécifiques aux Clusters Big Data

Paramètres de la passerelle par défaut spécifiques aux Clusters Big Data

Configurations Spark non prises en charge

Configurations HDFS non prises en charge

Configurations gateway non prises en charge

Étapes suivantes

Commentaires

Ressources supplémentaires

Configurations `gateway` non prises en charge