Elevada disponibilidade dos seus dados com o Apache Kafka no HDInsight
Saiba como configurar réplicas de partição para tópicos do Apache Kafka para aproveitar a configuração de rack de hardware subjacente. Esta configuração garante a disponibilidade dos dados armazenados no Apache Kafka no HDInsight.
Falha e atualização de domínios com o Apache Kafka
Um domínio de falha é um agrupamento lógico de hardware subjacente num centro de dados do Azure. Cada domínio de falha partilha um comutador de rede e uma fonte de alimentação. As máquinas virtuais e os discos geridos que implementam os nós num cluster HDInsight são distribuídos por esses domínios de falha. Esta arquitetura limita o possível impacto de falhas físicas de hardware.
Cada região do Azure tem um número específico de domínios de falha. Para obter uma lista de domínios e o número de domínios de falha que contêm, consulte a documentação Availability Sets (Conjuntos de disponibilidade).
Importante
O Kafka não está ciente dos domínios de falha. Quando cria um tópico no Kafka, pode armazenar todas as réplicas da partição no mesmo domínio de falha. Para resolver este problema, o HDInsight disponibiliza a ferramenta de reequilíbrio de partições do Kafka.
Quando deve reequilibrar as réplicas de partições
Para garantir a maior disponibilidade dos seus dados do Kafka, deve reequilibrar as réplicas de partições do seu tópico nos seguintes momentos:
Quando é criado um novo tópico ou partição
Quando expandir um cluster
Fator de replicação
Importante
É recomendável utilizar uma região do Azure que contenha três domínios de falha e um fator de replicação de 3.
Se tiver de utilizar uma região que contenha apenas dois domínios de falha, utilize um fator de replicação de 4 para distribuir as réplicas uniformemente entre os dois domínios de falha.
Para obter um exemplo de criação de tópicos e definição do fator de replicação, consulte o documento Iniciar com o Apache Kafka no HDInsight .
Como reequilibrar as réplicas de partições
Use a ferramenta de reequilíbrio de partição Apache Kafka para reequilibrar tópicos selecionados. Esta ferramenta deve ser executada numa sessão SSH para o nó principal do cluster do Kafka.
Para obter mais informações sobre a ligação ao HDInsight através do SSH, consulte o documento Utilizar o SSH com o HDInsight.