Disponibilità elevata dei dati con Apache Kafka in HDInsight
Questo articolo illustra come configurare le repliche di partizione per gli argomenti Apache Kafka in modo da sfruttare la configurazione rack hardware sottostante, che garantisce la disponibilità dei dati archiviati in Apache Kafka in HDInsight.
Domini di errore e di aggiornamento con Apache Kafka
Un dominio di errore è un raggruppamento logico dell'hardware sottostante in un data center di Azure. Ogni dominio di errore condivide una fonte di alimentazione e un commutatore di rete comuni. Le macchine virtuali e i dischi gestiti che implementano i nodi in un cluster HDInsight sono distribuiti tra i domini di errore. Questa architettura limita il potenziale impatto dei guasti dell'hardware fisico.
Ogni area di Azure include un numero specifico di domini di errore. Per un elenco dei domini e il numero dei domini di errore in essi contenuti, vedere la documentazione relativa ai set di disponibilità.
Importante
Kafka non rileva i domini di errore. Quando si crea un argomento in Kafka, tutte le partizioni di replica potrebbero essere archiviate nello stesso dominio di errore. Per risolvere il problema, HDInsight fornisce lo strumento per il ribilanciamento delle partizioni Kafka.
Quando ribilanciare le repliche di partizione
Per garantire la massima disponibilità dei dati Kafka, è consigliabile ribilanciare le repliche di partizione per l'argomento nei momenti seguenti:
Quando viene creato un nuovo argomento o una nuova partizione
Quando si aumentano le prestazioni di un cluster
Fattore di replica
Importante
È consigliabile usare un'area di Azure contenente tre domini di errore e un fattore di replica di 3.
Se si deve usare un'area che contiene solo due domini di errore, usare un fattore di replica di 4 per distribuire uniformemente le repliche tra i due domini di errore.
Per un esempio della creazione di argomenti e dell'impostazione del fattore di replica, vedere il documento Iniziare a usare Apache Kafka in HDInsight.
Come ribilanciare le repliche di partizione
Usare lo strumento per il ribilanciamento delle partizioni Apache Kafka per ribilanciare gli argomenti selezionati. Questo strumento deve essere eseguito da una sessione SSH al nodo head del cluster Kafka.
Per altre informazioni sulla connessione a HDInsight con SSH, vedere il documento su come usare SSH con HDInsight.