Query interattive di HDInsight

Completato

Le query interattive vengono in genere implementate in uno scenario con percorso non critico, in cui i dati sono in formato tabulare e si desidera porre rapidamente domande e ottenere una risposta interattiva usando la sintassi SQL. Il diagramma seguente illustra l'architettura della soluzione per tutte le soluzioni con percorso critico e non critico di HDInsight e richiama il modo in cui le query interattive vengono gestite tramite LLAP Hive nel livello di servizio. I dati possono essere inseriti tramite Hive, le query interattive vengono elaborate tramite Hive LLAP e l'output put può essere servito alle applicazioni downstream, ad esempio Power BI.

Architettura della soluzione di Interactive Query

Architettura di Interactive Query

Verrà ora esaminata l'architettura di Interactive Query.

Gli utenti di Interactive Query possono scegliere tra un'ampia gamma di client ODBC o JDBC per eseguire query sui dati aziendali, ad esempio Data Analytics Studio, notebook Zeppelin e Visual Studio Code. Dopo che un client ha inviato una query HiveQL, la query arriva al server Hive, che è responsabile della pianificazione delle query, dell'ottimizzazione e del taglio di sicurezza. Hive divide le attività di analisi tra i nodi distribuiti nel cluster. Le query vengono suddivise in sottoattività e inviate ai nodi, che elaborano ogni sottoattività; queste vengono suddivise ulteriormente e ognuna di queste attività legge i dati dal livello di archiviazione dei dati aziendali sottostante. L'architettura è ottimizzata perché usa daemon LLAP "Always On", che evitano i tempi di avvio, nonché la cache in-memory condivisa, che archivia i dati recuperati dall'archiviazione e li condivide tra tutti i nodi.

Architettura Hive

Le unità SSD usate dai cluster Interactive Query combinano RAM e SSD in un pool di memoria di grandi dimensioni usato dalla cache. Con questa combinazione di risorse, un tipico profilo server è in grado di memorizzare nella cache 4 volte più dati, consentendo di elaborare set di dati di dimensioni maggiori e supportare un numero maggiore di utenti. La cache di Interactive Query è in grado di riconoscere le modifiche ai dati sottostanti nell'archivio remoto (Archiviazione di Azure). Pertanto, se i dati sottostanti vengono modificati e l'utente invia una query, i dati aggiornati verranno caricati in memoria senza richiedere altri passaggi da parte dell'utente.