Gestire le dipendenze Python per le pipeline di tabelle live Delta
Le tabelle live delta supportano dipendenze esterne nelle pipeline. Databricks consiglia di usare uno dei due modelli per installare i pacchetti Python:
- Usare il
%pip install
comando per installare i pacchetti per tutti i file di origine in una pipeline. - Importare moduli o librerie dal codice sorgente archiviato nei file dell'area di lavoro. Vedere Importare moduli Python da cartelle Git o file dell'area di lavoro.
Delta Live Tables supporta anche l'uso di script init con ambito cluster e globale. Tuttavia, queste dipendenze esterne, in particolare gli script init, aumentano il rischio di problemi con gli aggiornamenti di runtime. Per attenuare questi rischi, ridurre al minimo l'uso di script init nelle pipeline. Se l'elaborazione richiede script init, automatizzare i test della pipeline per rilevare i problemi in anticipo. Se si usano script init, Databricks consiglia di aumentare la frequenza dei test.
Importante
Poiché le librerie JVM non sono supportate nelle pipeline di tabelle live Delta, non usare uno script init per installare le librerie JVM. Tuttavia, è possibile installare altri tipi di libreria, ad esempio le librerie Python, con uno script init.
Librerie Python
Per specificare librerie Python esterne, usare il %pip install
comando magic. All'avvio di un aggiornamento, le tabelle live Delta eseguono tutte le celle contenenti un %pip install
comando prima di eseguire qualsiasi definizione di tabella. Ogni notebook Python incluso nella pipeline condivide un ambiente di libreria e ha accesso a tutte le librerie installate.
Importante
%pip install
I comandi devono trovarsi in una cella separata nella parte superiore del notebook della pipeline di Tabelle live Delta. Non includere altro codice nelle celle contenenti%pip install
comandi.- Poiché ogni notebook in una pipeline condivide un ambiente di libreria, non è possibile definire versioni di libreria diverse in una singola pipeline. Se l'elaborazione richiede versioni diverse della libreria, è necessario definirle in pipeline diverse.
L'esempio seguente installa la numpy
libreria e la rende disponibile a livello globale per qualsiasi notebook Python nella pipeline:
%pip install simplejson
Per installare un pacchetto wheel Python, aggiungere il percorso della rotellina Python al %pip install
comando. I pacchetti wheel Python installati sono disponibili per tutte le tabelle nella pipeline. L'esempio seguente installa un file wheel Python denominato dltfns-1.0-py3-none-any.whl
dalla directory /dbfs/dlt/
DBFS :
%pip install /dbfs/dlt/dltfns-1.0-py3-none-any.whl
Vedere Installare un pacchetto wheel Python con %pip.
È possibile usare librerie Scala o Java in una pipeline di tabelle live Delta?
No, le tabelle live Delta supportano solo SQL e Python. Non è possibile usare librerie JVM in una pipeline. L'installazione delle librerie JVM causerà un comportamento imprevedibile e potrebbe verificarsi un'interruzione con le versioni future di Tabelle Live Delta. Se la pipeline usa uno script init, è anche necessario assicurarsi che le librerie JVM non siano installate dallo script.