Questa guida include le domande frequenti su Azure Synapse Analytics.
Generali
Come si usano i ruoli Controllo degli accessi in base al ruolo per proteggere le aree di lavoro?
In Azure Synapse sono stati introdotti numerosi ruoli e diversi ambiti a cui assegnarli per semplificare la protezione dell'area di lavoro.
Ruoli Controllo degli accessi in base al ruolo di Synapse:
- Amministratore di Synapse
- Synapse SQL Administrator
- Synapse Spark Administrator
- Collaboratore di Synapse
- Autore artefatti di Synapse
- Utente artefatti di Synapse
- Operatore di calcolo di Synapse
- Utente credenziali di Synapse
- Data Manager collegato a Synapse
- Utente di Synapse
Per proteggere l'area di lavoro Synapse, assegnare i ruoli Controllo degli accessi in base al ruolo a questi ambiti del controllo degli accessi in base al ruolo:
- Aree di lavoro
- Pool di Spark
- Runtime di integrazione
- Servizi collegati
- Titolo
Inoltre, con i pool SQL dedicati si ottengono le stesse funzionalità di sicurezza già note e apprezzate.
Come si controllano i pool SQL dedicati, i pool SQL serverless e i pool di Spark serverless?
Come punto di partenza, Azure Synapse è compatibile con le funzionalità predefinite di analisi e avvisi per i costi, disponibili a livello di sottoscrizione di Azure.
Pool SQL dedicati: si ottiene visibilità diretta e controllo sui costi, perché si creano e si specificano le dimensioni dei pool SQL dedicati. È possibile controllare ulteriormente quali utenti possono creare o dimensionare i pool SQL dedicati con i ruoli Controllo degli accessi in base al ruolo di Azure.
Pool SQL serverless: sono disponibili controlli per il monitoraggio e la gestione dei costi che consentono di limitare la spesa a livello giornaliero, settimanale e mensile. Per altre informazioni, vedere Gestione dei costi per i pool SQL serverless.
Pool di Spark serverless: è possibile limitare chi può creare pool di Spark con i ruoli Controllo degli accessi in base al ruolo di Synapse.
L'area di lavoro di Synapse supporterà l'organizzazione di oggetti in cartelle e la granularità in fase di disponibilità generale?
Le aree di lavoro di Synapse supportano le cartelle definite dall'utente.
È possibile collegare più aree di lavoro di Power BI a una singola area di lavoro di Azure Synapse?
Sì, a partire dal 10 giugno 2021, Synapse Studio consente ora di aggiungere più aree di lavoro di Power BI a una singola area di lavoro di Azure Synapse.
Il Collegamento ad Azure Synapse ad Azure Cosmos DB è disponibile a livello generale?
Azure Synapse Analytics supporta attualmente Collegamento ad Azure Synapse da Azure Cosmos DB a Synapse Apache Spark e pool SQL serverless. Collegamento ad Azure Synapse per Apache Spark è disponibile a livello generale. Collegamento a Synapse per il pool SQL serverless è in fase di anteprima. Per altre informazioni, vedere Collegamento ad Azure Synapse per Azure Cosmos DB.
Il Collegamento ad Azure Synapse per SQL è disponibile a livello generale?
Collegamento ad Azure Synapse per SQL è disponibile a livello generale sia per SQL Server 2022 che per il database SQL di Azure. Per altre informazioni, vedere Informazioni sul collegamento ad Azure Synapse per SQL.
L'area di lavoro di Azure Synapse supporta CI/CD?
Sì. Tutti gli artefatti delle pipeline, i notebook, gli script SQL e le definizioni di processi Spark si troveranno in Git. Tutte le definizioni di pool verranno archiviate in Git come modelli di ARM. Gli oggetti dei pool SQL dedicati (schemi, tabelle, viste e così via) verranno gestiti con progetti di database con il supporto per CI/CD. Per altre informazioni, vedere questa guida di integrazione continua e distribuzione continua.
Quali sono le differenze funzionali tra i pool SQL dedicati e i pool serverless?
Le funzionalità e i requisiti sono diversi tra i due tipi di pool. Le differenze includono oggetti di database, funzionalità del linguaggio di query, sicurezza, strumenti, accesso ai dati e formato dati. Per un confronto dettagliato dei pool SQL e dei pool serverless, vedere Confronto tra pool. Per le procedure consigliate quando si usa uno dei due tipi di pool, vedere Procedure consigliate per il pool SQL dedicato e Procedure consigliate per il pool SQL serverless.
Che cosa sono le tabelle Delta e perché è consigliabile usarle?
Lakehouse si basa su formati di dati open direct-access, ad esempio Apache Parquet. Offre un supporto di prima classe per l'apprendimento automatico e l'analisi scientifica dei dati. Una tabella Delta è una visualizzazione dei dati contenuti in un Delta Lake, che supporta la maggior parte delle opzioni fornite dalle API di lettura e scrittura di Apache Spark DataFrame. Lakehouses può aiutare a risolvere i problemi principali dei data warehouse, ad esempio il decadimento dei dati, l'affidabilità, il costo totale di proprietà e il blocco dei dati. Nelle tabelle Delta sono disponibili ottimizzazioni come la compattazione automatica e i piani di query adattivi. Per una guida dettagliata a Delta Lake, visitare Guida di Delta Lake.
Che cos'è la compattazione automatica?
La compattazione automatica è una delle due funzionalità complementari di Ottimizzazione automatica per le tabelle Delta. Dopo l'esito positivo di una scrittura in una tabella, la compattazione automatica può compattare ulteriormente i file per le partizioni con il maggior numero di file di piccole dimensioni. È consigliabile acconsentire esplicitamente alla compattazione automatica per i casi d'uso di streaming in cui l'aggiunta di minuti di latenza è accettabile e quando non si hanno normali chiamate OPTIMIZE nella tabella. Per altre informazioni su Ottimizzazione automatica e compattazione automatica, vedere questa Guida all'ottimizzazione automatica.
Pipelines
Come riconoscere quali credenziali vengono usate per eseguire una pipeline?
Ogni attività di una pipeline di Synapse viene eseguita usando le credenziali specificate all'interno del servizio collegato.
Le istanze di SSIS IR sono supportate in Synapse?
Non al momento.
In che modo le pipeline di Azure Data Factory e le pipeline di Azure Synapse sono diverse?
Alcuni esempi di differenze sono il supporto per i parametri globali, il monitoraggio dei processi Spark per il flusso di dati e la condivisione del runtime di integrazione. Per altre informazioni, vedere questo documento relativo all'Integrazione dei dati - Synapse e ADF.
Come si esegue la migrazione delle pipeline esistenti da Azure Data Factory a un'area di lavoro di Azure Synapse?
Attualmente è necessario ricreare manualmente le pipeline di Azure Data Factory e gli artefatti correlati esportando il codice JSON dalla pipeline originale e importandolo nell'area di lavoro Synapse.
Come si usa una definizione di processo Apache Spark?
Vedere questa Guida introduttiva.
È possibile chiamare i notebook dalle pipeline di Azure Data Factory?
Esistono due opzioni per questo caso d'uso. Un'opzione consiste nel mantenere le pipeline in Azure Data Factory e sarà necessario eseguire il wrapping in un'attività Web. Per altre informazioni su questa opzione, vedere questa Guida all'attività Web. L'altra opzione consiste nell'eseguire la migrazione delle pipeline a Synapse. Per altre informazioni sulla seconda opzione, vedere questo Esempio di codice di migrazione.
Apache Spark
Qual è la differenza tra Apache Spark per Synapse e Apache Spark?
Apache Spark per Synapse è Apache Spark con l'aggiunta del supporto per l'integrazione con altri servizi (Microsoft Entra ID, AzureML e così via), di altre librerie (mssparktuils, Hummingbird) e di configurazioni con prestazioni pre-ottimizzate.
Il carico di lavoro attualmente in esecuzione in Apache Spark verrà eseguito in Apache Spark per Azure Synapse senza modifiche.
Quali versioni di Spark sono disponibili?
A partire da settembre 2023, Azure Synapse Apache Spark supporta completamente Spark 3.3. Per un elenco completo dei componenti di base e delle versioni attualmente supportate, vedere Versioni di Apache Spark supportate.
Esiste un equivalente di DButils in Azure Synapse Spark?
Sì, Apache Spark per Azure Synapse include la libreria mssparkutils. Per la documentazione completa dell'utilità, vedere Introduzione alle utilità di Microsoft Spark.
Come si impostano i parametri di sessione in Apache Spark?
Per impostare i parametri di sessione, usare il comando magic %%configure disponibile. Per rendere effettivo il parametro, è necessario riavviare la sessione.
Come si impostano i parametri a livello di cluster in un pool di Spark serverless?
Per impostare i parametri a livello di cluster, è possibile fornire un file spark.conf per il pool di Spark. Questo pool rispetterà quindi i parametri del file di configurazione.
È possibile eseguire un cluster Spark multiutente in Azure Synapse Analytics?
Azure Synapse prevede motori appositamente progettati per specifici casi d'uso. Apache Spark per Synapse è progettato come servizio di processi e non come modello di cluster. Esistono due scenari in cui è richiesto un modello di cluster multiutente.
Scenario 1: molti utenti accedono a un cluster per la gestione dei dati a scopo di business intelligence.
Il modo più semplice per realizzare questa attività consiste nell'elaborare i dati con Spark e quindi sfruttare le funzionalità server di Synapse SQL in modo da connettere Power BI a tali set di dati.
Scenario 2: avere più sviluppatori in un singolo cluster per risparmiare sui costi.
Per soddisfare questo scenario, è consigliabile assegnare a ogni sviluppatore un pool di Spark serverless impostato per l'uso di un numero ridotto di risorse Spark. Poiché i pool di Spark serverless non comportano costi, finché vengono usati attivamente consentono di ridurre i costi quando ci sono più sviluppatori. I pool condividono i metadati (tabelle Spark), semplificando la collaborazione tra sviluppatori.
Come è possibile includere, gestire e installare le librerie?
È possibile installare pacchetti esterni tramite un file requirements.txt durante la creazione del pool di Spark nell'area di lavoro di Synapse o nel portale di Azure. Vedere Gestire le librerie per Apache Spark in Azure Synapse Analytics.
Quali strumenti sono disponibili in Synapse Spark?
MSSparkUtils in Synapse Spark offre un'ampia gamma di utilità per migliorare l'esperienza e semplificare l'integrazione con altri strumenti e servizi. Usare i file system, ottenere variabili di ambiente, concatenare notebook e usare i segreti con passaggi manuali minimi. Per la documentazione completa, vedere Utilità di Microsoft Spark.
Pool SQL dedicati
Qual è la differenza tra pool SQL dedicati (SQL Data Warehouse) e pool SQL dedicati nelle aree di lavoro di Azure Synapse?
I pool SQL dedicati (in precedenza SQL Data Warehouse) sono una piattaforma di data warehouse aziendale PaaS (Platform-as-a-Service) di Azure. È possibile eseguire query sui pool SQL dedicati esistenti (in precedenza SQL Data Warehouse) e creare nuovi pool SQL dedicati nell'area di lavoro di Azure Synapse. Non tutte le funzionalità del pool SQL dedicato nelle aree di lavoro di Azure Synapse si applicano a un pool SQL dedicato (in precedenza SQL Data Warehouse) autonomo e viceversa. Per altre informazioni, vedere Differenze tra pool SQL dedicati di Azure Synapse (in precedenza SQL Data Warehouse) e pool SQL dedicati in un'area di lavoro di Azure Synapse Analytics. Per abilitare funzionalità dell'area di lavoro di Azure Synapse per un pool SQL dedicato (in precedenza SQL Data Warehouse), vedere Come abilitare un'area di lavoro per il pool SQL dedicato (in precedenza SQL Data Warehouse).
Quali sono le differenze funzionali tra i pool SQL dedicati e i pool serverless?
Per l'elenco completo di differenze, vedere Differenze delle funzionalità T-SQL in Synapse SQL.
Ora che Azure Synapse è disponibile a livello generale, come è possibile spostare in Azure Synapse i pool SQL dedicati che in precedenza erano autonomi?
Non è necessario alcuno "spostamento" o "migrazione". È possibile scegliere di abilitare le nuove funzionalità dell'area di lavoro nei pool esistenti. In tal caso, non sono previste modifiche di rilievo, ma sarà possibile usare le nuove funzionalità come Synapse Studio, Spark e i pool SQL serverless. Non tutte le funzionalità del pool SQL dedicato nelle aree di lavoro di Azure Synapse si applicano al pool SQL dedicato (in precedenza SQL Data Warehouse) e viceversa. Per abilitare funzionalità dell'area di lavoro per un pool SQL dedicato (in precedenza SQL Data Warehouse), vedere Come abilitare un'area di lavoro per il pool SQL dedicato (in precedenza SQL Data Warehouse).
Qual è la distribuzione predefinita dei pool SQL dedicati?
Per impostazione predefinita, tutti i nuovi pool SQL dedicati verranno distribuiti in un'area di lavoro. Tuttavia, se necessario, è comunque possibile creare un pool SQL dedicato (in precedenza SQL Data Warehouse) in un fattore di forma autonomo.
Sicurezza di rete
Come si protegge l'accesso all'area di lavoro di Azure Synapse?
Con o senza una rete virtuale gestita, è possibile connettersi all'area di lavoro dalle reti pubbliche. Per altre informazioni, vedere Impostazioni di connettività. L'accesso dalle reti pubbliche può essere controllato abilitando la funzionalità di accesso alla rete pubblica o il firewall dell'area di lavoro. In alternativa, è possibile connettersi all'area di lavoro usando un endpoint privato gestito e un collegamento privato. Le aree di lavoro di Synapse senza rete virtuale gestita di Azure Synapse Analytics non sono in grado di connettersi tramite endpoint privati gestiti.