Algoritmo Microsoft Linear Regression
L'algoritmo Microsoft Linear Regression è una variazione dell'algoritmo Microsoft Decision Trees che consente di calcolare una relazione lineare tra una variabile dipendente e indipendente e quindi utilizzare tale relazione per la stima.
La relazione assume la forma di un'equazione relativa alla linea che rappresenta meglio una serie di dati. Ad esempio, la linea contenuta nel diagramma seguente è la migliore rappresentazione lineare possibile dei dati.
A ogni punto dati del diagramma corrisponde un errore associato alla relativa distanza dalla retta di regressione. I coefficienti a e b dell'equazione di regressione regolano l'angolo e la posizione della retta di regressione. È possibile ottenere l'equazione di regressione modificando i coefficienti a e b fino a quando la somma degli errori associati a tutti i punti raggiunge il minimo.
Sono disponibili altri tipi di regressione che utilizzano più variabili, nonché metodi di regressione non lineari, tuttavia la regressione lineare è un metodo utile e noto per la modellazione della risposta a una modifica in alcuni fattori sottostanti.
Esempio
Tale tipo di regressione consente di determinare una relazione tra due colonne continue. È possibile ad esempio utilizzare la regressione lineare per calcolare una linea di tendenza da dati di produzione o di vendita. La regressione lineare può inoltre essere utilizzata come precursore dello sviluppo di modelli di data mining più complessi, per valutare le relazioni tra colonne di dati.
Sebbene diversi metodi disponibili per calcolare la regressione lineare non richiedano strumenti di data mining, il vantaggio garantito dall'utilizzo dell'algoritmo Microsoft Linear Regression per questa attività è rappresentato dal fatto che tutte le possibili relazioni tra le variabili vengono calcolate e testate automaticamente. Non è necessario selezionare un metodo di calcolo, ad esempio la risoluzione per i minimi quadrati. La regressione lineare potrebbe tuttavia semplificare eccessivamente le relazioni in scenari in cui sul risultato influiscono più fattori.
Funzionamento dell'algoritmo
L'algoritmo Microsoft Linear Regression è una variazione dell'algoritmo Microsoft Decision Trees. Quando si seleziona l'algoritmo Microsoft Linear Regression, viene richiamato un tipo di algoritmo Microsoft Decision Trees speciale, con parametri che vincolano il comportamento dell'algoritmo e richiedono determinati tipi di dati di input. In un modello di regressione lineare, inoltre, per calcolare le relazioni nella sessione iniziale viene utilizzato tutto il set di dati, mentre con un modello di albero delle decisioni standard i dati vengono suddivisi ripetutamente in subset o alberi minori.
Dati necessari per i modelli di regressione lineare
Per preparare i dati da utilizzare in un modello di regressione lineare è necessario comprendere i requisiti dell'algoritmo, tra cui la quantità di dati necessaria e la modalità di utilizzo dei dati. I requisiti di questo tipo di modello sono i seguenti:
Una singola colonna key Ogni modello deve contenere una colonna numerica o di testo che identifica in modo univoco ogni record. Le chiavi composte non sono consentite.
Una colonna stimabile Richiede almeno una colonna stimabile. È possibile includere più attributi stimabili in un modello, ma tali attributi devono essere tipi di dati numerici continui. Non è possibile utilizzare un tipo di dati datetime come attributo stimabile anche se l'archiviazione nativa dei dati è numerica.
Colonne di input Le colonne di input devono contenere dati numerici continui ed essere associate al tipo di dati appropriato.
Per ulteriori informazioni, vedere la sezione relativa ai requisiti in Riferimento tecnico per l'algoritmo Microsoft Linear Regression.
Visualizzazione di un modello di regressione lineare
Per esplorare il modello, è possibile utilizzare il Visualizzatore Microsoft Decision Trees. La struttura ad albero per un modello di regressione lineare è molto semplice, in quanto tutte le informazioni sull'equazione di regressione sono contenute in un solo nodo. Per ulteriori informazioni, vedere Visualizzazione di un modello di data mining con il Visualizzatore Microsoft Decision Trees.
Per ulteriori informazioni sull'equazione, è inoltre possibile visualizzare i coefficienti e altri dettagli utilizzando Microsoft Generic Content Tree Viewer.
Per un modello di regressione lineare, il contenuto del modello include metadati, la formula di regressione e statistiche sulla distribuzione dei valori di input. Per ulteriori informazioni, vedere Contenuto dei modelli di data mining per i modelli di regressione lineare (Analysis Services - Data mining).
Creazione di stime
Dopo l'elaborazione del modello, i risultati vengono archiviati come set di statistiche con la formula di regressione lineare che è possibile utilizzare per calcolare tendenze future. Per esempi di query da utilizzare con un modello di regressione lineare, vedere Esecuzione di query su un modello Linear Regression (Analysis Services - Data mining).
Per informazioni generali sulla creazione di query in base ai modelli di data mining, vedere Esecuzione di query sui modelli di data mining (Analysis Services - Data mining).
Selezionando l'algoritmo Microsoft Linear Regression, se l'attributo stimabile è un tipo di dati numerico continuo, oltre a creare un modello di regressione lineare, è possibile creare un modello di albero delle decisioni che contenga regressioni. In questo caso, l'algoritmo suddividerà i dati quando rileverà punti di separazione appropriati, ma per alcune aree di dati creerà una formula di regressione. Per ulteriori informazioni sugli alberi di regressione all'interno di un modello di albero delle decisioni, vedere Contenuto dei modelli di data mining per i modelli di albero delle decisioni (Analysis Services - Data mining).
Osservazioni
Non supporta l'utilizzo del linguaggio PMML (Predictive Model Markup Language) per la creazione di modelli di data mining.
Non supporta la creazione di dimensioni di data mining.
Supporta il drill-through.
Supporta l'utilizzo di modelli di data mining OLAP.
Vedere anche