Scomposizione della varianza nella regressione lineare

Andando a studiare in modo più approfondito la formula della varianza della variabile Y si nota che essa può essere scomposta come segue:

Dove Yi* è in generale l’i-esimo valore teorico della y.

Ricordando che la media dei valori teorici, ottenuti dal modello di regressione lineare, coincide con la media dei valori osservati, il terzo termine dell’equazione si annulla in quanto contiene una somma degli scarti dalla media.

Il primo termine corrisponde alla varianza dei residui del modello, ovvero ciò che il modello non riesce a spiegare, per questo motivo è chiamata anche varianza non spiegata. La sua devianza è chiamata “error sum of square” (ESS).

Il secondo termine corrisponde invece alla varianza spiegata dal modello, come già indicato a inizio articolo ed è chiamata appunto varianza spiegata. La sua devianza è chiamata “regression sum of square” (RSS).

L’indice R2 ottenuto come rapporto tra RSS e TSS, indica di fatto la porzione di devianza totale spiegata dal modello, ovvero quanto il modello si ”accosta” ai dati. È un indice che varia tra 0 e 1 e assume valore pari a 1 quando tutti i punti realmente osservati giacciono sulla retta di regressione del modello.

Lascia un commento

Progetta un sito come questo con WordPress.com
Comincia ora