Teoria e formule sul modello di regressione lineare semplice

La regressione è quella tecnica statistica utilizzata per studiare le relazioni che intercorrono tra due o più caratteri (variabili) statistici. Analizzeremo, dapprima, la relazione tra due sole variabili $X$ e $Y$ (regressione lineare semplice), per poi generalizzare il concetto descrivendo la relazione tra più di due variabili (regressione lineare multipla) $Y$, $X_1$, $X_2$, $X_3$, ecc.

Strettamente legata alla regressione è il concetto di correlazione, infatti:

  • nella teoria della regressione (semplice) si suppone che una variabile $X$ assume valori determinati e si cerca la relazione che lega la seconda variabile $Y$ alla prima: in altre parole si cerca di stabilire un legame funzionale tra le due variabili (del tipo $Y=\beta_0+\beta_1X$).
  • nella teoria della correlazione si determina il grado di interdipendenza tra le due variabili, ovvero si determina se ad una variazione del carattere $X$ corrisponde una variazione più o meno sensibile del carattere $Y$.

Il tipo di regressione che studieremo noi è chiamata regressione dei minimi quadrati.

Denotando con $\hat{X}$ la variabile indipendente stimata e con $\hat{Y}$ la variabile dipendente stimata, il problema che ci poniamo è quello di determinare dei coefficienti reali $b_0$ e $b_1$ per i quali sussiste la seguente relazione lineare tra le due variabili: $$\hat{Y}=b_0+b_1\hat{X}$$

Essa è nota come retta di regressione dei minimi quadrati e rappresenta la miglior retta interpolatrice dei punti del piano $(x_i,y_i)$ (punti in verde nell'immagine sotto), essendo $x_i$ i valori assunti dalla variabile $X$ e $y_i$ i valori assunti dalla variabile $Y$. L'immagine seguente ci fornisce un'idea grafica della retta di regressioneRetta dei minimi quadrati

Il coefficiente $b_0$ è detto intercetta e rappresenta il valore della variabile $Y$ quando $X=0$ nonchè la stima del parametro reale $\beta_0$; mentre $b_1$ è chiamato coefficiente angolare o coefficiente di regressione o, ancora, pendenza della retta e rappresenta la variazione subita in media dal carattere $Y$ per effetto di un aumento unitario del carattere $X$, nonchè la stima del parametro reale $\beta_1$.

Il coefficiente di regressione può variare da $-\infty$ a $+\infty$:

    • se $b_1 > 0$, la retta di regressione è crescente e il carattere $Y$ aumenta all'aumentare di $X$Retta di regressione crescente o con pendenza positiva
    • se $b_1 < 0$, la retta di regressione è decrescente e il carattere $Y$ diminuisce all'aumentare di $X$

Retta di regressione decrescente o con pendenza negativa

  • se $b_1 = 0$, la retta di regressione è costante e il carattere $Y$ non varia al variare del carattere $X$

Retta di regressione costante o con pendenza nulla

Ma come si calcolano i coefficienti stimati della retta di regressione $b_0$ e $b_1$?

Coefficienti stimati retta regressione

Ecco qui tutti i passi da compiere per calcolare le stime dei parametri della retta di regressione:

  1. si calcolano i valori medi $\overline{x}$ e $\overline{y}$ rispettivamente di $X$ e di $Y$;
  2. Si calcola la varianza campionaria di $X$, $s_x^2$ e la covarianza tra $X$ e $Y$, $COV(X,Y)$;
  3. Infine si trovano $b_0$ e $b_1$ con le seguenti formule:

    $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{b_1=\frac{COV(X,Y)}{s_x^2}}$$

    $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{b_0=\overline{y}-b_1\overline{x}}$$

Nota: Per il calcolo del valor medio e della varianza puoi consultare questo articolo, mentre per il calcolo della covarianza si può usare la seguente formula:

$$Cov(X,Y)=s_{x,y}=\frac{\sum\limits_{i=1}^n(x_i\cdot y_i)-n\cdot\overline{x}\cdot\overline{y}}{n-1}$$

Devianze e coefficiente di determinazione $R^2$

Indicando con $\hat{y}_i$ e $y_i$ rispettivamente i valori di Y predetti dal modello (o teorici) e quelli osservati, definiamo le seguenti devianze o scarti quadratici: $$\begin{array}{l} DEV(Y)=SST=DEV_{totale}=\sum\limits_{i=1}^n(y_i-\overline{y})^2\\ DEV_{regressione}=DEV_{spiegata}=SSR=\sum\limits_{i=1}^n(\hat{y}_i-\overline{y})^2\\ DEV_{residua}=SSE=\sum\limits_{i=1}^n(y_i-\hat{y}_i)^2\end{array}$$

$DEV(Y)$ o $SST$ (acronimo di Sum Square Total) non è altro che la devianza totale della variabile Y, ossia la somma dei quadrati degli scarti tra i valori osservati $y_i$ e il valore medio $\overline{y}$. Essendo, inoltre, il numeratore della varianza totale, si ha $$s_y^2=VAR(Y)=\frac{DEV(Y)}{n}$$

$DEV_{spiegata}$ o $SSR$ (acronimo di Sum Square Regression) è la devianza spiegata o devianza della regressione, ossia la somma dei quadrati degli scarti tra i valori teorici $\hat{y}_i$ e il valore medio $\overline{y}$. Inoltre, in un modello di regressione lineare semplice, la varianza spiegata coincide con la devianza spiegata: $$VAR_{spiegata}=DEV_{spiegata}$$

$DEV_{residua}$ o $SSE$ (acronimo di Sum Square Error) non è altro che la devianza residua della variabile Y, ossia la somma dei quadrati degli errori che si commettono approssimando il valore osservato $y_i$ con il valore teorico $\hat{y}_i$. La varianza residua o stima della varianza della popolazione, sarà invece $$VAR_{residua}=\frac{DEV_{residua}}{n-2}$$

Si può dimostrare che la devianza totale (come pure la varianza totale) si può decomporre nella somma delle altre due devianze, ossia: $$DEV_{totale}=DEV_{spiegata}+DEV_{residua}$$

Detto ciò possiamo definire un indice che misura la bontà di adattamento del modello ai dati osservati. Si chiama indice di determinazione e la sua formula è: $$ $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{R^2=\frac{DEV_{spiegata}}{DEV_{totale}}}$$

Per quanto detto, si ha che $0\leq R^2\leq 1$. Maggiore è $R^2$ (e quindi minore è la devianza spiegata) migliore sarà l'adattamento della retta ai dati osservati e maggiore sarà la proporzione di variabilità totale che la retta di regressione stimata riesce a spiegare.

Nel caso di una regressione lineare semplice, si può dimostrare che tale indice di determinazione coincide con il quadrato del coefficiente di correlazione lineare $r$: $$R^2=r^2$$ dove $r$ è dato da: $$\bbox[#fd7b01,5px,border:2px solid #fd7b01]{r=\frac{COV(X,Y)}{\sqrt{s_x^2\cdot s_y^2}}}$$

Seguono alcune importanti proprietà del coefficiente di correlazione $r$:

  • vale sempre $-1\le r\le 1$;
  • se $r=\pm 1$ la correlazione tra $X$ e $Y$ è massima (nel caso $r=+1$ si ha una correlazione diretta, nel caso $r=-1$ si ha una correlazione inversa);
  • se $r=0$ la correlazione tra le due variabili è nulla e quindi si dice che $X$ e $Y$ sono indipendenti;
  • $r^2$ è il coefficiente di determinazione e rappresenta la bontà di adattamento del modello di regressione trovato.

Questo sito usa i cookies per fornirti una migliore esperienza di navigazione. Prendi visione della privacy policy e clicca su "Accetta" per proseguire.