PCA basata sulla matrice di covarianza

analisi delle componenti principali (detta pure PCA oppure ACP) è una tecnica utilizzata nell’ambito della statistica multivariata per la semplificazione dei dati d’origine.

Lo scopo primario di questa tecnica è la riduzione di un numero più o meno elevato di variabili (rappresentanti altrettante caratteristiche del fenomeno analizzato) in alcune variabili latenti (variabili che non sono osservabili in quanto rappresentano concetti molto generali o complessi) che garantiscono la sintesi con minor perdita di informazione possibile.

Date $p$ variabili $X_1,\ X_2,\dots\, X_p$ (vettore casuale multivariato) l'analisi delle componenti principali consente di individuare $k < p$ variabili $Y_1,\ Y_2,\dots\, Y_k$, aventi varianza massima, ognuna combinazione lineare delle $p$ variabili di partenza: una variabile statistica con elevata variabilità fornisce di solito più informazione di una con bassa variabilità, poichè tende ad essere dispersa, cioè ad assumere modalità molto differenti tra loro.

Le $Y_i$ sono dunque delle variabili capaci di evidenziare e sintetizzare l'informazione insita nella matrice iniziale $X$ così fatta

$$X=\left(\begin{matrix} X_1, & X_2,\dots ,X_p\end{matrix}\right)=\left(\begin{matrix} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{22} & \dots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \dots & x_{np}\end{matrix}\right)$$

dove ogni colonna rappresenta le $n$ osservazioni effettuate per una delle $p$ variabili considerate per il fenomeno in analisi. Quindi, il generico elemento $x_{ij}$ rappresenta la determinazione della j-esima variabile quantitativa osservata sull'i-esima unità statistica ($i=1,\dots , n$; $j=1,\dots , p$)

Da questa matrice se ne estrae un'altra $\widetilde{X}$ chiamata matrice dei dati centrata, ossia:

$$\widetilde{X}=\left(\begin{matrix} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{22} & \dots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \dots & x_{np}\end{matrix}\right)-\left(\begin{matrix} \mu_1 & \mu_2 & \dots & \mu_p\\ \mu_1 & \mu_2 & \dots & \mu_p\\ \vdots & \vdots & \ddots & \vdots\\ \mu_1 & \mu_2 & \dots & \mu_p\end{matrix}\right)$$

dove $\mu_i$ è il valore medio dell'i-esima variabile $X_i$.

Le fasi per svolgere l'analisi delle componenti principali sono essenzialmente 3:

  1. Studio della correlazione tra le variabili considerate.
  2. Estrazione dei fattori (componenti) per ridurre il numero di variabili.
  3. Rotazione degli assi per ottenere dei fattori (componenti) che siano più facilmente interpretabili.

 

Fase 1: studio della correlazione

Poiché uno degli obiettivi dell’analisi C.P. è quello di ottenere fattori che spieghino le correlazioni tra variabili, tali variabili devono essere in qualche modo collegate tra loro. Se le relazioni tra le variabili sono deboli, è difficile che esistano fattori comuni. La presenza di correlazione significativa tra le variabili può essere verificata con alcuni test (es. test di Bartlett, misura Kaiser-Meyer-Olkin, ecc...).

Il test di sfericità di Bartlett consiste nel sottoporre a verifica l'ipotesi nulla che la matrice di correlazione dei dati iniziali sia pari alla matrice identità, cioè una matrice del tipo:

$$\left(\begin{matrix} 1 & 0 &\dots & 0\\ 0 & 1 &\dots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \dots & 1\end{matrix}\right)$$

Se non si rifiuta l'ipotesi nulla, il test suggerisce di non avviare la ricerca dei fattori comuni.

Invece, il test di Kaiser-Meyer-Olkin (KMO) è un indice che permette di confrontare la grandezza delle correlazioni osservate rispetto alle correlazioni parziali. I valori devono essere maggiori di $0,70$.

 

Fase 2: estrazione dei fattori comuni (o componenti principali)

La determinazione della prima componente $Y_1$ richiede l'individuazione del vettore p-dimensionale $V_1$ tale che:

$$Y_1=V_1 \widetilde{X}$$

con $V_1=(v_{11},v_{12},\dots ,v_{1p})$.

Per trovare $V_1$ bisogna risolvere un problema di massimo: lo scopo infatti è quello di massimizzare la varianza della prima componente principale in modo che quest'ultima spieghi la massima quota possibile della variabilità totale. Tale problema si riconduce alla ricerca degli autovalori $\lambda_i$ e degli autovettori $V_i$ della matrice di covarianza $C$ di $\widetilde{X}$ (una matrice $n\times p$ il cui generico elemento è $C_{hk}=COV(X_h,X_k)$)

$$C=\left(\begin{matrix} COV(\widetilde{X_1},\widetilde{X_1}) & COV(\widetilde{X_1},\widetilde{X_2}) & \dots & COV(\widetilde{X_1},\widetilde{X_p})\\ COV(\widetilde{X_2},\widetilde{X_1}) & COV(\widetilde{X_2},\widetilde{X_2}) & \dots & COV(\widetilde{X_2},\widetilde{X_p})\\ \vdots & \vdots & \ddots & \vdots\\ COV(\widetilde{X_n},\widetilde{X_1}) & COV(\widetilde{X_n},\widetilde{X_2}) & \dots & COV(\widetilde{X_n},\widetilde{X_p})\end{matrix}\right)$$

(Si può verificare che la matrice di covarianza di $X$ coincide con la matrice di covarianza di $\widetilde{X}$).

Gli autovalori di $C$ si ricavano risolvendo la seguente equazione nell'incognita $\lambda$:

$$det(C-\lambda I)=0$$

dalla quale si avranno al massimo $p$ soluzioni ($p$ autovalori $\lambda_i$). $I$ è la matrice identità $p\times p$.

Ordinando le soluzioni in senso decrescente, si avrà:

$$\lambda_1\ge \lambda_2\ge\dots\ge\lambda_p\ge 0$$

Si può dimostrare che il massimo degli autovalori ($\lambda_1$) coincide con la varianza della prima componente principale $Y_1$, che è stata così massimizzata.

$$VAR(Y_1)=\lambda_1$$

Si continua trovando l'autovettore $V_1$ associato all'autovalore $\lambda_1$ risolvendo il seguente sistema:

$$(C-\lambda_1 I)V_1=0$$

La determinazione della seconda componente $Y_2$

$$Y_2=V_2 \widetilde{X}$$

avviene calcolando $V_2=(v_{21},v_{22},\dots ,v_{2p})$ dal sistema

$$(C-\lambda_2 I)V_2=0$$

considerando i due vincoli seguenti:

  1. vincolo di normalizzazione: $V_2^TV_2=1$
  2. vincolo di ortogonalità: $V_1^TV_2$

Il vincolo di normalizzazione è necessario per trovare una sola delle infinite soluzioni $V_2$ del sistema. Con il vincolo di ortogonalità, invece, si impone che le componenti principali siano ortogonali (incorrelate) tra loro.

Le successive componenti si definiscono in modo analogo.

Inoltre, il numero di CP $k$ da estrarre, generalmente è dato dal numero di autovalore maggiori di 1, i quali corrispondo a quelle componenti con maggiore variabilità.

Vediamo, adesso, alcune proprietà che ci forniscono le $k$ componenti principali estratte:

  • La varianza totale della popolazione (cioè dei dati di partenza contenuti nella matrice $X$) si ridistribuisce in quella delle componenti principali $$\sum\limits_{i=1}^p VAR(X_i)=\lambda_1+\lambda_2+\dots +\lambda_p=\sum\limits_{i=1}^p VAR(Y_i)$$
  • La percentuale di varianza totale spiegata da ciascun fattore $Y_j$ è $$\frac{\lambda_j}{\sum\limits_{i=1}^p \lambda_i}\cdot 100$$
  • La percentuale di varianza totale spiegata dalle $k$ componenti estratte è $$\frac{\sum\limits_{i=1}^k \lambda_i}{\sum\limits_{i=1}^p \lambda_i}\cdot 100$$
  • $COV(Y_i,Y_j)=0$ per ogni coppia di componenti distinte (ortogonalità delle componenti).
  • I coefficienti di correlazione tra le componenti $Y_j$ (i fattori) e le variabili $X_i$ sono: $$r_{Y_j,X_i}=\frac{v_{ji}\sqrt{\lambda_j}}{VAR(X_i)}$$
  • Se le variabili $X_i$ sono esattamente tutte incorrelate tra loro, esse sono esattamente uguali alle CP.

Punteggi e pesi delle componenti principali

Ricordiamo che la prima componente principale è data da

$$Y_1=V_1\widetilde{X}$$

Il punteggio (o score) della prima componente principale per l'i-esima unità statistica è:

$$y_{i1}=v_{11}\widetilde{x_{i1}}+ v_{12}\widetilde{x_{i2}}+\dots +v_{1p}\widetilde{x_{ip}}$$

dove $v_{1j}$ è il coefficiente della prima componente $Y_1$ e della j-esima variabile $X_j$.

Esso fornisce il peso assegnato alla j-esima variabile nella definizione della prima componente.

Se volessimo normalizzare il punteggio dovremmo dividere $v_{1j}$ per la radice del corrispondente autovalore $\lambda_j$:

$$v_{1j}*=\frac{v_{1j}}{\sqrt{\lambda_j}}$$

Il valore numerico di $v_{1j}$ indica in quale misura la variabile $X_j$ concorre alla determinazione dei punteggi della CP.

In generale, considerando le prime $k$ CP, la matrice dei punteggi (o matrice degli scores) sarà:

$$Y=\left(\begin{matrix} v_{11} & v_{12} & \dots & v_{1p}\\ v_{21} & v_{22} & \dots & v_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ v_{p1} & v_{p2} & \dots & v_{pp}\end{matrix}\right)\left(\begin{matrix} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{22} & \dots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \dots & x_{np}\end{matrix}\right)$$

che in maniera compatta scriveremo $Y=V\cdot X$.

 

Fase 3: rotazione degli assi

La rotazione degli assi è un cambiamento di posizione delle dimensioni ottenute nella fase di estrazione dei fattori, mantenendo il più possibile fissa la varianza spiegata dalle dimensioni di partenza. La rotazione consiste nella riduzione dei pesi fattoriali che nella fase precedente erano già relativamente piccoli e nell’incremento dei pesi che dominavano nella prima fase.

Gli assi possono essere ruotati in modo rigido (rotazione ortogonale) o consentendo che siano correlati tra loro (rotazione obliqua). Solitamente si tenta prima la rotazione obliqua e se i fattori non sono tra loro correlati, si opta per la rotazione ortogonale.

Il risultato finale è una nuova matrice dei fattori ruotati.

Questo sito usa i cookies per fornirti una migliore esperienza di navigazione. Prendi visione della privacy policy e clicca su "Accetta" per proseguire.