PCA basata sulla matrice di correlazione

Abbiamo finora applicato la PCA sulla matrice di varianza e covarianza $C$. Ciò ha senso se:

  1. le variabili osservate sono espresse nella medesima unità di misura;
  2. le variabili osservate sono dello stesso ordine di grandezza (infatti un cambiamento di scala di una variabile modifica il valore della varianza totale e quindi influenza fortemente i risultati dell’ACP.)

Altrimenti occorre basare la PCA sulla matrice di correlazione $R$ dei dati iniziali $X$. Si può verificare che tale matrice coincide con la matrice di covarianza che si ottiene dalla matrice dei valori standardizzati di $X$, chiamata $Z$.

$$[CORR(X_i,X_j)]=[COV(Z_i,Z_j)]$$

A tal proposito ricordiamo la formula di standardizzazione di una variabile $X$:

$$z_{ij}=\frac{x_{ij}-\mu_j}{\sigma_j}$$

dove $\mu_j$ e $\sigma_j$ sono rispettivamente la media e la deviazione standard della variabile $X_j$ in esame.

È importante osservare che le componenti principali ricavate dallo stesso dataset $X$ ottenuto dalla matrice di varianza e covarianza o dalla matrice di correlazione NON sono le stesse. Per tale motivo, la scelta della matrice su cui basare la PCA è molto importante.

La procedura di calcolo delle CP basata sulla matrice di correlazione segue le linee già descritte per determinare le CP partendo dalla matrice di covarianza.

Dalla matrice dei dati

$$X=\left(\begin{matrix} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{22} & \dots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \dots & x_{np}\end{matrix}\right)$$

ricaviamo la matrice standardizzata:

$$Z=\left(\begin{matrix} z_{11} & z_{12} & \dots & z_{1p}\\ z_{21} & z_{22} & \dots & z_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ z_{n1} & z_{n2} & \dots & z_{np}\end{matrix}\right)$$

e la matrice di correlazione:

$$R=\left(\begin{matrix} r_{X_1,X_1} & r_{X_1,X_2} & \dots & r_{X_1,X_P}\\ r_{X_2,X_1} & r_{X_2,X_2} & \dots & r_{X_2,X_P}\\ \vdots & \vdots & \ddots & \vdots\\ r_{X_n,X_1} & r_{X_n,X_2} & \dots & r_{X_n,X_p}\end{matrix}\right)$$

Osserviamo che tale matrice è simmetrica poichè $r_{X_i,X_j}=r_{X_j,X_i}$ e gli elementi sulla diagonale principale sono tutti 1 dato che ogni variabile è correlata con se stessa ($r_{X_i,X_i}=1$).

Dopo aver verificato tramite il test di Bartlett, o la misura Kaiser-Meyer-Olkin se le variabili in esame sono sufficientemente correlate affichè risulti significativo condurre un'analisi delle componenti principali, troviamo gli autovalori di $R$ risolvendo l'equazione

$$det(R-\lambda I)=0$$

e gli autovettori di $R$ risolvendo il seguente sistema:

$$(R-\lambda_i I)V_i=0$$

La j-esima componente è data da:

$$Y_j=V_j\cdot Z$$

Esistono 2 criteri per interpretare il significato delle componenti principali.

Il primo è basato sui coefficienti $v_{ij}$ di ogni componente principale.

In questo caso, possiamo determinare il punteggio della j-esima componente in questo modo:

$$y_{ij}=v_{j1}z_{i1}+v_{j2}z_{i2}+\dots +v_{jp}z_{ip}$$

$v_{js}$ rappresenta il peso assunto dalla s-esima variabile $X_s$ nella determinazione della j-esima componente $Y_j$. Ciò significa che la componente $Y_j$ sarà maggiormente caratterizzata dalla variabile s-esima $X_s$ a cui corrispondono i coefficienti $v_{js}$ più grandi in valore assoluto

Il secondo criterio è basato sui coefficienti di correlazione $r_{Y_j,X_i}$.

Sappiamo che

$$r_{Y_j,X_i}=\frac{v_{ji}\sqrt{\lambda_j}}{VAR(X_i)}$$

In questo caso a determinare il significato di $Y_j$ sono le variabili $X_i$ con cui è maggiormente correlata, ovvero le variabili $X_i$, a cui corrispondono i più elevati coefficienti di correlazione $r_{Y_j,X_i}$ in valore assoluto.

Data la matrice di covarianza tra fattori (o matrice degli autovalori)

$$L=\left(\begin{matrix} \lambda_1 & 0 &\dots & 0\\ 0 & \lambda_2 &\dots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \dots & \lambda_p\end{matrix}\right)$$

e la matrice di covarianza tra fattori e variabili (o matrice degli autovettori)

$$V=\left(\begin{matrix} v_{11} & v_{12} & \dots & v_{1p}\\ v_{21} & v_{22} & \dots & v_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ v_{p1} & v_{p2} & \dots & v_{pp}\end{matrix}\right)$$ otteniamo la matrice di saturazione (o matrice dei punteggi delle componenti principali oppure matrice di correlazione tra le variabili e i fattori) calcolando $$S=V\sqrt{L}$$

Un fatto interessante è che la matrice di saturazione, dato che è stata calcolata partendo dalla matrice di correlazione $R$, è proprio formata dai coefficienti di correlazione $r_{Y_j,X_i}$ $$S=\left(\begin{matrix} r_{X_1,Y_1} & r_{X_1,Y_2} & \dots & r_{X_1,Y_p}\\ r_{X_2,Y_1} & r_{X_2,Y_2} & \dots & r_{X_2,Y_p}\\ \vdots & \vdots & \ddots & \vdots\\ r_{X_p,Y_1} & r_{X_p,Y_2} & \dots & r_{X_p,Y_p}\end{matrix}\right)$$

L'espressione dei punteggi non normalizzati della j-esima componente è

$$y_{ij}=\frac{r_{Y_1X_1}}{\sqrt{\lambda_i}}z_{i1}+\frac{r_{Y_1X_2}}{\sqrt{\lambda_i}}z_{i2}+\dots +\frac{r_{Y_1X_p}}{\sqrt{\lambda_i}}z_{ip}$$

L'espressione dei punteggi normalizzati della j-esima componente per l'i-esima unità è

$$y_{ij}=\frac{r_{Y_1X_1}}{\lambda_i}z_{i1}+\frac{r_{Y_1X_2}}{\lambda_i}z_{i2}+\dots +\frac{r_{Y_1X_p}}{\lambda_i}z_{ip}$$

La scelta delle $k < p$ componenti da scegliere può avvenire tramite 3 criteri

  1. Quota di varianza totale spiegata

    si considera un numero di CP in modo tale che spiegano almeno l'80% della varianza totale. Tale soglia può abbassarsi in caso di un numero considerevole di variabili del problema, dato che la varianza totale, in questo caso, aumenterebbe.

  2. Scree-graph

    Si costruisce un grafico le cui ascisse sone il numero di componenti principali $i=1,\dots , p$ e le ordinate sono gli autovalori $\lambda_i$ ordinati in maniera decrescente. Il numero di componenti da scegliere sarà quello in corrispondenza del quale il grafico manifesta una brusca variazione di pendenza (gomito). Nell'esempio qui sotto il numero di componenti estratte è $k=2$.

    scree graph
  3. Eigenvalue one o Regola di Kaiser

    Si considerano tutte le CP il cui autovalore è maggiore di 1

Questo sito usa i cookies per fornirti una migliore esperienza di navigazione. Prendi visione della privacy policy e clicca su "Accetta" per proseguire.