La cluster analysis è una tecnica di analisi multivariata attraverso la quale è possibile raggruppare le unità statistiche, in modo da minimizzare la lontananza logica interna a ciascun gruppo e di massimizzare quella tra i gruppi.
La lontananza logica viene quantificatà per mezzo di misure di similarità/dissimilarità definite tra unità statistiche.
Sia data una funzione $d$ che ad ogni coppia $(i,j)$ associa un numero positivo con le seguenti proprietà:
- separabilità: $d(i,j)=0\ \Leftrightarrow\ x_i=x_j$;
- simmetria: $d(i,j)=d(j,i)$
- disuguaglianza triangolare: $$d(i,j)\le d(i,k)+d(k,j)\ \forall i,j,k$$
- condizione di Krassner:$$d(i,j)\le sup[d(i,k),d(k,j)]\ \forall i,j,k$$
Diremo che $d$ è:
- indice di dissimilarità se soddisfa 1 e 2;
- metrica o distanza se soddisfa 1, 2 e 3
- ultrametrica se soddisfa 1, 2 e 4
La scelta tra indici di dissimilarità e metrica dipende dal tipo di dati che abbiamo a disposizione: per dati qualitativi useremo misure di associazione(similarità o dissimilarità); per dati quantitativi possiamo utilizzare delle metriche.
Misure di distanza
Consideriamo la matrice dei dati $X$ di dimensione $n\times p$:
$$X=\left(\begin{matrix} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{22} & \dots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \dots & x_{np}\end{matrix}\right)$$
ricordiamo che i $p$ vettori colonna rappresentano le variabili prese in esame e ciascuna di esse presenta n unità statistiche.
Vediamo come effettuare una cluster analysis.
Supponiamo che gli $x_{ij}$ siano dei numeri, ovvero supponiamo che le $p$ variabili siano quantitative.
Allora possiamo definire le seguenti distanze/metriche:
- metrica di Manhattan o distanza delle città a blocchi: $$d(i,j)=\sum\limits_{k=1}^p|x_{ik}-x_{jk}|$$
- metrica Euclidea: $$d(i,j)=\sqrt{\sum\limits_{k=1}^p(x_{ik}-x_{jk})^2}$$
- distanza di Mahalanobis(in notazione vettoriale): $$d(i,j)=(x_i-x_j)^TC^{-1}(x_i-x_j)$$ dove $C$ è la matrice di covarianza di $X$.
Utilizzando una di queste metriche, dalla matrice $X$ si otterrà la matrice delle distanze:
$$D=\left(\begin{matrix} d_{11} & d_{12} & \dots & d_{1p}\\ d_{21} & d_{22} & \dots & d_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ d_{n1} & d_{n2} & \dots & d_{np}\end{matrix}\right)$$
Misure di associazione
Supponiamo, adesso, che $X$ sia composta da dati qualitativi, ossia supponiamo di avere $p$ variabili che identificano $p$ attributi, ciascuno dei quali può essere assente o presente in una generica unità statistica. Ad esempio, considerati gli attributi $1\ 2\dots k\dots p$, due generiche righe della matrice $X$ sono fatte così:
Attributi
1 | 2 | 3 | ... | k | ... | p | |
$x_i$ | 0 | 0 | 1 | 1 | ... | 0 | 1 |
$x_j$ | 1 | 0 | 0 | 1 | ... | 1 | 1 |
dove gli 1 indicano la presenza del k-esimo attributo, mentre gli 0 l'assenza
Da questa verrà fuori una matrice di associazione del tipo:
+-
+ | a | b |
- | c | d |
dove $a$ rappresenta il numero di volte in cui il k-esimo fattore compare sia in $x_i$ che in $x_j$ (cioè si ha $(x_i,x_j)=(1,1)$); $b$ rappresenta il numero di volte in cui il k-esimo fattore compare in $x_j$ ma non in $x_i$ (cioè si ha $(x_i,x_j)=(0,1)$); $c$ è il numero di occorrenze in cui il k-esimo fattore compare in $x_i$ ma non in $x_j$ (cioè si ha $(x_i,x_j)=(1,0)$); infine, $d$ indica quante volte accade $(x_i,x_j)=(0,0)$.
Ad esempio se avessimo $p=6$ attributi per ciascuna unità $x_1$ e $x_2$
Attributi
1 | 2 | 3 | 4 | 5 | 6 | |
$x_1$ | 0 | 0 | 1 | 1 | 0 | 1 |
$x_2$ | 1 | 0 | 0 | 1 | 1 | 1 |
otterremmo la seguente matrice di associazione:
+-
+ | 2 | 2 |
- | 1 | 1 |
Possiamo definire come coefficienti di similarità:
- $(a+d)/(a+b+c+d)$;
- $a/(a+b+c)$;
- $a/(a+b+c+d)$;
- $(2a)/(2a+b+c)$;
- $2(a+d)/(2(a+d)+b+c)$
- $a/(a+2(b+c))$.
I primi 3 differiscono tra loro per il modo in cui tengono conto delle associazioni $(0,0)$. Gli ultimi 3, invece, differiscono per il fatto che le associazioni ($(0,0)$ o $(1,1)$) hanno peso doppio delle dissociazioni ($(0,1)$ o $(1,0)$) o viceversa.
Coefficienti di dissimilarità si trovano facendo il complemento a 1 dell'indice di similarità prescelto. Per esempio se scegliessimo l'1 come indici di similarità, l'indice di dissimilarità sarà:
$$1-\frac{a+d}{a+b+c+d}=\frac{b+c}{a+b+c+d}$$
Questo è uno degli indici di dissimilarità più utilizzati.