Cluster Analysis: scelta dei coefficienti di diversità

La cluster analysis è una tecnica di analisi multivariata attraverso la quale è possibile raggruppare le unità statistiche, in modo da minimizzare la lontananza logica interna a ciascun gruppo e di massimizzare quella tra i gruppi.

La lontananza logica viene quantificatà per mezzo di misure di similarità/dissimilarità definite tra unità statistiche.

Sia data una funzione $d$ che ad ogni coppia $(i,j)$ associa un numero positivo con le seguenti proprietà:

  1. separabilità: $d(i,j)=0\ \Leftrightarrow\ x_i=x_j$;
  2. simmetria: $d(i,j)=d(j,i)$
  3. disuguaglianza triangolare: $$d(i,j)\le d(i,k)+d(k,j)\ \forall i,j,k$$
  4. condizione di Krassner:$$d(i,j)\le sup[d(i,k),d(k,j)]\ \forall i,j,k$$

Diremo che $d$ è:

  • indice di dissimilarità se soddisfa 1 e 2;
  • metrica o distanza se soddisfa 1, 2 e 3
  • ultrametrica se soddisfa 1, 2 e 4

La scelta tra indici di dissimilarità e metrica dipende dal tipo di dati che abbiamo a disposizione: per dati qualitativi useremo misure di associazione(similarità o dissimilarità); per dati quantitativi possiamo utilizzare delle metriche.

Misure di distanza

Consideriamo la matrice dei dati $X$ di dimensione $n\times p$:

$$X=\left(\begin{matrix} x_{11} & x_{12} & \dots & x_{1p}\\ x_{21} & x_{22} & \dots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n1} & x_{n2} & \dots & x_{np}\end{matrix}\right)$$

ricordiamo che i $p$ vettori colonna rappresentano le variabili prese in esame e ciascuna di esse presenta n unità statistiche.

Vediamo come effettuare una cluster analysis.

Supponiamo che gli $x_{ij}$ siano dei numeri, ovvero supponiamo che le $p$ variabili siano quantitative.

Allora possiamo definire le seguenti distanze/metriche:

  1. metrica di Manhattan o distanza delle città a blocchi: $$d(i,j)=\sum\limits_{k=1}^p|x_{ik}-x_{jk}|$$
  2. metrica Euclidea: $$d(i,j)=\sqrt{\sum\limits_{k=1}^p(x_{ik}-x_{jk})^2}$$
  3. distanza di Mahalanobis(in notazione vettoriale): $$d(i,j)=(x_i-x_j)^TC^{-1}(x_i-x_j)$$ dove $C$ è la matrice di covarianza di $X$.

Utilizzando una di queste metriche, dalla matrice $X$ si otterrà la matrice delle distanze:

$$D=\left(\begin{matrix} d_{11} & d_{12} & \dots & d_{1p}\\ d_{21} & d_{22} & \dots & d_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ d_{n1} & d_{n2} & \dots & d_{np}\end{matrix}\right)$$

Misure di associazione

Supponiamo, adesso, che $X$ sia composta da dati qualitativi, ossia supponiamo di avere $p$ variabili che identificano $p$ attributi, ciascuno dei quali può essere assente o presente in una generica unità statistica. Ad esempio, considerati gli attributi $1\ 2\dots k\dots p$, due generiche righe della matrice $X$ sono fatte così:

 Attributi

  1 2 3 ... k ... p
$x_i$ 0 0 1 1 ... 0 1
$x_j$ 1 0 0 1 ... 1 1

dove gli 1 indicano la presenza del k-esimo attributo, mentre gli 0 l'assenza

Da questa verrà fuori una matrice di associazione del tipo:

 +-

+ a b
- c d

dove $a$ rappresenta il numero di volte in cui il k-esimo fattore compare sia in $x_i$ che in $x_j$ (cioè si ha $(x_i,x_j)=(1,1)$); $b$ rappresenta il numero di volte in cui il k-esimo fattore compare in $x_j$ ma non in $x_i$ (cioè si ha $(x_i,x_j)=(0,1)$); $c$ è il numero di occorrenze in cui il k-esimo fattore compare in $x_i$ ma non in $x_j$ (cioè si ha $(x_i,x_j)=(1,0)$); infine, $d$ indica quante volte accade $(x_i,x_j)=(0,0)$.

Ad esempio se avessimo $p=6$ attributi per ciascuna unità $x_1$ e $x_2$

 Attributi

  1 2 3 4 5 6
$x_1$ 0 0 1 1 0 1
$x_2$ 1 0 0 1 1 1

otterremmo la seguente matrice di associazione:

 +-

+ 2 2
- 1 1

Possiamo definire come coefficienti di similarità:

  1. $(a+d)/(a+b+c+d)$;
  2. $a/(a+b+c)$;
  3. $a/(a+b+c+d)$;
  4. $(2a)/(2a+b+c)$;
  5. $2(a+d)/(2(a+d)+b+c)$
  6. $a/(a+2(b+c))$.

I primi 3 differiscono tra loro per il modo in cui tengono conto delle associazioni $(0,0)$. Gli ultimi 3, invece, differiscono per il fatto che le associazioni ($(0,0)$ o $(1,1)$) hanno peso doppio delle dissociazioni ($(0,1)$ o $(1,0)$) o viceversa.

Coefficienti di dissimilarità si trovano facendo il complemento a 1 dell'indice di similarità prescelto. Per esempio se scegliessimo l'1 come indici di similarità, l'indice di dissimilarità sarà:

$$1-\frac{a+d}{a+b+c+d}=\frac{b+c}{a+b+c+d}$$

Questo è uno degli indici di dissimilarità più utilizzati.

Questo sito usa i cookies per fornirti una migliore esperienza di navigazione. Prendi visione della privacy policy e clicca su "Accetta" per proseguire.