Distribuzioni di frequenze congiunte

Si parla di distribuzione di frequenza congiunta quando si raccolgono più informazioni riguardo una stessa unità statistica e si è interessati al verificarsi contemporaneo di certe modalità.

In questo articolo tratteremo il caso in cui ogni unità statistica può presentare solo due caratteri $X$ e $Y$ aventi rispettivamente le seguenti modalità: $$\begin{array}{l} x_1,x_2,\dots ,x_r\\ y_1,y_2,\dots ,y_c\end{array}$$

Indicando con $n_{ij}$ la frequenza assoluta della coppia $(x_i,y_j)$, possiamo riassumere tutte le osservazione delle variabili $X$ e $Y$ in una tabella a doppia entrata detta tabella di contingenza del tipo seguente.

Tabella della distribuzione congiunta di frequenza di due variabili

Leggiamo la tabella formata da $r$ righe e $c$ colonne (escluse la riga e la colonna dei totali):

  • come già detto, la parte centrale della tabella, ossia le $n_{ij}$ rappresentano le frequenze assolute per quanto riguarda le modalità $x_i$ e $y_j$ (ad esempio $n_{21}$ indica la frequenza assoluta per le modalità $x_2$ e $y_1$.
  • $n_{1\cdot}, n_{2\cdot},\dots , n_{r\cdot}$ sono le frequenze marginali assolute della variabile $X$, anche dette frequenze marginali assolute di riga; esse rappresentano rispettivamente le somme delle frequenze assolute della 1°, 2°,..., r-esima riga (ad esempio $n_{1\cdot} = n_{11}+n_{12}+\dots +n_{1c}$). In generale per la i-esima riga possiamo scrivere $$n_{i\cdot}=n_{i1}+n_{i2}+\dots +n_{ic}$$
  • $n_{\cdot 1}, n_{\cdot 2},\dots , n_{\cdot c}$ sono le frequenze marginali assolute della variabile $Y$, anche dette frequenze marginali assolute di colonna; esse rappresentano rispettivamente le somme delle frequenze assolute della 1°, 2°,..., c-esima colonna (ad esempio $n_{\cdot 2} = n_{12}+n_{22}+\dots +n_{r2}$). In generale per la j-esima colonna possiamo scrivere $$n_{\cdot j}=n_{1j}+n_{2j}+\dots +n_{rj}$$
  • $n$ è la somma totale delle frequenze assolute $n_ij$, nonchè la somma delle frequenze marginali assolute di riga e di colonna, ossia: $$n=n_{1\cdot}+ n_{2\cdot}+\dots + n_{r\cdot}= n_{\cdot 1}+ n_{\cdot 2}+\dots + n_{\cdot c}$$
  • La j-esima colonna della tabella rappresenta la distribuzione condizionata $X|Y=y_j$ (leggi $X$ dato $Y=y_j$). Ad esempio, la 3° colonna è la distribuzione condizionata della $X$ dato $Y=y_3$.
  • La i-esima riga della tabella rappresenta la distribuzione condizionata $Y|X=x_i$ (leggi $Y$ dato $X=x_i$). Ad esempio, nella seconda riga troviamo la distribuzione condizionata della $Y$ dato $X=x_2$.

Quanto detto è illustrato schematicamente di seguito.

Distribuzioni marginali e distribuzioni condizionate ricavabili dalla tabella della distribuzione congiunta doppia

Esempio

Esempio di distribuzione doppia di frequenza con caratteri qualitativi

La tabella seguente raccoglie alcune informazioni riguardo la strage del Titanic; in particolare sono presenti le frequenze assolute per la variabile $X = esito$ (con modalità $x_1=salvato$ e $x_2=non salvato$) e per la variabile $Y= Classe$ (con modalità $y_1=I\ classe$, $y_2=II\ classe$ e $y_3=III\ classe$).

Esempio di tabella con distribuzione congiunta doppia per variabili qualitative

Osserviamo innanzitutto che entrambe le variabili $X$ e $Y$ sono qualitative; inoltre, la tabella ci dice, ad esempio, che 203 passeggeri che viaggiavano in I classe si sono salvati. Analogamente, possiamo dire che 528 paasseggeri che viaggiavano in III classe non si sono salvati. Inoltre, guardando i bordi della tabella, in particolare quello destro, si evince che il totale dei sopravvissuti sono stati 499 a prescindere dalla classe in cui viaggiavano; mentre, guardando il bordo inferiore della tabella, si può dedurre che il numero totale dei passeggeri che viaggiavano in II classe erano 285 a prescindere dall'esito del disastro.

Osserviamo infine che:

  • I valori presenti nella parte interna della tabella ($n_{11}=203$, $n_{12}=118$, $n_{13}=178$, $n_{21}=122$, $n_{22}=167$ e $n_{23}=528$) sono le frequenze assolute
  • I valori presenti nel bordo destro sono le frequenze marginali della variabile Esito e si ha che: $$\begin{array}{l} n_{1\cdot}=499=203+118+178\\ n_{2\cdot}=817=122+167+528\end{array}$$
  • I valori presenti nel bordo inferiore sono le frequenze marginali della variabile Classe e si ha che: $$\begin{array}{l} n_{\cdot 1}=325=203+122\\ n_{\cdot 2}=285=118+167\\ n_{\cdot 3}=706=178+528\end{array}$$
  • Il numero posto nell'angolo in basso a destra è il totale delle frequenze marginali di riga e di colonna $$\begin{array}{l} n &=1316 =499+817=\\ &= 325+285+706\end{array}$$
  • Se consideriamo una sola riga otteniamo la distribuzione della variabile Classe condizionata ad una modalità della variabile Esito. Ad esempio i valori della 1° riga esprimono la distribuzione della variabile Classe condizionata alla modalità "Salvato" della variabile Esito

    Esempio di distribuzione condizionata Y dato X=x

  • Se consideriamo una sola colonna otteniamo la distribuzione della variabile Esito condizionata ad una modalità della variabile Classe. Ad esempio i valori della 2° colonna esprimono la distribuzione della variabile Esito condizionata alla modalità "II classe" della variabile Classe

    Esempio di distribuzione condizionata X dato Y=y

Se stai cercando come calcolare media e mediana in una tabella di contingenza visita i link qui in basso:

 

Questo sito usa i cookies per fornirti una migliore esperienza di navigazione. Prendi visione della privacy policy e clicca su "Accetta" per proseguire.