Variabili quantitative e qualitative

I dati raccolti da una popolazione o da un campione, si presentano allo statistico in maniera disordinata tant'è che vengono chiamati dati grezzi.

I dati grezzi, cosi come sono, non forniscono informazione finchè non vengono ordinati in qualche modo.

In questo articolo e nelle lezioni successive, verranno descritte alcune tecniche per organizzare e sintetizzare i dati in modo da poter evidenziare le loro caratteristiche e far venire a galla le informazioni utili.

Vediamo alcuni esempi di dati grezzi:

 

Esempio

Numero di particelle cosmiche rilevate con uno strumento di misurazione in 40 periodi consecutivi di un minuto

numero di particelle rilevate in un intervallo di un minuto

 

Esempio

80 misurazioni, in una data unità di misura, delle emissioni giornaliere di un gas inquinante da un impianto industriale

quantita di gas inquinante emesso in un giorno

 

Esempio

Casi di malfunzionamento di una macchina utensile controllata dal computer e le loro cause

causa guasto macchina utensile

Per ciascuno degli esempi possiamo indicare chiaramente qual è la variabile osservata e il numero di osservazioni registrate:

  1. il numero di particelle rilevate in un intervallo di un minuto ($n=40$ dati da analizzare);
  2. la quantità di gas inquinante in un giorno ($n=80$ dati da analizzare);
  3. la causa di un guasto di una macchina utensile ($n=48$ dati da analizzare).

Le variabili osservate possono classificarsi come mostrato nella figura seguente:

classificazione variabili quantitative e qualitative

Una variabile si dice numerica o quantitativa se i valori che essa assume sono numeri; si dice non numerica o qualitativa se non assume valori numerici.

Le variabili degli esempi 1 e 2 sono numeriche, la variabile dell'esempio 3 è non numerica.

Una variabile numerica si dice discreta se l'insieme dei valori che può assumere è finito o numerabile (l'insieme dei numeri naturali 1,2,3,4,...), continua se l'insieme dei valori che essa può assumere è l'insieme dei numeri reali o un intervallo di numeri reali.

La variabile dell'esempio 1 è discreta perchè il numero di particelle osservate è sempre un numero intero maggiore o uguale a 0; la variabile dell'esempio 2, perchè la misura della quantità di gas emesso può essere un qualunque numero reale positivo (non solo intero).

 

Variabili numeriche discrete

Nell'esempio 1 la variabile $X$ osservata è una variabile numerica discreta, che può assumere solo i valori 0,1,2,3,4,5,6,7,8. Per tale motivo è plausibile organizzare tali dati in classi $k=0,1,2,,3,4,5,6,7,8$ e contare per ogni classe il numero di osservazioni rilevate detta frequenza assoluta. Inoltre, per ogni classe, possiamo ricavarci la frequenza relativa, ossia il rapporto tra la frequenza assoluta e il numero totale di osservazioni (nel nostro esempio 40) e la frequenza percentuale, ossia la frequenza relativa moltiplicata per 100, come mostra la seguente tabella:

Distribuzione di frequenza di una variabile numerica discreta

Osserviamo, per esempio, che, poichè la classe 2 si presenta 10 volte (frequenza assoluta) nell'esempio 1, la sua frequenza relativa e quella percentuale sono rispettivamente $$\begin{eqnarray} f_r &=& \frac{10}{40}=0.25\\ f_p &=& 0.25\cdot 100\%=25\%\end{eqnarray}$$

Osserviamo inoltre, che, il totale delle frequenze assolute coincide il totale delle osservazioni rilevate, il totale delle frequenze relative è 1 e il totale delle frequenze percentuali è 100%.

 

Variabili numeriche continue

Nell'esempio 2 la variabile osservata è continua ed assume valori compresi tra 6.2 e 31.8. In questo caso si sceglie di raggruppare i dati in classi intervallari.

Di solito si scelgono un numero di classi pari a $$k=1+3.322\cdot\log_{10}{n}=$$ (dove $n$ rappresenta il numero dei dati osservati), tutte con uguale ampiezza $$a=\frac{R}{k}$$ dove $R$ rappresenta il campo di variazione o range dei dati, cioè la differenza tra il valore più grande e quello più piccolo.

Quindi, nell'esempio considerato si ha: $$\begin{eqnarray} k &=& 1+3.322\cdot\log_{10}80\simeq 7\\ a &=& \frac{31.8-6.2}{7}\simeq 3.7\end{eqnarray}$$

Questo giustifica la scelta di suddividere i dati in 7 classi di ampiezza 4: $$\begin{eqnarray} 5\le\ &x& < 9\\ 9\le\ &x& < 13\\ 13\le\ &x& < 17\\ 17\le\ &x& < 21\\ 21\le\ &x& < 25\\ 25\le\ &x& < 29\\ 29\le\ &x& < 33\end{eqnarray}$$

Come fatto prima per la variabile discreta, troviamo la seguente distribuzione delle frequenza per la variabile numerica continua:

Distribuzione di frequenza di una variabile numerica continua

Con i dati dell'esempio 1 si possono usare classi comprendenti due possibili valori della variabile osservata, ottenendo la seguente distribuzione di frequenza:

Distribuzione di frequenza per una variabile discreta con classi comprendenti due valori

 

Variabili non numeriche o qualitative

Nell'esempio 3 la variabile "tipo di guasto" è non numerica e, essendo i dati già raggruppati in classi, si ottiene la seguente distribuzione di frequenza:

Distribuzione di frequenza di una variabile qualitativa

Questo sito usa i cookies per fornirti una migliore esperienza di navigazione. Prendi visione della privacy policy e clicca su "Accetta" per proseguire.