Webtudordimatematica

Intervalli di confidenza per la media

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare...

Come già detto, la media campionaria $\overline{x}$ è una buona stima, corretta ed efficiente (approfondisci), della media $\mu$ di una popolazione. Tuttavia, non c'è alcuna probabilità che la stima sia esattamente uguale a $\mu$; ha quindi più significato stimare $\mu$ con un intervallo, che in qualche modo ci dà informazioni sulla probabile grandezza di $\mu$.

Per ottenere una stima per intervallo, si utilizzano le proprietà delle distribuzioni campionarie. In questo caso, poiché si vuole stimare la media della popolazione per mezzo della media di un campione, facciamo ricorso alla distribuzione della media campionaria.

Poiché nella pratica si estrae un solo campione, e ovviamente non conosciamo la media della popolazione, non possiamo essere certi che la stima a cui si perviene sia corretta. Per risolvere tale problema, ogni stima per intervallo viene calcolata valutando anche il grado di fiducia, ossia la percentuale dei campioni che dà luogo a conclusioni corrette.

 

Caso varianza $\sigma^2$ della popolazione nota

Consideriamo una popolazione avente una distribuzione con varianza nota $\sigma^2$ e media incognita $\mu$ ed estraiamo da questa popolazione un campione di ampiezza $n$.

In base al Teorema del Limite Centrale possiamo dire che, per grandi valori di $n$, la statistica $$Z=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$$ ha approssimativamente la distribuzione normale standard ($Z\sim N(0,1)$).

Indicando con $z_{\frac{\alpha}{2}}$ il valore critico della statistica $Z$, tale che l'area sottesa dalla distribuzione alla sua destra vale $\frac{\alpha}{2}$, si ha che l'area compresa tra $-z_{\frac{\alpha}{2}}$ e $z_{\frac{\alpha}{2}}$ vale $1-2\frac{\alpha}{2}=1-\alpha$. In termini di probabilità si ha: $$P\left(-z_{\frac{\alpha}{2}} < Z < z_{\frac{\alpha}{2}}\right)=1-\alpha$$

Area sottesa dalla distribuzione normale in corrispondenza dei valori critici

Di conseguenza, di può affermare con probabilità $1-\alpha$, che è soddisfatta la seguente disuguaglianza: $$-z_{\frac{\alpha}{2}} < \frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}} < -z_{\frac{\alpha}{2}}$$

Risolvendo quest'ultima rispetto a $\mu$ si ottiene $$\overline{X}-z_{\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}} < \mu < \overline{X}+z_{\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}$$

Pertanto, una volta estratto il campione di ampiezza $n$ ( sufficientemente grande $n\ge 30$) e calcolato il valore di $\overline{x}$ della media del campione, si ottiene l'intervallo di confidenza per la media $\mu$ con grado di fiducia $(1-\alpha)\cdot 100%$

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\overline{x}-z_{\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}} < \mu < \overline{x}+z_{\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}}$$

Questo vuol dire che si può affermare con probabilità $1-\alpha$ che l'intervallo $\left(\overline{x}-z_{\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}} < \mu < \overline{x}+z_{\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}\right)$ contiene la media della popolazione $\mu$.

 

Come calcolare il valore critico $z_\frac{\alpha}{2}$ di una distribuzione normale

A ciascun grado di fiducia corrisponde un diverso valore critico. I valori più comunemente usati per $1-\alpha$ sono 0.90, 0.95 e 0.99, ovvero rispettivamente grado di fiducia del 90%, del 95% e del 99%.

Supponiamo che il grado di fiducia dato sia 90%, ovvero $1-\alpha=0.90$; risolvendo quest'ultima equazione rispetto ad $\alpha$ otteniamo $\alpha=0.10$. Dunque, il valore critico associato da calcolare sarà $$z_\frac{\alpha}{2}=z_\frac{0.10}{2}=z_{0.05}$$

Questo valore può essere letto nelle tavole della distribuzione normale: infatti, basta cercare sulla tavola il valore che si avvicina maggiormente a $1-\frac{\alpha}{2}=1-0.05=0.95$ (valore dell'area sottesa dalla curva di Gauss a sinistra del valore critico). In questa immagine si può vedere che i valori che si avvicinano maggiormente a 0.95 sono 0.9495 e 0.9505; al primo corrisponde il valore critico 1.64 e al secondo il valore critico 1.65. Pertanto $$z_{0.05}=\frac{1.64+1.65}{2}=1.645$$

 

Calcolo lunghezza di un intervallo di confidenza con grado di fiducia $(1-\alpha)\cdot 100\%$

La formula di calcolo è la seguente:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{2z_{\frac{\alpha}{2}}\cdot\frac{\sigma}{\sqrt{n}}}$$

e dipende da 3 fattori:

  1. $n$: al crescere dell'ampiezza del campione, la lunghezza dell'intervallo diminuisce, quindi la stima è più precisa;
  2. $\alpha$: al crescere del grado di fiducia richiesto (quindi al diminuire di $\alpha$), la lunghezza dell'intervallo aumenta, quindi la stima è meno precisa;
  3. $\sigma$: al crescere della deviazione standard, che riflette la variabilità del campione, la lunghezza dell'intervallo aumenta.
Esempio: Calcolo dell'intervallo di confidenza per la media con varianza $\sigma^2$ nota (grandi campioni)

Si vuole stimare il numero medio di battiti cardiaci al minuto per una certa popolazione. Il numero medio di battiti al minuto per un campione di 49 soggetti è risultato uguale a 90. La popolazione è distribuita in modo normale con uno scarto quadratico medio $\sigma=10$.

Trovare l'intervallo di confidenza per la media della popolazione con grado di fiducia del 99%.

Svolgimento

Per il grado di fiducia del 99% il valore critico è $z_{\frac{\alpha}{2}}=2.576$. Con la formula scritta sopra si ottiene: $$\begin{eqnarray} 90-2.576\cdot\frac{10}{\sqrt{49}} < &\mu& < 90+2.576\cdot\frac{10}{\sqrt{49}}\\ 86.32 < &\mu& < 93.68\end{eqnarray}$$

Se $\sigma$ non è noto ma il campione è grande ($n\ge 30$), posso sostituirlo con lo scarto quadratico medio campionario $s$ e applicare la stessa formula.

Esempio: Calcolo dell'intervallo di confidenza per la media con varianza $\sigma^2$ incognita (grandi campioni)

Sia dato un campione di 100 studenti tratto da una popolazione di studenti di sesso maschile iscritti ad un'università; la tabella sottostante rappresenta la distribuzione di frequenza dei pesi in kg degli studenti.

Trovare l'intervallo di confidenza al 95% per il peso medio di tutti gli studenti.

Tabella delle frequenze dei pesi degli studenti

Svolgimento

Calcoliamo la media e la varianza campionarie per i dati suddivisi in classi: $$\begin{eqnarray} \overline{x}&=&\frac{5\cdot 61+18\cdot 64+42\cdot 67+27\cdot 70+8\cdot 73}{100}=67.45\\ s^2&=&\frac{1}{99}(5\cdot 61^2+18\cdot 64^2+42\cdot 67^2+27\cdot 70^2+8\cdot 73^2-100\cdot 67.45^2)=8.61\end{eqnarray}$$

Per il grado di fiducia del 95% il valore critico è $z_{\frac{\alpha}{2}}=1.96$. Applicando la solita formula sostituendo al posto di $\sigma$ il valore di $s$, otteniamo: $$\begin{eqnarray} 67.45-1.96\cdot\frac{\sqrt{8.61}}{\sqrt{100}} < &\mu& < 67.45+1.96\cdot\frac{\sqrt{8.61}}{\sqrt{100}}\\ 66.87 < &\mu& < 68.02\end{eqnarray}$$

Se la popolazione $X$ da cui proviene il campione ha distribuzione normale, tale intervallo di confidenza vale qualsiasi sia la dimensione del campione (anche per piccoli campioni $n < 30$).

 

Caso varianza $\sigma^2$ della popolazione incognita

Se $\sigma$ non è noto, nel caso di grandi campioni ($n\ge 30$), può essere sostituito con lo scarto quadratico medio campionario $s$.

Per piccoli campioni ($n < 30$), nell'ipotesi che la popolazione da cui si estrae il campione abbia distribuzione normale, si può ricorrere alla statistica $$T=\frac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}$$ che rappresenta una variabile aleatoria con distribuzione t di Student con $\nu=n-1$ gradi di libertà ($\nu$ leggi "ni").

Procedendo come nel caso dei grandi campioni, dopo aver calcolato il valor medio campionario $\overline{x}$ e lo scarto quadratico medio $s$, si ottiene l'intervallo di confidenza per la media $\mu$, per piccoli campioni, con grado di fiducia $(1-\alpha)\cdot 100\%$:

$$\bbox[#ffffff,5px,border:2px solid #ff6600]{\overline{x}-t_{\frac{\alpha}{2}}\cdot\frac{s}{\sqrt{n}} < \mu < \overline{x}+t_{\frac{\alpha}{2}}\cdot\frac{s}{\sqrt{n}}}$$

 

Come calcolare il valore critico $t_\frac{\alpha}{2}$ di una distribuzione t di Student

Analogamente a come fatto per la distribuzione normale, calcoliamo il valore critico $t_\frac{\alpha}{2}$ corrispondente ad un grado di fiducia del 95%, ovvero $1-\alpha=0.95$ e con $\nu=n-1=8-1=7$ gradi di libertà. Si ha che $\alpha=0.05$ e $$t_{\frac{\alpha}{2},n-1}=t_{0.025,7}$$

Guardando le tavole della distribuzione t di Student (clicca qui), vediamo che $$t_{0.025,7}=2.365$$

Esempio: Calcolo dell'intervallo di confidenza per la media con varianza $\sigma^2$ incognita (piccoli campioni)

Sia dato un campione di 16 oggetti di cui si misura il peso, trovando un peso medio $\overline{x}=3.42g$ e uno scarto quadratico medio $s=0.68g$.

Determinare un intervallo di confidenza con grado di fiducia del 99% per il peso medio della popolazione.

Svolgimento

Poiché si tratta di misure, si può ragionevolmente ipotizzare che la popolazione da cui proviene il campione abbia distribuzione normale. Il campione ha ampiezza $n=16$, perciò il grado di libertà è $$\nu=n-1=15$$

Dalle tavole della distribuzione $t$ si ottiene $$t_{0.005,15}=2.947$$

Con la formula esposta sopra otteniamo l'intervallo di confidenza: $$\begin{eqnarray} 3.42-2.947\cdot\frac{0.68}{\sqrt{16}} &<& 3.42+2.947\cdot\frac{0.68}{\sqrt{16}}\\ 2.91 &<& 3.93\end{eqnarray}$$

 

VAI AGLI ESERCIZI

 

10.000 esercizi
formazione completa

Eserciziari di Matematica Generale, Analisi I e II, Statistica, Fisica e Algebra Lineare

Leggi tutto

Statistica
Video corsi

Video corso R per ricercatori e professionisti

Leggi tutto
Il quaderno degli appunti
Statistica e Probabilità

Indice di connessione di Mortara

L'indice di Mortara è un indice utilizzato per misurare il grado di connessione o associazione tra due variabili X e Y qualitative nominali o categor
Statistica e Probabilità

Indice di connessione Chi-quadrato

Il Chi-quadrato è l'indice di connessione più utilizzato in statistica per valutare l'associazione tra due variabili categoriali o qualitative. Ad
Statistica e Probabilità

Indice V di Cramer

L'indice di Cramer è un indice di connessione normalizzato usato per stabilire il grado di associazione tra due variabili qualitative nominali X eY.