sabato 15 novembre 2008

Test t a due campioni #1

Confronto delle medie di due gruppi di campioni indipendenti, estratti da due popolazioni a varianza incognita, varianze campionarie omogenee.

Riprendiamo i dati utilizzati in un precedente esercizio
Si chiede di confrontare le medie delle altezze di due gruppi, estratti da due popolazioni a varianza non nota. I dati vengono riportati qui di seguito (i valori sono completamente inventati).

A: 175, 168, 168, 190, 156, 181, 182, 175, 174, 179
B: 185, 169, 173, 173, 188, 186, 175, 174, 179, 180

Per risolvere questo problema dobbiamo ricorrere ad un test t di student a due campioni, supponendo che i due campioni siano estratti da popolazioni che seguano una distribuzione di tipo gaussiana (nel caso in cui non si possa supporre ciò, si risolve questo problema sfruttando il metodo non parametrico, chiamato test di Wilcoxon-Mann-Whitney). Prima di procedere con il test t, è necessario valutare le varianze campionarie dei due gruppi, ossia effettuare un test F di Fisher per verificare l’omoschedasticità (omogeneità delle varianze). In R si procede così:

> a = c(175, 168, 168, 190, 156, 181, 182, 175, 174, 179)
> b = c(185, 169, 173, 173, 188, 186, 175, 174, 179, 180)
>
> var.test(a,b)

F test to compare two variances

data: a and b
F = 2.1028, num df = 9, denom df = 9, p-value = 0.2834
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.5223017 8.4657950
sample estimates:
ratio of variances
2.102784


Abbiamo ottenuto p-value maggiore di 0.05, quindi possiamo supporre che le due varianze siano omogenee. Difatti possiamo confrontare il valore di F ottenuto con il valore di F tabulato per alpha = 0.05, gradi di libertà del numeratore = 9, e gradi di libertà del denominatore = 9, utilizzando la funzione qf(p, df.num, df.den):

> qf(0.95, 9, 9)
[1] 3.178893


Notiamo che il valore di F calcolato è minore del valore di F tabulato, il che ci porta ad accettare l’ipotesi di omogeneità delle varianze.
NOTA: la distribuzione F ha una sola coda, pertanto con un grado di confidenza del 95%, inseriamo nella funzione di R un valore p = 0.95. Viceversa la distribuzione t ha due code, e per questo nella funzione di R qt(p, df) inseriamo un valore p = 0.975.

Richiamiamo quindi la funzione t.test per varianze omogenee (var.equal=TRUE)e campioni indipendenti (paired=FALSE, che si può anche omettere perché di default la funzione lavora su campioni indipendenti) in questo modo:

> t.test(a,b, var.equal=TRUE, paired=FALSE)

Two Sample t-test

data: a and b
t = -0.9474, df = 18, p-value = 0.356
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-10.93994 4.13994
sample estimates:
mean of x mean of y
174.8 178.2


Abbiamo ottenuto p-value maggiore di 0.05, quindi possiamo concludere che le medie dei due gruppi sono significativamente simili. Difatti il valore di t è minore rispetto al valore t-tabulato per 18 gradi di libertà, che in R possiamo calcolare così:

> qt(0.975, 18)
[1] 2.100922


Questo ci conferma che possiamo accettare l’ipotesi H0 di uguaglianza delle medie.

Nessun commento:

Posta un commento