Maneira estranha de calcular o qui-quadrado no Excel vs R

9

Estou olhando para uma planilha do Excel que afirma estar calculando o , mas não reconheço essa maneira de fazê-lo, e fiquei pensando se estou perdendo alguma coisa.χ2

Aqui estão os dados que está analisando:

+------------------+----------+----------+
| Total Population | Observed | Expected |
+------------------+----------+----------+
|             2000 |       42 | 32.5     |
|             2000 |       42 | 32.5     |
|             2000 |       25 | 32.5     |
|             2000 |       21 | 32.5     |
+------------------+----------+----------+

E aqui estão as somas que ele faz para cada grupo para calcular o quadrado do qui:

P = (sum of all observed)/(sum of total population) = 0.01625
A = (Observed - (Population * P)) ^2
B = Total Population * P * (1-P)
ChiSq = A/B

Portanto, para cada grupo, o é:χ2

2.822793
2.822793
1.759359
4.136448

Eo total Praça Chi é: 11.54139.

No entanto, todos os exemplos que tenho visto de calcular o são completamente diferentes disso. Eu faria para cada grupo:χ2

chiSq = (Observed-Expected)^2 / Expected

E, portanto, para o exemplo acima, eu obteria um valor total de chi quadrado de 11.3538.

χ2

ATUALIZAR

Minha razão para querer saber isso é que estou tentando replicar esses resultados na linguagem R. Estou usando a função chisq.test e ela não sai com o mesmo número que a planilha do Excel. Portanto, se alguém souber como fazer essa abordagem em R, seria muito útil!

ATUALIZAÇÃO 2

Se alguém estiver interessado, veja como eu o calculei em R:

res <- matrix(c((2000-42), 42, (2000-42), 42, (2000-25), 25, (2000-21), 21), 2, 4)
chisq.test(res)
user1578653
fonte
A abordagem na sua segunda atualização deve fornecer a estatística correta. No entanto, se suas expectativas não são baseadas na soma do observado, você pode ter um problema, porque o valor de p condiciona isso. No entanto, percebo que o esperado e o observado têm o mesmo total (improvável que aconteça por acaso), portanto tudo está bem. Você poderia fazê-lo mais facilmente desta maneira:x=c(42,42,25,21);chisq.test(cbind(x,2000-x))
Glen_b -Reinstar Monica 02/02
@Glen_b Na planilha do Excel, acredito que as expectativas são calculadas com a População Total *, o valor 'P' que trabalhei acima. Isso vai ser um problema? Além disso, a população total varia - na maioria das vezes é 2000, mas pode ser qualquer número realmente. A folha de Excel Eu estou tentando recriar aqui na verdade não leva em conta o valor-p, por isso, se a estatística não será afetado por isso, então talvez não seja um problema ...
user1578653
A questão se resume a onde vêm os p. Eles envolvem olhar para a contagem total observada?
Glen_b -Reinstala Monica
Bem me parece que o Ps, e por isso o esperado baseia-se tanto a contagem total observada ea população total ... No entanto, em todos os exemplos que me foi dada na folha de Excel o valor esperado também parece coincidir com a contagem total observada / número de contagens.
user1578653
Se os p são baseados nas contagens dessa maneira, é claro que as expectativas se seguem. Se for esse o caso, parece que os graus de liberdade e assim por diante estão bem do jeito que você fez em R - mas algumas palavras da minha explicação podem precisar mudar.
Glen_b -Reinstala Monica

Respostas:

13

Isso acaba sendo bastante direto.

Esta é claramente uma amostra binomial. Existem duas maneiras de ver isso.

XiBin(Ni,pi)N(μi=Nipi,σi2=Nipi(1pi))Zi=(Xiμi)/σiZiZi2χ2

Z

(OE)2/E

+------------+------+-------+
| Population | In A | Not A |
+------------+------+-------+
|       2000 |   42 |  1958 |
|       2000 |   42 |  1958 |
|       2000 |   25 |  1975 |
|       2000 |   21 |  1979 |
+ -----------+------+-------+

ENi(1pi)

(OE)2/E

1/p+1/(1p)=1/p(1p)th

(Xiμi)2σi2=(XiNipi)2Nipi(1pi)=(XiNipi)2Nipi+(XiNipi)2Ni(1pi)=(XiNipi)2Nipi+(NiNi+NipiXi)2Ni(1pi)=(XiNipi)2Nipi+(NiXi(NiNipi))2Ni(1pi)=(XiNipi)2Nipi+((NiXi)Ni(1pi))2Ni(1pi)=(Oi(A)Ei(A))2Ei(A)+(Oi(A¯)Ei(A¯))2Ei(A¯)

O que significa que você deve obter a mesma resposta nos dois sentidos, até o erro de arredondamento.

Vamos ver:

             Observed             Expected                 (O-E)^2/E          
  Ni        A     not A          A      not A             A           not A      
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     42         1958      32.5     1967.5       2.776923077     0.045870394     
 2000     25         1975      32.5     1967.5       1.730769231     0.028589581     
 2000     21         1979      32.5     1967.5       4.069230769     0.067217281     

                                            Sum     11.35384615      0.187547649  

Qui-quadrado = 11.353846 + 0.187548 = 11.54139

O que corresponde à resposta deles.

Glen_b -Reinstate Monica
fonte
11
Obrigado pela ajuda! Eu não sou um matemático / estatístico, então isso me confundiu inicialmente, mas sua explicação é muito fácil de entender.
precisa saber é o seguinte