O de adequação usa a seguinte estatística : No teste, concedendo que estão reunidas as condições, utiliza-se o - distribuição para calcular o valor de p que, dada a H_0 é verdadeiro se poderia observar um tal valor em uma amostra representativa do mesmo tamanho.
No entanto, para que uma estatística siga uma (com graus de liberdade), deve ser verdade que:
- Amostra representativa da população
- Grande tamanho da amostra
- A contagem esperada de células é suficientemente grande
- Independência entre cada categoria
Das condições (1,2), é claro que satisfazemos as condições de inferência da amostra para a população. (3) parece ser uma suposição necessária porque a contagem discreta , que está no denominador, não resulta em uma distribuição quase contínua para cada e se não for grande o suficiente, há um erro que pode ser corrigido com Yates 'correção - isso parece ser o fato de que uma distribuição discreta é basicamente uma distribuição contínua "pavimentada", de modo que o deslocamento de para cada uma corrige isso.Z i 1 / 2
A necessidade de (4) parece ser útil mais tarde, mas não consigo ver como.
No começo, pensei que é necessário para que a estatística corresponda à distribuição. Isso me levou à suposição questionável de que , que estava realmente errado. De fato, fica claro a partir da redução da dimensão para dois lados da igualdade de para que esse não pode ser o caso. Oi-Ei∼N(0,√nn-1
Ficou evidente, graças às explicações do whuber, que não precisa ser igual a cada porque (observe a redução no número de variáveis somadas) para variáveis aleatórias normais padrão que são funcionalmente independentes.O i - E i ×20=Σn-1i=1Z2iZi
Minha pergunta , então, é como segue a ? Que tipos de combinações de cada um dos termos resultam em normais padrão quadrados ? Isso requer o uso do CLT, aparentemente (e isso faz sentido), mas como? Em outras palavras , qual é cada igual (ou aproximadamente igual a)? χ 2 ( O i - E i ) 2 Z 2 i Zi
Respostas:
É sobre a distribuição de Poisson. Se é Poisson com média , a variação de é . Isso significa que é uma entidade do tipo . Pelo CLT, o Poisson tende à normalidade à medida que a média aumenta, e é aí que o qui-quadrado entra. Sim, é um teste assintótico.λX λ λX λ
Os graus de liberdade vêm do teorema de Cochran. Basicamente, Cochran explica como o qui-quadrado é transformado (ou permanece inalterado) sujeito a uma transformação linear nas pontuações .z2
em notação matricial. Se em vez de calcular a soma usual de praças, você compute para alguma matriz Q, então você ainda obter uma quantidade com aa distribuição qui-quadrado, mas os graus de liberdade são agora o posto de . Existem mais condições na matriz Q, mas essa é a essência.Q
Se você brinca com alguma notação da matriz, pode expressar como uma forma quadrática. Cochran assume independência das variáveis normais originais, e é por isso que as colunas da sua tabela de contagens também devem ser independentes.
fonte
De acordo com o livro "Estatísticas Introdutórias com Aleatorização e Simulação", seção 3.3.2 (livro disponível gratuitamente no OpenIntro ), a estatística do teste do está tentando acumular os desvios observados em relação ao esperado. E os desvios são de fato expressos através do termoχ2
que realmente se origina de .
De qualquer forma, você pode criar uma estatística de teste no formulário
fonte