No , qual é a base para usar a raiz quadrada das contagens esperadas como os desvios padrão (isto é, as contagens esperadas como as variações) de cada uma das distribuições normais? A única coisa que pude encontrar discutindo isso é o http://www.physics.csbsju.edu/stats/chi-square.html , e apenas menciona as distribuições de Poisson.
Como uma ilustração simples da minha confusão, e se estivéssemos testando se dois processos são significativamente diferentes, um que gera 500 As e 500 Bs com variância muito pequena e outro que gera 550 As e 450 Bs com variância muito pequena (raramente gerando 551 As e 449 Bs)? A variação aqui não é claramente o valor esperado?
(Não sou estatístico, estou realmente procurando uma resposta que seja acessível a quem não é especialista.)
Respostas:
A forma geral para muitas estatísticas de teste é
No caso de uma variável normal, o erro padrão é baseado na variação populacional conhecida (estatísticas z) ou na estimativa da amostra (estatísticas t). Com o binomial, o erro padrão é baseado na proporção (proporção hipotética para testes).
Em uma tabela de contingência, a contagem em cada célula pode ser vista como proveniente de uma distribuição de Poisson com uma média igual ao valor esperado (abaixo do nulo). A variação para a distribuição de Poisson é igual à média, portanto, usamos o valor esperado também para o cálculo do erro padrão. Vi uma estatística que usa o observado em vez disso, mas tem menos justificativa teórica e não converge também para a distribuição do .χ2
fonte
Vamos tratar do caso mais simples para tentar fornecer o máximo de intuição. Seja uma amostra iid de uma distribuição discreta com k resultados. Seja π 1 , … , π k as probabilidades de cada resultado específico. Estamos interessados na distribuição (assintótica) da estatística qui-quadrado X 2 = k ∑ i = 1 ( S i - n π i ) 2X1,X2,…,Xn k π1, … , Πk
Aqui n π i é o número esperado de contagens do i th resultado.
Uma heurística sugestiva
Defina , de modo queX2=ΣiL 2 i =‖L‖ 2 2 em queL=(U1,...,Lk).vocêEu= ( SEu- n πEu) / n πEu---√ X2= ∑Euvocê2Eu= ∥ U ∥22 U =( U1, … , Uk)
Como é B i n ( n , π i ) , então pelo Teorema do Limite Central , T i = U iSEu B i n (n, πEu)
portanto, também temos isso, U i d → N ( 0 , 1 - π i ) .
Agora, se o foram (assintoticamente) independente (que não são), então poderíamos argumentar que Σ i T 2 i foi asymptotically χ 2 k distribuído. Mas, nota que T k é uma função determinística de ( T 1 , ... , T k - 1 ) e assim os T i variáveis não pode ser independente.TEu ∑EuT2Eu χ2k Tk ( T1, … , Tk - 1) TEu
Portanto, devemos levar em conta a covariância entre eles de alguma forma. Acontece que a maneira "correta" de fazer isso é usar o vez, e a covariância entre os componentes de U também altera a distribuição assintótica do que poderíamos ter pensado que era χ 2 k para o que é, de fato, a χ 2 k - 1 .vocêEu você χ2k χ2k - 1
Alguns detalhes sobre isso a seguir.
Um tratamento mais rigoroso
Não é difícil verificar se, de fato,C o v ( UEu, Uj) = - πEuπj----√ i ≠ j
Outras conexões
A estatística do qui-quadrado também está intimamente relacionada à estatística da razão de verossimilhança. De fato, é uma estatística de pontuação Rao e pode ser vista como uma aproximação da série de Taylor da estatística da razão de verossimilhança.
Referências
Este é o meu próprio desenvolvimento baseado na experiência, mas obviamente influenciado por textos clássicos. Bons lugares para procurar aprender mais são
fonte