Por que o teste de independência usa a distribuição qui-quadrado?

12

O de adequação usa a seguinte estatística : No teste, concedendo que estão reunidas as condições, utiliza-se o - distribuição para calcular o valor de p que, dada a H_0 é verdadeiro se poderia observar um tal valor em uma amostra representativa do mesmo tamanho.χ2

χ02=i=1n(OiEi)2Ei
χ2H0

No entanto, para que uma estatística χ02 siga uma χ2 (com n1 graus de liberdade), deve ser verdade que:

i=1n(OiEi)2Ei=i=1n1Zi2
para Z_i normal padrão e independente Zi( Wikipedia ). As condições para o teste são as seguintes (novamente, da Wikipedia ):
  1. Amostra representativa da população
  2. Grande tamanho da amostra
  3. A contagem esperada de células é suficientemente grande
  4. Independência entre cada categoria

Das condições (1,2), é claro que satisfazemos as condições de inferência da amostra para a população. (3) parece ser uma suposição necessária porque a contagem discreta , que está no denominador, não resulta em uma distribuição quase contínua para cada e se não for grande o suficiente, há um erro que pode ser corrigido com Yates 'correção - isso parece ser o fato de que uma distribuição discreta é basicamente uma distribuição contínua "pavimentada", de modo que o deslocamento de para cada uma corrige isso.Z i 1 / 2EiZi1/2

A necessidade de (4) parece ser útil mais tarde, mas não consigo ver como.

No começo, pensei que é necessário para que a estatística corresponda à distribuição. Isso me levou à suposição questionável de que , que estava realmente errado. De fato, fica claro a partir da redução da dimensão para dois lados da igualdade de para que esse não pode ser o caso. Oi-EiN(0,Zi=OiEiEinn-1OiEiN(0,Ei)nn1

Ficou evidente, graças às explicações do whuber, que não precisa ser igual a cada porque (observe a redução no número de variáveis ​​somadas) para variáveis ​​aleatórias normais padrão que são funcionalmente independentes.O i - E iZi ×20=Σn-1i=1Z2iZiOiEiEiχ02=i=1n1Zi2Zi

Minha pergunta , então, é como segue a ? Que tipos de combinações de cada um dos termos resultam em normais padrão quadrados ? Isso requer o uso do CLT, aparentemente (e isso faz sentido), mas como? Em outras palavras , qual é cada igual (ou aproximadamente igual a)? χ 2 ( O i - E i ) 2χ02χ2 Z 2 i Zi(OiEi)2EiZi2Zi

VF1
fonte
1
Estou curioso para saber onde você lê que alguém assume a última coisa que você declarou ( ). Isso não é necessário: a estatística pode ter uma (pelo menos para uma aproximação extremamente boa) sem que nenhum desses resíduos padronizados tenha uma distribuição normal. A pergunta que você deseja fazer é como essas suposições justificam a referência da estatística a uma ? Por si mesmos, eles não. Para uma discussão sobre o que pode dar errado, consulte minha postagem em stats.stackexchange.com/a/17148 . χ2χ2χ2χ2OiEiN(0,Ei)χ2χ2χ2χ2
whuber
1
Pela igualdade de duas somas de quadrados, você não pode concluir que as raízes quadradas são iguais termo por termo! Como esse é o caso de meros números, certamente também é o caso de variáveis ​​aleatórias.
whuber
1
Para tornar isso concreto, suponha que sejam distribuídos independentemente com distribuições com graus de liberdade e que mas para todos . Então, embora nenhum dos seja normal, no entanto tem uma . × ν 1 , ν 2 , ... , ν n ν 1 + ν 2 + + ν n = n - 1 ν i1 i W i Σ n i = 1 W 2 i χ 2 ( n - 1 )(Wi),i=1,,nχν1,ν2,,νnν1+ν2++νn=n1νi1iWii=1nWi2χ2(n1)
whuber
1
Se por "quadrado padrão normal" você quer dizer "soma de quadrados normais independentes", essa é a pergunta que acredito que você realmente queria fazer desde o início :-). E, no final, a maioria das análises da situação de fato invoca o Teorema do Limite Central para provar que os resíduos padronizados assintoticamente são normais normais (mas não completamente independentes, e é por isso que os graus de liberdade são e não ). nn1n
whuber
1
O +1 pelo que antecipo em breve será uma pergunta muito boa. O primeiro problema é que o teste de independência não usa a estatística reivindicada. A estatística fornecida no início é unidimensional (uma soma de categorias), enquanto um teste de independência requer mais de uma variável. Edite para fazer com que o nome do teste e a estatística correspondam. n
Glen_b -Reinstala Monica

Respostas:

6

É sobre a distribuição de Poisson. Se é Poisson com média , a variação de é . Isso significa que é uma entidade do tipo . Pelo CLT, o Poisson tende à normalidade à medida que a média aumenta, e é aí que o qui-quadrado entra. Sim, é um teste assintótico.λXλλXλ

(Xλ)2λ
z2

Os graus de liberdade vêm do teorema de Cochran. Basicamente, Cochran explica como o qui-quadrado é transformado (ou permanece inalterado) sujeito a uma transformação linear nas pontuações .z2

izi2=ZIZ

em notação matricial. Se em vez de calcular a soma usual de praças, você compute para alguma matriz Q, então você ainda obter uma quantidade com aa distribuição qui-quadrado, mas os graus de liberdade são agora o posto de . Existem mais condições na matriz Q, mas essa é a essência.Q

ZQZ
Q

Se você brinca com alguma notação da matriz, pode expressar como uma forma quadrática. Cochran assume independência das variáveis ​​normais originais, e é por isso que as colunas da sua tabela de contagens também devem ser independentes.

i(ziz¯)2
Placidia
fonte
Desculpe, mas você definitivamente me perdeu em "Se preferir, você faz ..."
VF1 15/01
@ VF1, fiz uma alteração, então espero que seja mais claro. O teorema de Cochrane é a resposta para sua pergunta de quando uma soma de quadrados com normais possui uma distribuição qui-quadrado.
Placidia 15/01
1
OK, vou dar uma olhada nisso. Vou deixar a pergunta em aberto, no entanto, caso alguém mais tenha algo a acrescentar.
VF1 15/01
1
Normalmente, o tamanho da amostra é fixo. Isso significa que é impossível que qualquer uma das entradas possa seguir uma distribuição Poisson. O apelo a uma distribuição de Poisson, portanto, parece ser apenas mais uma aproximação - e parece nos deixar exatamente onde começamos.
whuber
1

De acordo com o livro "Estatísticas Introdutórias com Aleatorização e Simulação", seção 3.3.2 (livro disponível gratuitamente no OpenIntro ), a estatística do teste do está tentando acumular os desvios observados em relação ao esperado. E os desvios são de fato expressos através do termoχ2

Zi=OiEiEi

que realmente se origina de .

OiEi(StandardErrorOfTheObserved)

(StandardErrorOfTheObserved)EiZi=OiEiEi

De qualquer forma, você pode criar uma estatística de teste no formulário

Z=|Z1|+|Z2|+|Z3|+...

χ2=Z12+Z22+Z32+...

χ2χ2

χ2

CamilB
fonte