Como Karl Pearson apresentou a estatística qui-quadrado?

14

Como Pearson apresentou as seguintes estatísticas qui-quadrado de Pearson em 1900?

que K~χ2

K=(OEuj-EEuj)2EEuj
Kχ2

Ele tinha o qui-quadrado em mente e inventou a métrica K (abordagem de baixo para cima), ou inventou a estatística e depois provou que segue a distribuição do qui-quadrado (de cima para baixo)?

Quero saber por que ele escolheu essa forma específica e não outras como ou | O i j - E i j | e também por que ele dividiu o quadrado com o denominador.(OEuj-EEuj)2|OEuj-EEuj|

Alby
fonte
1
Você pode achar isso interessante: Por que quadrado a diferença em vez de pegar o valor absoluto no desvio padrão?
gung - Restabelece Monica
1
É claro que é possível ter qualquer número de estatísticas que você possa usar. Suas alternativas são perfeitamente boas, embora você precise elaborar distribuições de amostragem para elas, que diferem com base no número de células. Uma coisa que é conveniente sobre esse formulário é que ele tem certos relacionamentos com outras distribuições, por exemplo, é a distribuição da soma das variáveis ​​aleatórias normais padrão k quadrado.
gung - Restabelece Monica

Respostas:

23

O artigo de 1900 da Pearson está sem direitos autorais, para que possamos lê-lo on line .

Você deve começar observando que este artigo trata do teste de qualidade do ajuste, não do teste de independência ou homogeneidade.

Ele prossegue trabalhando com o normal multivariado, e o qui-quadrado surge como uma soma das variáveis ​​normais padronizadas ao quadrado.

Você pode ver na discussão da p160-161 que ele está discutindo claramente a aplicação do teste a dados distribuídos multinomiais (acho que ele não usa esse termo em nenhum lugar). Aparentemente, ele entende a normalidade multivariada aproximada do multinomial (certamente ele sabe que as margens são aproximadamente normais - esse é um resultado muito antigo - e conhece os meios, variações e covariâncias, uma vez que são declarados no artigo); meu palpite é que a maioria dessas coisas já é antiga em 1900. (Observe que a própria distribuição do qui-quadrado remonta ao trabalho de Helmert em meados da década de 1870).

Então, no final da p163, ele deriva uma estatística do qui-quadrado como "uma medida da qualidade do ajuste" (a própria estatística aparece no expoente da aproximação normal multivariada).

Ele então discute como avaliar o valor de p * e, em seguida, fornece corretamente a área superior da cauda de um além de 43,87 como 0,000016. [Você deve ter em mente, no entanto, que ele não entendeu corretamente como ajustar os graus de liberdade para a estimativa de parâmetros nesse estágio; portanto, alguns dos exemplos em seus trabalhos usam um df muito alto]χ122

* (observe que não existem paradigmas de teste de Fisherian e Neyman-Pearson, no entanto, vemos claramente que ele já aplica o conceito de um valor-p.)

Você notará que ele não escreve explicitamente termos como . Em vez disso, ele escreve m 1 , m 2 etc para as contagens esperadas e para as quantidades observadas, ele usa m 1 e assim por diante. Ele então define e = m - m (metade inferior p160) e calcula e 2 / m(OEu-EEu)2/EEum1m2m1e=m-me2/m para cada célula (veja a eq. (Xv) p163 e a última coluna da tabela na parte inferior da p167) ... quantidades equivalentes, mas em notação diferente.

Grande parte da maneira atual de entender o teste do qui-quadrado ainda não está em vigor, mas, por outro lado, já existe um pouco (pelo menos se você souber o que procurar). Muita coisa aconteceu nos anos 1920 (e em diante) que mudou a maneira como encaramos essas coisas.


Quanto ao motivo pelo qual dividimos por no caso multinomial, acontece que, embora a variação dos componentes individuais em um multinomial seja menor que E i , quando contabilizamos as covariâncias, é equivalente a apenas dividir por E i , tornando para uma boa simplificação.EEuEEuEEu


Adicionado na edição:

O artigo de 1983 de Plackett fornece uma grande quantidade de contexto histórico e um guia para o artigo. Eu recomendo dar uma olhada nisso. Parece que é gratuito on-line via JStor (se você fizer login), então você não precisa nem acessar uma instituição para lê-lo.

Plackett, RL (1983),
"Karl Pearson e o Teste Qui-Quadrado",
International Statistical Review ,
vol. 51, nº 1 (abr), pp. 59-72

Glen_b -Reinstate Monica
fonte
1
Acabei de reler este post e, toda vez que faço, tenho uma visão adicional. @Glen_b Quero agradecer sua excelente resposta, o que eu deveria ter feito antes. Se eu fizer uma pergunta adicional, em sua explicação sobre como a divisão por E se ajusta à covariância, você pode elaborar mais sobre isso ou apontar-me para o recurso que discute esse ponto? Eu posso entender intuitivamente por que a "normalização" é necessária, mas quero apoiar minha intuição com a prova matemática.
Alby
1
EEu
1
XEuCov(XEu,Xj)=E(XEuXj)-E(XEu)E(Xj)=-E(XEu)E(Xj)XEu,Xj>0 0Cov(OEu,Oj)
Obrigado pelo link @Glen_b. Depois de ler o post, fica muito mais claro agora! Eu estava pensando ingenuamente que o denominador existe para ajustar as diferenças iniciais de cada célula, daí o termo "normalização", mas ao ler seu post, percebi que estava completamente errado.
Alby
Infelizmente, a palavra 'normalizar' tem pelo menos três sentidos diferentes relevantes nas estatísticas. Sem adornos, normalmente eu o usaria apenas para significar "padronizar para significar 0 e desvio padrão 1", mas outras pessoas o usariam para significar 'normalizar' no sentido de normalizar um vetor de acordo com alguma norma, ou mesmo para transformar para aproximar a normalidade. Já que é um bicho-papão aqui, eu já deveria saber para evitá-lo.
Glen_b -Reinstala Monica