Portanto, se a estatística qui-quadrado de Pearson for fornecida para uma tabela , sua forma será:
Então isso se aproxima de , a distribuição qui-quadrado com graus de liberdade, à medida que o tamanho da amostra aumenta. n - 1 N
O que não entendo é como essa aproximação assintótica funciona. Eu sinto que os 's nos denominadores devem ser substituídos por . Como isso daria a você , para . Mas é claro que isso tem graus de liberdade, não n-1 , então claramente algo mais está acontecendo.s 2 i × 2 n =Σ n i = 1 Z 2 i Zi~N(0,1)nn-1
chi-squared
asymptotics
Thoth
fonte
fonte
Respostas:
Vou motivar isso intuitivamente e indicar como isso ocorre no caso especial de dois grupos, supondo que você esteja feliz em aceitar a aproximação normal do binômio.
Espero que isso seja suficiente para você ter uma boa noção de por que funciona da maneira que funciona.
Você está falando sobre o teste qui-quadrado da qualidade do ajuste. Digamos que haja grupos (você o tem como , mas há uma razão pela qual prefiro chamá-lo de ).n kk n k
No modelo que está sendo aplicado para essa situação, as contagens , são multinomiais .Oi i=1,2,...,k
Seja . As contagens estão condicionadas à soma (exceto em algumas situações bastante raras); e há um conjunto pré-especificado de probabilidades para cada categoria, , que somam . N p i , i = 1 , 2 , … , kN=∑ki=1Oi N pi,i=1,2,…,k 1
Assim como no binômio, há uma aproximação normal assintótica para multinômios - de fato, se você considerar apenas a contagem em uma determinada célula ("nesta categoria" ou não), ela seria binomial. Assim como no binômio, as variações das contagens (assim como suas covariâncias no multinomial) são funções de e ; você não estima uma variação separadamente.pN p
Ou seja, se as contagens esperadas forem suficientemente grandes, o vetor de contagens é aproximadamente normal com a média . No entanto, como as contagens são condicionadas a , a distribuição é degenerada (existe em um hiperplano de dimensão , pois especificar das contagens corrige a remanescente). A matriz de variância-covariância possui entradas diagonais e elementos diagonais desativados , e possui classificação devido à degeneração. N k - 1 k - 1 N p i ( 1 - p i ) - N p i p j k - 1Ei=Npi N k−1 k−1 Npi(1−pi) −Npipj k - 1
Como resultado, para uma célula individual , e você pode escrever . No entanto, os termos são dependentes (correlacionados negativamente), portanto, se você somar os quadrados desses , não terá a (como teria se fossem variáveis padronizadas independentes). Em vez disso, poderíamos potencialmente construir um conjunto de variáveis independentes partir do original, que são independentes e ainda aproximadamente normais (assintoticamente normais). Se somarmos seus quadrados (padronizados), obteríamos a . Existem maneiras de construir esse conjunto dez i = O i - E iVar ( OEu) = NpEu( 1 - pEu) ziχ2kk-1kχ2k-1k-1zEu= OEu- EEuEEu( 1 - pEu)√ zEu χ2k k - 1 k χ2k - 1 k - 1 variáveis explicitamente, mas, felizmente, existe um atalho muito elegante que evita uma quantidade substancial de esforço e produz o mesmo resultado (o mesmo valor da estatística) como se tivéssemos enfrentado o problema.
Considere, por simplicidade, uma qualidade de ajuste com duas categorias (que agora é binomial). A probabilidade de estar na primeira célula é , e na segunda célula é . Existem observações na primeira célula e na segunda célula.p 2 = 1 - p X = O 1 N - X = O 2p1 1= p p2= 1 - p X= O1 1 N- X= O2
A primeira contagem de células observada, é assintoticamente . Podemos padronizá-lo como . Então é aproximadamente (assintoticamente ).N ( N p , N p ( 1 - p ) ) z = X - N pX N ( Np , Np ( 1 - p ) ) z2=(X-Np)2z= X- NpNp ( 1 - p )√ ∼χ 2 1 ∼χ 2 1z2= ( X- Np )2Np ( 1 - p ) ∼ χ21 1 ∼ χ21 1
Notar que
Mas
Então que é começamos com - que assintoticamente será uma variável aleatória . A dependência entre as duas células é tal que, ao mergulharmos por vez de , compensamos exatamente a dependência entre as duas e obtemos a variável aleatória quadrada-de-uma-aproximadamente-normal original. z2χ 2 1 EiEi(1-pi)∑2i = 1( OEu- EEu)2EEu= ( X- Np )2Np ( 1 - p ) z2 χ21 1 EEu EEu( 1 - pEu)
O mesmo tipo de dependência-soma é pela mesma abordagem quando há mais de duas categorias - somando o vez de em todos os termos, você compensa exatamente o efeito da dependência e obtém uma soma equivalente a uma soma dos normais independentes . (Oi-Ei)2( OEu- EEu)2EEu kk-1( OEu- EEu)2EEu( 1 - pEu) k k - 1
Existem várias maneiras de mostrar que a estatística tem uma distribuição que assintoticamente para maior (é abordada em alguns cursos de estatística de graduação e pode ser encontrada em vários textos de nível de graduação), mas não quero levar você muito além do nível sugerido pela sua pergunta. De fato, é fácil encontrar derivações em notas na internet, por exemplo, existem duas derivações diferentes no espaço de duas páginas aqui kχ2k - 1 k
fonte
O manuscrito de uma página http://sites.stat.psu.edu/~dhunter/asymp/lectures/p175to184.pdf referido pelo usuário @Glen_b finalmente mostra que a estatística pode ser reescrita como Hotelling com classificação de covariância = (ver eq. 9.6). Podemos então invocar um resultado clássico de SJ Sepanski (1994) para obter sua distribuição assintótica como um qui-quadrado com graus de liberdade.T2 k - 1 k - 1
fonte