Resíduos de Pearson

16

Uma pergunta de iniciante sobre o resíduo de Pearson no contexto do teste do qui-quadrado para a qualidade do ajuste:

Além da estatística de teste, a chisq.testfunção de R reporta o resíduo de Pearson:

(obs - exp) / sqrt(exp)

Entendo por que olhar para a diferença bruta entre valores observados e esperados não é tão informativo, pois uma amostra menor resultará em uma diferença menor. No entanto, gostaria de saber mais sobre o efeito do denominador: por que dividir pela raiz do valor esperado? Este é um resíduo 'padronizado'?

Iain Dillingham
fonte
6
O denominador é usado para explicar a variação dos resíduos brutos, que tornam os resíduos de Pearson aproximadamente da variação unitária (existem outros métodos para conseguir isso). Observe que há um componente stdrespara resíduos padronizados.
chl
@chl Obrigado pela sua resposta rápida. No entanto, não entendo o conceito de variação neste contexto. Você conhece algum recurso em que eu possa aprender mais? Suponho, então, que um resíduo de Pearson não seja 'padronizado', dado que chisq.testtambém calcula o stdrescomponente?
Iain Dillingham
3
A referência definitiva à análise de dados categóricos é provavelmente a Categorical Data Analysis , de Alan Agresti. Se ninguém fornecer uma resposta mais detalhada, tentarei converter meus comentários em uma resposta adequada.
chl
Obrigado pelo link, @chl. Eu tenho acesso ao livro, então tentarei descobrir isso sozinho.
Iain Dillingham

Respostas:

10

n×m

Xi,j ~ Pois(μi,j)

E(Xi,j)=V(Xi,j)=μi,j

STD(Xi,j)Xi,jE(Xi,j)V(Xi,j)=Xi,jμi,jμi,j

Então, o que você vê na fórmula sobre a qual está perguntando é a contagem de células padronizada, sob a suposição de que a contagem de células tem uma distribuição Poisson (incondicional).

A partir daqui, é comum testar a independência da variável de linha e coluna nos dados e, nesse caso, você pode usar uma estatística de teste que analise a soma dos quadrados dos valores acima (que é equivalente à norma ao quadrado) do vetor de valores padronizados). O teste qui-quadrado fornece um valor p para esse tipo de teste com base em uma aproximação de amostra grande à distribuição nula da estatística de teste. Geralmente é aplicado nos casos em que nenhuma contagem de vendas é muito pequena.

Restabelecer Monica
fonte
0

No contexto da qualidade do ajuste, você pode consultar este http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm .

Se você quiser saber como o denominador chegou lá, terá que ver o qui-quadrado aqui como uma aproximação normal ao binômio, para iniciantes, que pode ser estendido para multinômios.

RyL
fonte