Impacto dos limites da lixeira baseada em dados em um teste de ajuste de qualidade qui-quadrado?

18

Deixando de lado a questão óbvia da baixa potência do qui-quadrado nesse tipo de circunstância, imagine fazer um teste de qui-quadrado para alguma densidade com parâmetros não especificados, agrupando os dados.

Para concretude, digamos uma distribuição exponencial com média desconhecida e um tamanho de amostra de digamos 100.

Para obter um número razoável de observações esperadas por compartimento, é necessário levar em consideração os dados (por exemplo, se optássemos por colocar 6 compartimentos abaixo da média e 4 acima, isso ainda usaria limites de compartimento baseados em dados) .

Mas esse uso de caixas com base na visualização dos dados provavelmente afetaria a distribuição da estatística de teste sob o valor nulo.

Tenho visto muita discussão sobre o fato de que - se os parâmetros são estimados pela máxima probabilidade a partir dos dados em bin - você perde 1 df por parâmetro estimado (um problema que remonta a Fisher vs Karl Pearson) - mas não me lembro lendo qualquer coisa sobre como encontrar os próprios limites da lixeira com base nos dados. (Se você os estimar a partir dos dados não armazenados, então com bin a distribuição da estatística de teste fica em algum lugar entre a e a .)k χ 2 k - pχk2χkp2

Essa escolha de caixas com base em dados afeta substancialmente o nível ou o poder de significância? Existem algumas abordagens que importam mais do que outras? Se houver muito efeito, é algo que desaparece em grandes amostras?

Se tiver um impacto substancial, isso parece fazer uso de um teste do qui-quadrado quando os parâmetros são desconhecidos quase inúteis em muitos casos (apesar de ainda ser defendido em alguns textos), a menos que você tenha uma boa estimativa prévia do parâmetro.

A discussão das questões ou sugestões para referências (de preferência com uma menção de suas conclusões) seria útil.


Editar, praticamente à parte a questão principal:

Ocorre-me que existem soluções potenciais para o caso específico do exponencial * (e o uniforme passa a pensar nisso), mas ainda estou interessado na questão mais geral do impacto na escolha dos limites do escaninho.

* Por exemplo, para o exponencial, pode-se usar a menor observação (digamos que seja igual a ) para ter uma idéia muito aproximada de onde colocar os compartimentos (já que a menor observação é exponencial com média ) e então teste as diferenças restantes ( ) quanto à exponencialidade. É claro que isso pode resultar em uma estimativa muito pobre de e, portanto, em más escolhas de bin, embora suponha que alguém possa usar o argumento recursivamente para fazer as duas ou três observações mais baixas para escolher binários razoáveis ​​e testar as diferenças de as observações restantes acima da maior dessas estatísticas de menor ordem para exponencialidade)μ / n n - 1 x i - m μmμ/nn1ximμ

Glen_b -Reinstate Monica
fonte
1
Pergunta interessante. Não sei a resposta, mas a ideia de que alguns graus de liberdade devem ser perdidos faz sentido. Se você ainda não o viu, esta resposta do @whuber deve ser instigante: como entender os graus de liberdade . Parece-me que alguns estudos de simulação devem permitir que você chegue aqui, pelo menos em alguns casos específicos.
gung - Restabelece Monica
1
Não tenho certeza do quanto isso é útil, mas há um problema semelhante no campo da estimativa robusta. Especificamente, um método de estimativa robusta (por exemplo, média aparada) geralmente requer uma entrada parametrizada (por exemplo, parâmetro que define quanto ajustar). Este parâmetro pode ser escolhido por um método orientado a dados (por exemplo, veja a gordura das caudas antes de escolher o parâmetro de corte). Porém, a pré-seleção do parâmetro de corte afeta a distribuição da média aparada, em comparação, digamos, com uma regra de parâmetro fixo. A maneira usual de lidar com essa literatura é através de um bootstrap.
Colin T Bowers
@ColinTBowers - potencialmente um pouco útil, obrigado. Não pensou na possibilidade de inicialização.
Glen_b -Reinstate Monica
1
Pode ser interessante dividir o problema em um caso mais simples. Imagine algo como apenas 5 observações da sua distribuição favorita e coloque um único divisor nos dados para formar apenas dois compartimentos.
Zkurtz 13/10/2013

Respostas:

15

Os resultados básicos do teste de ajuste do qui-quadrado podem ser entendidos hierarquicamente .

Nível 0 . A estatística clássica do teste qui-quadrado de Pearson para testar uma amostra multinomial contra um vetor de probabilidade fixo é X 2 ( p ) = k i = 1 ( X ( n ) i - n p i ) 2p onde X ( n ) i

X2(p)=i=1k(Xi(n)npi)2npidχk12,
Xi(n) indica o número de resultados na ésima célula de uma amostra do tamanho n . Isso pode ser visto frutuosamente como a norma quadrática do vetor Y n = ( Y ( n ) 1 , , Y ( n ) k ) onde Y ( n ) i = ( X ( n ) i - n p i ) / inYn=(Y1(n),,Yk(n)) que, pelo teorema do limite central multivariado, converge em distribuição como Y n d N(0,I-Yi(n)=(Xi(n)npi)/npi
YndN(0,IppT).
X2=Yn2χk12k-1IppTk1

Nível 1 . No próximo nível da hierarquia, consideramos hipóteses compostas com amostras multinomiais. Como o exato de interesse é desconhecido sob a hipótese nula, temos que estimar. Se a hipótese nula for composta e composta por um subespaço linear da dimensão , as estimativas de probabilidade máxima (ou outros estimadores eficientes) do podem ser usadas como estimadores de "plug-in". Então, a estatística sob a hipótese nula.m p i X 2 1 = k i = 1 ( X ( npmpi

X12=Eu=1k(XEu(n)-np^Eu)2np^Eudχk-m-12,

Nível 2 . Considere o caso do teste de bondade de ajuste de um modelo paramétrico em que as células são fixadas e conhecidas com antecedência: por exemplo, temos uma amostra de uma distribuição exponencial com rate e, a partir disso, produzimos uma amostra multinomial ao classificar células , o resultado acima ainda é válido, desde que utilizemos estimativas eficientes (por exemplo, MLEs) das próprias probabilidades do compartimento, usando apenas as frequências observadas .λk

Se o número de parâmetros para a distribuição for (por exemplo, no caso exponencial), então onde pode estar considerados os MLEs das probabilidades celulares das células conhecidas fixas, correspondentes à determinada distribuição de interesse.m = 1 X 2 2 = k i = 1 ( X ( n )mm=1

X22=Eu=1k(XEu(n)-np^Eu)2np^Eudχk-m-12,
p^Eu

Nível 3 . Mas espere! Se tivermos uma amostra , por que não devemos estimar eficiência primeiro e depois usar uma estatística qui-quadrado com nossas células conhecidas e fixas? Bem, podemos, mas em geral não temos mais uma distribuição qui-quadrado para a estatística qui-quadrado correspondente. De fato, Chernoff e Lehmann (1954) mostraram que o uso de MLEs para estimar os parâmetros e depois conectá-los novamente para obter estimativas das probabilidades das células resulta em uma distribuição não-qui-quadrado, em geral. Sob condições de regularidade adequadas, a distribuição é (estocástica) entre uma e , com a distribuição dependendo dos parâmetros.Z1,...,ZnFλλχk-m-12χk-12

De maneira inadequada, isso significa que a distribuição limitadora de é .YnN(0 0,Eu-pλpλT-UMA(λ))

Ainda nem falamos sobre limites aleatórios de células, e já estamos em uma situação difícil! Há duas maneiras de sair: uma é recuar para o nível 2 ou, no mínimo, não usar estimadores eficientes (como MLEs) dos parâmetros subjacentes . A segunda abordagem é tentar desfazer os efeitos de maneira a recuperar uma distribuição qui-quadrado.λUMA(λ)

Existem várias maneiras de seguir a última rota. Eles basicamente equivalem à pela matriz "correta" . Em seguida, a forma quadrática que é o número de células.YnB(λ^)

YnTBTBYndχk-12,
k

Exemplos são a estatística Rao-Robson-Nikulin e a estatística Dzhaparidze-Nikulin .

Nível 4 . Células aleatórias. No caso de células aleatórias, sob certas condições de regularidade, acabamos na mesma situação que no nível 3 se tomarmos o caminho de modificar a estatística qui-quadrado de Pearson. As famílias em escala de localização, em particular, se comportam muito bem. Uma abordagem comum é fazer com que nossas células tenham probabilidade , nominalmente. Portanto, nossas células aleatórias são intervalos da forma que . Esse resultado foi estendido ainda mais ao caso em que o número de células aleatórias cresce com o tamanho da amostra.1 / k I J = μ + σ eu 0 , j I 0 , j = [ M - 1 ( ( j - 1 ) / k ) , F - 1 ( j / kk1/kEu^j=μ^+σ^Eu0 0,jEu0 0,j=[F-1((j-1)/k),F-1(j/k))

Referências

  1. W. van der Vaart (1998), Estatística Assintótica , Cambridge University Press. Capítulo 17 : Testes de qui-quadrado .

  2. H. Chernoff e EL Lehmann (1954), O uso de estimativas de probabilidade máxima em testes de qualidade do ajusteχ2 , Ann. Matemática. Statist. vol. 25, n. 3, 579-586.

  3. FC Drost (1989), Testes generalizados de qualidade do ajuste do qui-quadrado para modelos em escala de localização quando o número de classes tende ao infinito , Ann. Stat , vol. 17, n. 3, 1285–1300.

  4. MS Nikulin, MS (1973), teste do qui-quadrado para distribuição contínua com parâmetros de mudança e escala , Theory of Probability and its Application , vol. 19, n. 3, 559-568.

  5. KO Dzaparidze e MS Nikulin (1973), Sobre uma modificação das estatísticas padrão de Pearson , Theory of Probability and its Application , vol. 19, n. 4, 851-853.

  6. KC Rao e DS Robson (1974), Uma estatística do qui-quadrado para testes de qualidade de ajuste dentro da família exponencial , Comm. Statist. , vol 3., n. 12, 1139-1153.

  7. N. Balakrishnan, V. Voinov e MS Nikulin (2013), testes qui-quadrado de qualidade de ajuste com aplicações , Academic Press.

cardeal
fonte
5

Encontrei pelo menos respostas parciais à minha pergunta abaixo. (Eu ainda gostaria de dar esse bônus a alguém, para que outras informações sejam apreciadas.)

Moore (1971) disse que Roy (1956) e Watson (1957,58,59) mostraram que quando os limites celulares para uma estatística qui-quadrado são funções dos melhores valores normais normais estimados de parâmetros assintóticos, então, sob certas condições, a distribuição nula assintótica da estatística qui-quadrado ainda é a soma de a e a soma ponderada de variáveis ​​(para células , parâmetros ) em que os pesos estão entre 0 e 1 (fazendo o cdf da distribuição entre o de a e a , como mencionado na minha pergunta para a distribuição ao usar a estimativa de ML), e os pesos daqueles últimos p χ 2 1 k p χ 2 k - p χ 2 kχk-p-12p χ12kpχk-p2χk2p os termos não são afetados por essa estimativa.

Referências

Moore DS (1971), uma estatística do qui-quadrado com limites aleatórios de células , Ann. Matemática. Estado. 42, n. 1, 147-156.

Roy AR (1956), On estatísticas com intervalos variáveisχ2 , Relatório Técnico No. 1 , Departamento de Estatística, Stanford University.

Watson, GS (1957), O qualidade do ajuste para distribuições normaisχ2 , Biometrika , 44 , 336-348.

Watson, GS (1958), On qualidade de ajuste para distribuições contínuasχ2 , J. Royal Statist. Soc. B , 20 , 44-61.

Watson, GS (1959), Alguns resultados recentes em qualidade do ajusteχ2 , Biometrics , 15 , 440-468

Glen_b -Reinstate Monica
fonte