Eu li que o teste de Kolmogorov-Smirnov não deve ser usado para testar a qualidade do ajuste de uma distribuição cujos parâmetros foram estimados a partir da amostra.
Faz sentido dividir minha amostra em duas e usar a primeira metade para estimativa de parâmetros e a segunda para o teste KS?
desde já, obrigado
estimation
fitting
kolmogorov-smirnov
sortega
fonte
fonte
Respostas:
A melhor abordagem é calcular o valor crítico do valor-p por simulação. O problema é que, quando você estima os parâmetros a partir dos dados, em vez de usar valores hipotéticos, a distribuição da estatística KS não segue a distribuição nula.
Em vez disso, você pode ignorar os valores-p do teste KS e simular vários conjuntos de dados da distribuição candidata (com um conjunto significativo de parâmetros) do mesmo tamanho que os dados reais. Em seguida, para cada conjunto, estime os parâmetros e faça o teste KS usando os parâmetros estimados. O valor de p será a proporção das estatísticas de teste dos conjuntos simulados que são mais extremos que os dados originais.
fonte
A divisão de amostra pode talvez reduzir o problema com a distribuição da estatística, mas não a remove.
Sua ideia evita o problema de que as estimativas serão "muito próximas" em relação aos valores da população, porque são baseadas na mesma amostra.
Você não está evitando o problema de que eles ainda estão estimados. A distribuição da estatística de teste não é tabulada.
Nesse caso, aumenta a taxa de rejeição abaixo do nulo, em vez de reduzi-la drasticamente.
Uma escolha melhor é usar um teste em que os parâmetros não sejam assumidos como conhecidos, como um Shapiro Wilk.
Se você está casado com um teste do tipo Kolmogorov-Smirnov, pode adotar a abordagem do teste de Lilliefors.
Ou seja, para usar a estatística KS, mas fazer com que a distribuição da estatística do teste reflita o efeito da estimativa de parâmetros - simule a distribuição da estatística do teste na estimativa de parâmetros. (Já não é livre de distribuição, você precisa de novas tabelas para cada distribuição.)
http://en.wikipedia.org/wiki/Lilliefors_test
O Liliefors usou simulação para o caso normal e exponencial, mas você pode fazer isso facilmente para qualquer distribuição específica; em algo como R, é questão de momentos para simular 10.000 ou 100.000 amostras e obter uma distribuição da estatística de teste sob o valor nulo.
[Uma alternativa pode ser considerar o Anderson-Darling, que tem o mesmo problema, mas que - a julgar pelo livro de D'Agostino e Stephens ( técnicas de adequação ) parece ser menos sensível a ele. Você pode adaptar a ideia de Lilliefors, mas eles sugerem um ajuste relativamente simples que parece funcionar bastante bem.]
Mas ainda existem outras abordagens; existem famílias de testes suaves de qualidade do ajuste, por exemplo (por exemplo, consulte o livro de Rayner e Best) que em vários casos específicos podem lidar com a estimativa de parâmetros.
* o efeito ainda pode ser bastante grande - talvez maior do que normalmente seria considerado aceitável; Momo tem razão em expressar preocupação com isso. Se uma taxa de erro mais alta do tipo I (e uma curva de potência mais plana) for um problema, isso pode não ser uma melhoria!
fonte
Receio que isso não resolva o problema. Acredito que o problema não é que os parâmetros sejam estimados a partir da mesma amostra, mas de qualquer amostra. A derivação da distribuição nula usual do teste KS não leva em consideração nenhum erro de estimativa nos parâmetros da distribuição de referência, mas os vê como dados. Veja também Durbin 1973, que discute detalhadamente essas questões e oferece soluções.
fonte