Vários testes de hipóteses, como o GOF, Kolmogorov-Smirnov, Anderson-Darling etc., seguem este formato básico:
: Os dados seguem a distribuição fornecida.
: Os dados não seguem a distribuição fornecida.
Normalmente, avalia-se a afirmação de que alguns dados dados seguem alguma distribuição dada e, se alguém rejeita , os dados não são adequados para a distribuição especificada em algum nível .
Mas e se não rejeitarmos ? Sempre fui ensinado que não se pode "aceitar" , portanto, basicamente, não temos provas de rejeitar . Ou seja, não há evidências de que rejeitamos que os dados sigam a distribuição fornecida.
Portanto, minha pergunta é: qual é o sentido de realizar esses testes se não pudermos concluir se os dados seguem ou não uma determinada distribuição?
fonte
Respostas:
Em termos gerais (não apenas no teste de ajuste de qualidade, mas em muitas outras situações), você simplesmente não pode concluir que o nulo é verdadeiro, porque existem alternativas efetivamente indistinguíveis do nulo em um determinado tamanho de amostra.
Aqui estão duas distribuições, uma normal normal (linha sólida verde) e outra semelhante (90% normal normal e 10% beta padronizada (2,2), marcadas com uma linha tracejada vermelha):
O vermelho não é normal. Por exemplo, , temos poucas chances de detectar a diferença, portanto, não podemos afirmar que os dados são extraídos de uma distribuição normal - e se fossem de uma distribuição não normal como a vermelha?n = 100
Frações menores de betas padronizados com parâmetros iguais mas maiores seriam muito mais difíceis de ver como diferentes de um normal.
Mas, dado que os dados reais quase nunca são de uma distribuição simples, se tivéssemos um oráculo perfeito (ou tamanhos de amostra efetivamente infinitos), essencialmente sempre rejeitaríamos a hipótese de que os dados fossem de alguma forma distributiva simples.
Como George Box disse : " Todos os modelos estão errados, mas alguns são úteis " .
Considere, por exemplo, testar a normalidade. Pode ser que os dados realmente venham de algo próximo do normal, mas eles serão exatamente normais? Eles provavelmente nunca são.
Em vez disso, o melhor que você pode esperar com essa forma de teste é a situação que você descreve. (Veja, por exemplo, a postagem O teste de normalidade é essencialmente inútil?, Mas há várias outras postagens aqui que apontam pontos relacionados)
Isso é parte do motivo pelo qual geralmente sugiro às pessoas que a pergunta na qual elas realmente estão interessadas (que geralmente é algo mais próximo de 'meus dados estão próximos o suficiente da distribuição que eu possa fazer inferências adequadas com base nisso?') É geralmente não é bem respondido pelo teste de qualidade do ajuste. No caso da normalidade, geralmente os procedimentos inferenciais que eles desejam aplicar (testes t, regressão etc.) tendem a funcionar muito bem em amostras grandes - geralmente mesmo quando a distribuição original é claramente claramente não normal - apenas quando uma boa Provavelmente, o teste de adaptação rejeitará a normalidade . É pouco útil ter um procedimento com maior probabilidade de informar que seus dados não são normais apenas quando a pergunta não importa.F
Considere a imagem acima novamente. A distribuição vermelha não é normal e, com uma amostra muito grande, poderíamos rejeitar um teste de normalidade com base em uma amostra dela ... mas em um tamanho de amostra muito menor, regressões e dois testes t de amostra (e muitos outros testes além disso) se comportará tão bem que tornará inútil se preocupar com a não normalidade, mesmo que um pouco.
Você pode especificar algumas formas específicas de desvio e observar algo como teste de equivalência, mas é meio complicado com a qualidade do ajuste, porque existem muitas maneiras de uma distribuição estar próxima, mas diferente da hipótese, e diferente formas de diferença podem ter diferentes impactos na análise. Se a alternativa for uma família mais ampla que inclua o nulo como um caso especial, o teste de equivalência fará mais sentido (teste exponencial em relação à gama, por exemplo) - e, de fato, a abordagem do "teste unilateral" continua, e isso pode ser uma maneira de formalizar "próximo o suficiente" (ou seria se o modelo gama fosse verdadeiro, mas, na verdade, seria praticamente certo que ele seria rejeitado por um teste de qualidade de ajuste comum,
O teste de qualidade do ajuste (e geralmente o teste de hipóteses) é realmente adequado apenas para uma gama bastante limitada de situações. A pergunta que as pessoas geralmente querem responder não é tão precisa, mas um pouco mais vaga e mais difícil de responder - mas como John Tukey disse: " Muito melhor uma resposta aproximada à pergunta certa, que geralmente é vaga do que uma resposta exata à pergunta. pergunta errada, que sempre pode ser precisa. "
Abordagens razoáveis para responder a perguntas mais vagas podem incluir investigações de simulação e reamostragem para avaliar a sensibilidade da análise desejada à suposição que você está considerando, em comparação com outras situações que também são razoavelmente consistentes com os dados disponíveis.
fonte
fonte
Uma visão que eu acho compartilhada pela maioria das pessoas é que o teste de hipóteses é uma adaptação probabilística do princípio da falsificação .
fonte
Penso que este é um exemplo perfeito para ilustrar a diferença entre trabalho acadêmico e tomada de decisão prática. Em ambientes acadêmicos (onde estou), você pode argumentar da maneira que quiser, desde que isso seja considerado razoável por outras pessoas. Portanto, basicamente acabamos tendo barreiras intermináveis, às vezes circulares, um com o outro. Nesse sentido, isso fornece às pessoas algo para trabalhar.
No entanto, se você está realmente em posição de realmente tomar decisões, a resposta é um sim ou não definitivo. A indecisão prejudicará sua reputação como tomador de decisão. Obviamente, fazer uma escolha envolve não apenas estatísticas, mas também algumas vezes um elemento de jogo e salto de fé. Em resumo, esse tipo de exercício é até certo ponto útil para a tomada de decisão. No entanto, contar com sua decisão apenas nesse teste de hipótese é uma história completamente diferente.
fonte
O ponto é que, do ponto de vista estatístico puro, você não pode aceitar , mas na prática aceita . Por exemplo, se você estiver estimando o risco de um portfólio usando medidas de valor em risco ou similares, a distribuição de retorno do portfólio é bastante importante. Isso ocorre porque o risco é definido pela cauda da sua distribuição.
Nos casos de livros didáticos, a distribuição normal é frequentemente usada como exemplo. No entanto, se os retornos do seu portfólio tiverem detalhes (o que geralmente acontecem), a aproximação da distribuição normal subestima os riscos. Portanto, é importante examinar os retornos e decidir se você usará a aproximação normal ou não. Observe que isso não significa necessariamente executar testes estatísticos, pode ser gráficos QQ ou outros meios. No entanto, você precisa tomar uma decisão em algum momento com base na análise de retornos e seus modelos de retorno e usar o normal ou não.
Portanto, para todos os propósitos práticos, não rejeitar significa realmente aceitar, embora não no sentido estatístico estrito. Você vai aceitar o normal e usá-lo em seus cálculos, que serão apresentados à alta gerência diária, a seus reguladores, auditores etc. A não rejeita , neste caso, agora tem profundas consequências em todos os sentidos, por isso é tão ou mais poderoso que o resultado estatístico bobo.
fonte
Nenhum réu em tribunal é inocente. Eles são culpados (rejeitam a hipótese nula de inocente) ou não são culpados (não rejeitam a presunção de inocência).
Ausência de evidência não é evidência de ausência.
fonte
Se você tem uma distribuição alternativa (ou conjunto de distribuições) em mente para comparar, pode ser uma ferramenta útil.
Algumas Dificuldades de Interpretação Encontradas na Aplicação do Teste do Qui-Quadrado. Joseph Berkson. Jornal da Associação Estatística Americana. Vol. 33, nº 203 (setembro de 1938), pp. 526-536
fonte