Escolhendo um teste estatístico com base no resultado de outro (por exemplo, normalidade)

13

Ouvi dizer que não é uma boa ideia escolher um teste estatístico com base no resultado de outro. Isso me parece estranho. Por exemplo, as pessoas geralmente escolhem usar um teste não paramétrico quando algum outro teste sugere que os resíduos não são normalmente distribuídos. Essa abordagem parece bastante aceita, mas não parece concordar com a primeira frase deste parágrafo. Eu só esperava obter esclarecimentos sobre esse assunto.

Jimj
fonte
3
Só porque os resíduos não são gaussianos não significa que você precisa de testes não paramétricos. Geralmente, é possível discernir o tipo de modelo a ser usado (modelo sim, não teste) da natureza dos dados (contagem, 0 1 dados, relação contínua de variação média, relação linear ou não linear, etc.) e ajustar modelos de acordo atender às características dos dados, decidindo previamente qual era a hipótese a ser testada. Uma vez que você sentir o ajuste atende aos pressupostos do modelo ajustado, então você pode avaliar o p-valor e outras estatísticas,
Reintegrar Monica - G. Simpson

Respostas:

14

Dado que é a probabilidade de observar dados tão ou mais extremos se H 0 for verdadeiro, qual é a interpretação de p onde p é alcançado através de um processo em que houve uma decisão contingente feita na seleção do teste que produziu esse p ? A resposta é incognoscível (ou pelo menos quase incognoscível). Ao tomar a decisão de executar o teste ou não com base em algum outro processo probabilístico, você tornou a interpretação do seu resultado ainda mais complicada. ppH0ppppp

russellpierce
fonte
Não consegui encontrar nenhum artigo discutindo esse fenômeno no Google, possivelmente porque usei os termos de pesquisa incorretos. Alguém seria capaz de me apontar na direção de um artigo que discute o problema de testes baseados em testes?
Rob Hall
1
@ RobHall: Esta é uma instância específica de "A importância de questões hipotéticas para dados imaginários". Cf. Wagenmakers, 2007, p. 784. Os Wagenmakers desenham especificamente a questão das transformações na segunda coluna, afirmando "para calcular um valor de p, você precisa saber o que teria feito se os dados tivessem saído de forma diferente ... isso inclui o que você faria se os dados claramente distribuídos de maneira não normal ..., os valores de p só podem ser calculados quando o plano de amostragem for totalmente conhecido e especificado com antecedência ".
russellpierce
8

Por exemplo, as pessoas geralmente escolhem usar um teste não paramétrico quando algum outro teste sugere que os resíduos não são normalmente distribuídos. Essa abordagem parece bastante aceita, mas não parece concordar com a primeira frase deste parágrafo. Eu só esperava obter esclarecimentos sobre esse assunto.

Sim, muitas pessoas fazem esse tipo de coisa e mudam seu segundo teste para um que possa lidar com a heterocedasticidade quando rejeitam a igualdade de variância, e assim por diante.

Só porque algo é comum, não significa que seja necessariamente sábio.

De fato, em alguns lugares (não vou citar as disciplinas com as piores ofensas), grande parte desse teste formal de hipóteses contingente a outros testes formais de hipóteses é realmente ensinada.

O problema de fazer isso é que seus procedimentos não têm suas propriedades nominais, às vezes nem chegam perto. (Por outro lado, assumir coisas assim sem nenhuma consideração por violação potencialmente extrema pode ser ainda pior.)

Vários artigos sugerem que, para o caso heterocedástico, é melhor você simplesmente agir como se as variações não fossem iguais do que testá-lo e fazer apenas algo a respeito da rejeição.

No caso da normalidade, é menos claro. Em amostras grandes, pelo menos, em muitos casos, a normalidade não é tão crucial (mas ironicamente, com amostras grandes, é mais provável que seu teste de normalidade seja rejeitado), desde que a não normalidade não seja muito selvagem. Uma exceção é para intervalos de previsão, nos quais você realmente precisa que sua suposição distributiva esteja próxima da direita.

Em parte, um problema é que os testes de hipóteses respondem a uma pergunta diferente daquela que precisa ser respondida. Você realmente não precisa saber 'os dados são realmente normais' (quase sempre, não será exatamente normal a priori ). A questão é bastante "até que ponto a extensão da não normalidade afetará minha inferência".

A segunda questão geralmente é praticamente independente do tamanho da amostra ou, na verdade, melhora com o aumento do tamanho da amostra - ainda que os testes de hipóteses quase sempre rejeitem em tamanhos grandes de amostra.

Existem muitas situações em que existem procedimentos robustos ou mesmo livres de distribuição, que são muito próximos da eficiência total, mesmo no normal (e potencialmente muito mais eficiente em algumas partidas bastante modestas) - em muitos casos, parece bobagem não aceitar o mesma abordagem prudente.

Glen_b -Reinstate Monica
fonte
Bom (+1) Você poderia fazer uma referência aos artigos que você mencionou sobre o caso heterocedástico?
gui11aume
2
Eu não quero apontar nada, mas eu os encontro online o tempo todo, por isso não é difícil descobrir quais tendem a enfatizá-lo (eles tendem a ser os mesmos que historicamente enfatizam demais o teste de hipóteses). De fato, as disciplinas das pessoas que geram perguntas aqui, nas quais os pôsteres acham que precisam usar testes formais, normalmente seriam as mesmas. Não são apenas uma ou duas disciplinas - eu vejo muitas -, mas algumas parecem fazê-lo especialmente com frequência. Para que seja razoavelmente comum, posso apenas assumir que houve textos particularmente conhecidos nas áreas que insistiram nisso.
Glen_b -Reinstala Monica
1
@ gui11aume Aqui está uma referência ... não é uma das que eu estava procurando, mas faz questão de entender (que testes preliminares podem piorar as coisas).
Glen_b -Reinstala Monica
2
Andrew Gelman teve um post relacionado recentemente sobre heterogeneidade entre grupos que está relacionado (pelo menos sobre por que esse processo é problemático).
21713 Andy
1
Uma pergunta relacionada a essas discussões de um tempo atrás: stats.stackexchange.com/questions/305/…
russellpierce
8

Os principais problemas foram bem explicados por outros, mas são confundidos com fatores subjacentes ou associados.

  1. Reverência excessiva por valores-P, no máximo um tipo de evidência em estatística.

  2. Relutância em ver que os relatórios estatísticos se baseiam inevitavelmente em uma combinação de escolhas, algumas firmemente baseadas em evidências, outras baseadas em uma mistura de análises anteriores, intuição, adivinhação, julgamento, teoria, etc.

Suponha que eu e meu amigo cauteloso Test Tudo escolhamos uma transformação de log para uma resposta, mas chego a essa conclusão com base em uma mistura de raciocínio físico e experiência anterior com dados, enquanto Test Everything escolhe a escala de log com base nos testes e estimativas Box-Cox de um parâmetro.

Agora nós dois usamos a mesma regressão múltipla. Nossos valores-P têm interpretações diferentes? Em uma interpretação, os valores P de Test Everything estão condicionados às inferências anteriores. Também usei inferências, mas a maioria era informal, com base em uma longa série de gráficos, cálculos etc. em projetos anteriores. Como isso deve ser relatado?

Naturalmente, os resultados da regressão são exatamente os mesmos para Testar tudo e eu.

A mesma mistura de conselhos sensatos e filosofia dúbia se aplica à escolha de preditores e forma funcional. Os economistas, por exemplo, são amplamente ensinados a respeitar as discussões teóricas anteriores e a ter cuidado com a invasão de dados, com boas razões para cada caso. Mas, nos casos mais fracos, a teoria em questão é apenas uma sugestão tentativa feita anteriormente na literatura, muito provavelmente após algumas análises empíricas. Porém, referências bibliográficas santificam, embora muitos dos autores aprendam com os dados em mãos.

Nick Cox
fonte
Muito claro (+1).
gui11aume
1
+1. Há uma diferença de longo prazo no desempenho de suas análises vs. Testar as análises de Tudo, no entanto. Toda vez que essa análise for executada, você usará a mesma estratégia, com base no que foi escrito na literatura (que não flutua experimento por experimento). OTOH, os dados são uma amostra aleatória e os resultados dos testes de Box-Cox flutuam estudo por estudo.
gung - Restabelece Monica
Isso é ótimo, mas minha experiência também muda a longo prazo.
Nick Cox