Como você verifica suposições de teste em casos do mundo real, sem testá-las

9

Sabemos que, formalmente, as suposições de um teste não podem ser testadas, porque se escolhermos qual teste usar com base nos resultados do teste, o teste composto resultante terá propriedades desconhecidas (taxas de erro do tipo I e II). Eu acho que essa é uma das razões pelas quais o tipo "Six Sigma" de abordagens estatísticas (usa uma árvore de decisão baseada nos resultados dos testes para escolher qual teste usar) recebe uma má reputação entre os estatísticos profissionais.

No entanto, com dados do mundo real, geralmente obtemos amostras para as quais suposições clássicas podem não ser válidas e, portanto, precisamos verificar de uma maneira ou de outra. Então, o que você realmente faz em seu trabalho / pesquisa? Realize uma verificação informal, por exemplo, verifique a distribuição de dados e use um t-test quando a distribuição empírica não parece muito distorcida? É isso que vejo sendo feito na maioria das vezes. No entanto, desde que tomemos uma decisão com base no resultado desse "teste informal", ainda afetamos as propriedades do teste e, é claro, se não usarmos a verificação para tomar uma decisão, a verificação será inútil e nós não deve perder tempo precioso fazendo isso. Obviamente, você poderia me responder que as propriedades formais dos testes são superestimadas e que, na prática, não precisamos ser religiosos sobre isso. É por isso que estou interessado no que você faz na prática, e não apenas em uma base teórica.

Outra abordagem seria sempre usar o teste com menos suposições. Normalmente, eu vi essa abordagem sendo enquadrada como preferindo testes não paramétricos a testes paramétricos , já que os primeiros não assumem que as estatísticas de teste provêm de uma família de distribuições indexadas por um vetor de parâmetros, portanto, devem ser mais robustas (menos suposições) ) Isso é verdade em geral? Com essa abordagem, não corremos o risco de usar testes com pouca potência em alguns casos? Não tenho certeza. Existe uma referência útil (possivelmente simples) para as estatísticas aplicadas, que lista uma lista de testes / modelos a serem usados, como melhores alternativas aos testes clássicos (teste t, qui-quadrado etc.) e quando usá-los?

DeltaIV
fonte
Os métodos Six Sigma são projetados para processos que foram e devem ser executados repetidamente, por exemplo, como na fabricação. Eles têm pouco ou nada a dizer sobre os problemas relacionados aos dados (informações) personalizados e ad hoc, ex novo ou completamente novos. Isso significa que a descoberta do conhecimento real é inerentemente arriscada e requer replicação para consagração.
Mike Hunter

Respostas:

2

O que tenho visto com mais frequência (e tenderia a fazer eu mesmo) é examinar vários conjuntos de dados históricos da mesma área para as mesmas variáveis ​​e usá-los como base para decidir o que é apropriado. Ao fazer isso, é claro que deve-se ter em mente que desvios leves, por exemplo, da normalidade nos resíduos de regressão, geralmente não são muito problemáticos, dados tamanhos de amostra suficientemente grandes no aplicativo planejado. Ao analisar dados independentes, evita-se o problema de alterar as propriedades do teste, como o controle de erros do tipo I (que são muito importantes em algumas áreas, como ensaios clínicos confirmatórios para fins regulatórios). O motivo (quando apropriado) do uso de abordagens paramétricas é, como você diz, eficiência,

Björn
fonte
Interessante - se eu tivesse mais conjuntos de dados, tentaria agregar para ganhar poder, mas não agregar e reservar dados históricos para verificações de suposição é uma ideia alternativa interessante. Também revisar a literatura pode ajudar. Definitivamente concordar com o fato de que as estimativas de tamanho de efeito de abordagens paramétricas são mais fáceis de interpretar.
DeltaIV
11
Eu acho que vindo da indústria farmacêutica, eu estava pensando em ensaios de diferentes drogas. Se o controle estrito da taxa de erro do tipo I não for necessário e for mais para a tomada de decisão interna, acho que ainda podemos usar os testes anteriores de outros medicamentos também para obter uma prévia para o grupo de controle, mas o foco geralmente está na análise de um novo julgamento de um novo medicamento. Isso pode explicar minha perspectiva particular.
Björn
0

Pessoalmente, gosto de executar um teste paramétrico e seu equivalente não paramétrico e testar as suposições de cada um de uma vez. Se as suposições do teste paramétrico não forem violadas maciçamente ou se eu obtiver resultados semelhantes com o texto não paramétrico, utilizarei o teste paramétrico. Mesmo que as suposições paramétricas sejam violadas, se você obtiver resultados significativos, poderá confiar nelas porque o teste foi enfraquecido pela violação. Além disso, sejamos honestos, é difícil fazer uma interpretação significativa dos resultados como "o grupo A teve uma pontuação média de classificação 12 maior que a pontuação média do grupo B."

JRF1111
fonte
Se você testar as suposições do teste paramétrico e usar o não paramétrico quando as suposições do primeiro forem violadas, caso contrário, reverter para o paramétrico, estará efetivamente usando um teste composto de propriedades desconhecidas. Você acha que isso não é uma questão importante? Concordo com a dificuldade em interpretar os resultados de algum teste não paramétrico - por exemplo, no Mann Whitney Wilcoxon, escala e localização são confundidas, o que certamente não simplifica a interpretação.
DeltaIV
11
Honestamente, eu não tinha pensado dessa maneira. Isso levanta um bom ponto. Em última análise, porém, acho que, pelo menos para o trabalho que faço, resultados claramente compreensíveis que não violam massivamente as suposições de teste são a maior preocupação. As pessoas tendem a ter dificuldade em entender as estatísticas de qualquer maneira.
JRF1111