Lendo os clássicos de todos os tempos, encontrei uma declaração que gostaria de esclarecer. Este é o post e minha pergunta se refere às considerações finais: "Tenho que observar que todo o conhecimento que acabei de transmitir é um pouco obsoleto; agora que temos computadores, podemos fazer melhor que os testes t. Como observa Frank, você provavelmente deseja usar os testes de Wilcoxon em qualquer lugar onde você foi ensinado a executar um teste t ".
A falta de preocupações sobre se é correto supor que a distribuição da amostra é normal o suficiente para executar o teste t é obviamente uma grande vantagem. E vejo que os computadores podem classificar longas listas de diferenças entre dois vetores de dados rapidamente ... Lembro-me de fazê-lo manualmente há muitos anos, mas discordo ...
Então, o teste t é realmente uma coisa do passado? E os testes de permutação? Eles são muito ad hoc no sentido de normalmente envolver a escrita de algumas linhas de código?
fonte
Respostas:
Eu não diria que os testes t de uma amostra clássica (incluindo emparelhados) e de duas amostras com variância igual são exatamente obsoletos, mas há uma infinidade de alternativas que possuem excelentes propriedades e, em muitos casos, devem ser usadas.
Também não diria que a capacidade de realizar rapidamente testes de Wilcoxon-Mann-Whitney em amostras grandes - ou mesmo testes de permutação - é recente, eu fazia ambos rotineiramente há mais de 30 anos como estudante e a capacidade de fazê-lo tinha está disponível há muito tempo nesse ponto.
Então, aqui estão algumas alternativas e por que elas podem ajudar:
Welch-Satterthwaite - quando você não tem certeza de que as variações serão próximas a iguais (se os tamanhos das amostras forem iguais, a suposição de variação igual não será crítica)
Wilcoxon-Mann-Whitney - Excelente se as caudas forem normais ou mais pesadas que o normal, principalmente em casos que são quase simétricos. Se as caudas tendem a estar próximas do normal, um teste de permutação nos meios oferecerá um pouco mais de potência.
testes t robustos - existem vários que têm boa potência no normal, mas também funcionam bem (e mantêm boa potência) sob alternativas de cauda mais pesada ou de certa forma distorcidas.
GLMs - útil para contagens ou casos contínuos de inclinação à direita (por exemplo, gama), por exemplo; projetado para lidar com situações em que a variação está relacionada à média.
efeitos aleatórios ou modelos de séries temporais podem ser úteis nos casos em que existem formas particulares de dependência
Abordagens bayesianas , bootstrapping e uma infinidade de outras técnicas importantes que podem oferecer vantagens semelhantes às idéias acima. Por exemplo, com uma abordagem bayesiana, é bem possível ter um modelo que possa explicar um processo de contaminação, lidar com contagens ou dados distorcidos e lidar com formas particulares de dependência, tudo ao mesmo tempo .
Embora exista uma infinidade de alternativas úteis, o teste t padrão de duas amostras com variância e padrão de estoque antigo geralmente pode ter um bom desempenho em amostras grandes e de tamanho igual, desde que a população não esteja muito longe do normal (como ter cauda muito pesada) / skew) e temos quase independência.
As alternativas são úteis em várias situações em que podemos não estar tão confiantes com o teste t simples ... e, no entanto, geralmente apresentam um bom desempenho quando as premissas do teste t são atendidas ou estão próximas de serem atendidas.
O Welch é um padrão sensato se a distribuição tende a não se afastar muito do normal (com amostras maiores permitindo mais margem de manobra).
Embora o teste de permutação seja excelente, sem perda de potência em comparação com o teste t quando suas suposições se mantêm (e o benefício útil de deduzir diretamente sobre a quantidade de interesse), o Wilcoxon-Mann-Whitney é sem dúvida uma escolha melhor se caudas podem ser pesadas; com uma suposição adicional menor, o WMW pode tirar conclusões relacionadas à mudança de média. (Há outras razões pelas quais se pode preferir ao teste de permutação)
[Se você sabe que está lidando com contagens de palavras, tempos de espera ou tipos semelhantes de dados, a rota GLM geralmente é sensata. Se você souber um pouco sobre possíveis formas de dependência, isso também é prontamente tratado, e o potencial de dependência deve ser considerado.]
Portanto, embora o teste t certamente não seja uma coisa do passado, você quase sempre pode se sair tão bem ou quase tão bem quando se aplica, e potencialmente ganhar muito quando não se inscreve uma das alternativas . Ou seja, concordo amplamente com o sentimento nesse post relacionado ao teste t ... muitas vezes você provavelmente deve pensar em suas suposições antes mesmo de coletar os dados, e se alguma delas pode não ser realmente esperada para sustentar, com o teste t geralmente não há quase nada a perder em simplesmente não fazer essa suposição, já que as alternativas geralmente funcionam muito bem.
Se alguém está enfrentando o grande problema de coletar dados, certamente não há razão para não investir um pouco de tempo, sinceramente, considerando a melhor maneira de abordar suas inferências.
Observe que geralmente desaconselho o teste explícito de suposições - não apenas responde à pergunta errada, mas o faz e depois escolhe uma análise baseada na rejeição ou não rejeição da suposição, que afeta as propriedades de ambas as opções de teste; se você não puder fazer uma suposição razoavelmente segura (seja porque conhece o processo suficientemente bem que pode assumi-lo ou porque o procedimento não é sensível a ele em suas circunstâncias), geralmente falando, é melhor usar o procedimento isso não assume.
(Os valores de p resultantes são 0,538 e 0,539, respectivamente; o teste t ordinário correspondente de duas amostras tem um valor p de 0,504 e o teste t Welch-Satterthwaite tem um valor p de 0,522.)
Observe que o código para os cálculos é, em cada caso, 1 linha para as combinações para o teste de permutação e o valor p também pode ser feito em 1 linha.
Adaptar isso a uma função que executou um teste de permutação ou teste de randomização e produziu uma saída como um teste t seria uma questão trivial.
Aqui está uma exibição dos resultados:
fonte