Aqui estão quatro conjuntos diferentes de números:
A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}
Usando um teste t de duas amostras sem assumir variações iguais, comparo B, C e D a A e obtenho os seguintes valores de p:
Qual o valor de x na
equação ax + bx +
c
= 0?
Acho estranho que o valor p do teste AD seja pior que o teste AC: a diferença entre as médias é claramente muito maior E a variação de D é muito menor que a variação de C. Intuitivamente (pelo menos para minha intuição) ), esses dois fatos devem reduzir o valor de p.
Alguém poderia explicar se esse é um comportamento desejado ou esperado do teste t ou se ele tem mais a ver com meu conjunto de dados específico (talvez um tamanho extremamente baixo de amostra?). O teste t é inadequado para esse conjunto de dados em particular?
De um ponto de vista puramente computacional, a razão para um valor p pior parece ser o grau de liberdade, que na comparação do AD é de 2,018, enquanto na comparação do AC é de 3,566. Mas certamente, se você apenas visse esses números, não pensaria que existem evidências mais fortes para rejeitar a hipótese nula no caso do AD em comparação com o CA?
Alguns podem sugerir que isso não é um problema aqui, pois todos os valores-p são bastante baixos. Meu problema é que esses três testes fazem parte de um conjunto de testes que estou realizando. Após a correção para vários testes, a comparação do AD não faz o corte, enquanto a comparação do CA faz. Imagine plotar esses números (digamos gráficos de barras com barras de erro, como os biólogos costumam fazer) e tentar justificar por que C é significativamente diferente de A, mas D não é ... bem, eu não posso.
Atualização: por que isso é realmente importante
Deixe-me esclarecer por que essa observação pode ter um grande impacto na interpretação de estudos anteriores. Em bioinformática, vi o teste t ser aplicado em amostras pequenas em larga escala (pense na expressão diferencial de genes de centenas ou milhares de genes, ou o efeito de muitas drogas diferentes em uma linha celular, usando apenas 3-5 repetições ) O procedimento usual é fazer muitos testes t (um para cada gene ou medicamento), seguidos de várias correções de teste, geralmente FDR. Dada a observação acima do comportamento do teste t de Welch, isso significa que alguns dos melhores casos estão sendo sistematicamente filtrados. Embora a maioria das pessoas analise os dados reais das comparações no topo de sua lista (aqueles com melhores valores de p), não conheço ninguém que analise a lista de todas as comparações em que a hipótese nula não era ' t rejeitado.
Respostas:
Sim, são os graus de liberdade. As estatísticas t aumentam à medida que comparamos os grupos B, C, D e A; os numeradores aumentam e os denominadores diminuem.
Por que sua abordagem não "funciona"? Bem, a aproximação de Satterthwaite para os graus de liberdade e a distribuição de referência é (como o nome sugere!) Apenas uma aproximação. Funcionaria bem se você tivesse mais amostras em cada grupo, e não dados de cauda pesada; 3 observações por grupo são realmente muito pequenas para a maioria dos propósitos. (Além disso, embora os valores p sejam úteis para a realização de testes, eles não medem evidências e não estimam parâmetros com interpretações diretas em termos de dados.)
Se você realmente deseja calcular a distribuição exata da estatística de teste - e um valor p melhor calibrado - existem métodos citados aqui que podem ser usados. No entanto, eles se baseiam em assumir Normalidade, uma suposição que você não tem capacidade apreciável de verificar aqui.
fonte
Há um pouco dessa questão e tenho certeza de que parte dela está além do meu entendimento. Portanto, embora eu tenha uma solução provável para o 'problema' e algumas especulações, você pode precisar verificar meus 'trabalhos'.
Você está interessado em evidências. Fisher propôs o uso de valores de p como evidência, mas a evidência dentro de um conjunto de dados contra a hipótese nula é mais facilmente (sensata?) Mostrada com uma função de probabilidade do que o valor de p. No entanto, um valor p mais extremo é uma evidência mais forte.
Esta é a minha solução: não use o teste t de Welch, mas transforme os dados com uma conversão de raiz quadrada para equalizar as variações e use um teste t de Student padrão. Essa transformação funciona bem em seus dados e é uma das abordagens padrão para dados heterocedásticos. A ordem dos valores de p agora corresponde à sua intuição e servirá de evidência.
Se você estiver usando os valores de p como evidência, em vez de tentar se proteger contra erros falsos positivos a longo prazo, os argumentos para ajustar os valores de p para comparações múltiplas ficarão bastante fracos, na minha opinião.
Agora, a parte especulativa. Pelo que entendi, o teste t de Welch é uma solução para o problema de Fisher-Behrens (teste significa que os dados têm variações desiguais), mas é uma solução que Fisher não estava satisfeito. Talvez seja um Neyman-Pearsonian em sua filosofia subjacente. De qualquer forma, a quantidade de evidência no valor p de um teste t depende do valor de p E do tamanho da amostra. (Isso não é amplamente reconhecido, talvez porque a evidência no valor p de um teste z seja independente do tamanho da amostra.) Suspeito que o teste de Welch estraga a natureza evidencial do valor p pelo ajuste dos graus de liberdade.
fonte
Depois de procurar, acho que meu veredicto final é mais ou menos assim:
Para simplificar a discussão, vamos considerar apenas o caso em que os tamanhos das amostras são iguais. Nesse caso, a aproximação aos graus de liberdade pode ser escrita como
onde e são da amostra variâncias e é o tamanho da amostra. Portanto, os graus de liberdade são quando as variações da amostra são iguais e se aproximam medida que os tamanhos das amostras se tornam mais desiguais. Isso significa que os graus de liberdade diferirão por um fator de quase 2, com base apenas nas variações da amostra. Mesmo para tamanhos de amostra de tamanho razoável (digamos 10 ou 20), a situação ilustrada no post principal pode ocorrer facilmente. s 2 2 n ( n - 1 ) ⋅ 2 ( n - 1 )s21 s22 n (n−1)⋅2 (n−1)
Quando muitos testes t são executados, classificar as comparações pelo valor-p pode facilmente resultar nas melhores comparações, não chegando ao topo da lista ou sendo excluídas após o ajuste para vários testes.
Minha opinião pessoal é que essa é uma falha fundamental no teste t de Welch, pois foi projetado para comparações entre amostras com variações desiguais, mas quanto mais desiguais as variações se tornam, mais você perde energia (no sentido de que a ordem de seu p valores estarão errados).
A única solução em que posso pensar é usar algum teste baseado em permutação ou transformar os dados para que as variações nos seus testes não fiquem muito distantes uma da outra.
fonte
Até onde eu sei, ouvi o teste t de Welch, que usa a aproximação de Satterthwaite
é verificado para o teste de significância de 0,05.
O que significa que quando P (combinação linear de distribuição qui-quadrado> c) = 0,05,
podemos obter aproximado c.
Então, acho que o valor p é bastante confiável em torno de 0,05,
E, obviamente, não é assim quando fica muito menor que 0,05.
p1 = 0 p2 = 0 para (m em 1:50) {a <-c (-m + 95,47, -m + 87,90, -m + 99,00) c <-c (38,4, 40,4, 32,8) d <-c (1,8, 1,2, 1,1) p1 [m] = t.teste (a, c, var.eqaul = F) p. value} plot (1:50, p1, col = "preto") pontos (1:50, p2, col = "vermelho")p.valuep2[m]=t.test(a,d,var.eqaul=F)
Você pode ver os valores p ficarem mais corretos quando se aproxima de 0,05 ...
Portanto, não devemos usar valores p muito inferiores a 0,05 ao usar o teste t de Welch.
Se for usado, acho que deveríamos escrever um artigo sobre isso.
De qualquer forma, atualmente estou escrevendo sobre "Estatísticas" e esse tema é intrigante.
Espero usar seus dados para escrever o livro com sua permissão.
Você me deixaria usar seus dados?
E ficarei grato se você puder dizer a fonte dos dados e o contexto a partir do qual
eles vieram!
fonte