O teste t de Welch fornece pior valor p para diferença mais extrema

8

Aqui estão quatro conjuntos diferentes de números:

A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}

Usando um teste t de duas amostras sem assumir variações iguais, comparo B, C e D a A e obtenho os seguintes valores de p:

Qual o valor de x na equação ax + bx +
c
= 0?

Acho estranho que o valor p do teste AD seja pior que o teste AC: a diferença entre as médias é claramente muito maior E a variação de D é muito menor que a variação de C. Intuitivamente (pelo menos para minha intuição) ), esses dois fatos devem reduzir o valor de p.

Alguém poderia explicar se esse é um comportamento desejado ou esperado do teste t ou se ele tem mais a ver com meu conjunto de dados específico (talvez um tamanho extremamente baixo de amostra?). O teste t é inadequado para esse conjunto de dados em particular?

De um ponto de vista puramente computacional, a razão para um valor p pior parece ser o grau de liberdade, que na comparação do AD é de 2,018, enquanto na comparação do AC é de 3,566. Mas certamente, se você apenas visse esses números, não pensaria que existem evidências mais fortes para rejeitar a hipótese nula no caso do AD em comparação com o CA?

Alguns podem sugerir que isso não é um problema aqui, pois todos os valores-p são bastante baixos. Meu problema é que esses três testes fazem parte de um conjunto de testes que estou realizando. Após a correção para vários testes, a comparação do AD não faz o corte, enquanto a comparação do CA faz. Imagine plotar esses números (digamos gráficos de barras com barras de erro, como os biólogos costumam fazer) e tentar justificar por que C é significativamente diferente de A, mas D não é ... bem, eu não posso.

Atualização: por que isso é realmente importante

Deixe-me esclarecer por que essa observação pode ter um grande impacto na interpretação de estudos anteriores. Em bioinformática, vi o teste t ser aplicado em amostras pequenas em larga escala (pense na expressão diferencial de genes de centenas ou milhares de genes, ou o efeito de muitas drogas diferentes em uma linha celular, usando apenas 3-5 repetições ) O procedimento usual é fazer muitos testes t (um para cada gene ou medicamento), seguidos de várias correções de teste, geralmente FDR. Dada a observação acima do comportamento do teste t de Welch, isso significa que alguns dos melhores casos estão sendo sistematicamente filtrados. Embora a maioria das pessoas analise os dados reais das comparações no topo de sua lista (aqueles com melhores valores de p), não conheço ninguém que analise a lista de todas as comparações em que a hipótese nula não era ' t rejeitado.

ALiX
fonte
1
Lembre-se, a fórmula de Welch é uma aproximação. Os estudos de simulação indicam que "a correção de Welch se torna muito conservadora quando os tamanhos das amostras são fortemente desiguais", como é o caso da comparação de DA.
whuber
1
Os tamanhos das amostras são iguais neste caso @whuber. Você quis dizer variações de amostra?
ALiX
1
Obrigado, ALiX, você está certo. No caso de variações altamente desiguais e tamanhos iguais de amostra, eu deveria ter citado uma conclusão diferente (que é ainda pior!): "... erro do tipo I ... é inflado em vários graus, de modo que os testes são inválidos e não deve ser usado ".
whuber
Gostaria de saber se seus dados são contagens de leitura de rna-seq? Em caso afirmativo, posso sugerir que você procure no DESeq (pacote R / Bioconductor)? genomebiology.com/2010/11/10/R106
bdemarest 12/05

Respostas:

3

Sim, são os graus de liberdade. As estatísticas t aumentam à medida que comparamos os grupos B, C, D e A; os numeradores aumentam e os denominadores diminuem.

Por que sua abordagem não "funciona"? Bem, a aproximação de Satterthwaite para os graus de liberdade e a distribuição de referência é (como o nome sugere!) Apenas uma aproximação. Funcionaria bem se você tivesse mais amostras em cada grupo, e não dados de cauda pesada; 3 observações por grupo são realmente muito pequenas para a maioria dos propósitos. (Além disso, embora os valores p sejam úteis para a realização de testes, eles não medem evidências e não estimam parâmetros com interpretações diretas em termos de dados.)

Se você realmente deseja calcular a distribuição exata da estatística de teste - e um valor p melhor calibrado - existem métodos citados aqui que podem ser usados. No entanto, eles se baseiam em assumir Normalidade, uma suposição que você não tem capacidade apreciável de verificar aqui.

hóspede
fonte
Só mais amostras não ajudariam: eu obteria valores p mais baixos, mas a ordem dos valores p seria a mesma. Veja minha atualização por que isso pode ser importante em alguns aplicativos.
ALiX
Concordo que esse fenômeno pode ser importante, mas mais amostras por grupo ajudariam; assintoticamente, o teste fornece valores p precisos. No entanto, em pequenos grupos, existem métodos exatos (por exemplo, SAM, de Tibshirani) que obtêm sua validade estatística a partir de análises baseadas em permutações.
guest
Se houver uma grande diferença entre as variações dos dois grupos, o aumento do tamanho da amostra não ajudará no sentido de que a ordem dos valores de p estará incorreta (ou seja, a AC ainda terá um valor de p menor que o AD). O SAM não pode ser usado se você estiver testando o efeito de muitos compostos em diferentes concentrações (essa deve ser a aplicação ideal do teste t). O teste t de Welch me parece fundamentalmente defeituoso : seu objetivo é lidar com variações desiguais, mas quanto mais desiguais forem as variações, pior será o desempenho (o grau de aproximação da liberdade diminui).
ALiX
1
Se você deseja comparações aos pares dos diferentes níveis de concentração e estiver testando os níveis de expressão gênica em vários genes, o SAM pode ser usado para cada comparação aos pares e fornecerá declarações honestas de significância estatística para cada comparação. Você pode, se desejar, usá-las para classificar as comparações. Além disso, o teste de Welch não é fundamentalmente falho. Claro, ele simplesmente não funciona bem com n = 3, mas não é isso que ele afirma fazer. Uma bomba de bicicleta é inútil para descascar batatas, mas isso não significa que você possa concluir que ela é "fundamentalmente defeituosa".
guest
1
O pedido está potencialmente errado, não importa o que você faça, de modo que não ajuda. Se você deseja ordenar por significância estatística a diferença média entre grupos em seus dados reais e possuir amostras de tamanho moderado, o valor de p do teste de Welch será bom. Com amostras pequenas, não, não vai dar certo, mas, como foi desenvolvido como uma aproximação e funciona melhor do que muitos concorrentes, isso não é motivo de críticas.
guest
1

Há um pouco dessa questão e tenho certeza de que parte dela está além do meu entendimento. Portanto, embora eu tenha uma solução provável para o 'problema' e algumas especulações, você pode precisar verificar meus 'trabalhos'.

Você está interessado em evidências. Fisher propôs o uso de valores de p como evidência, mas a evidência dentro de um conjunto de dados contra a hipótese nula é mais facilmente (sensata?) Mostrada com uma função de probabilidade do que o valor de p. No entanto, um valor p mais extremo é uma evidência mais forte.

Esta é a minha solução: não use o teste t de Welch, mas transforme os dados com uma conversão de raiz quadrada para equalizar as variações e use um teste t de Student padrão. Essa transformação funciona bem em seus dados e é uma das abordagens padrão para dados heterocedásticos. A ordem dos valores de p agora corresponde à sua intuição e servirá de evidência.

Se você estiver usando os valores de p como evidência, em vez de tentar se proteger contra erros falsos positivos a longo prazo, os argumentos para ajustar os valores de p para comparações múltiplas ficarão bastante fracos, na minha opinião.

Agora, a parte especulativa. Pelo que entendi, o teste t de Welch é uma solução para o problema de Fisher-Behrens (teste significa que os dados têm variações desiguais), mas é uma solução que Fisher não estava satisfeito. Talvez seja um Neyman-Pearsonian em sua filosofia subjacente. De qualquer forma, a quantidade de evidência no valor p de um teste t depende do valor de p E do tamanho da amostra. (Isso não é amplamente reconhecido, talvez porque a evidência no valor p de um teste z seja independente do tamanho da amostra.) Suspeito que o teste de Welch estraga a natureza evidencial do valor p pelo ajuste dos graus de liberdade.

Michael Lew
fonte
Obrigado por apontar a transformação da raiz quadrada como uma solução. Eu vou dar uma olhada.
ALiX
(continuação) Eu realmente não entendo seu comentário sobre valores-p e vários testes. Existe uma contradição entre o uso de valores-p como evidência e o ajuste para vários testes? E seu comentário final sobre as evidências em um valor p de um teste t, dependendo do tamanho da amostra: os graus de liberdade não estão se ajustando aos tamanhos das amostras? Além disso, como isso poderia impactar esse conjunto de dados em particular quando o tamanho da amostra é o mesmo para todas as comparações?
ALiX
@AliX A evidência contra a hipótese nula é quantificada melhor pela função de probabilidade. Para um teste t, a altura da função de probabilidade que corresponde a um valor p específico depende do tamanho da amostra. Por outro lado, com um teste z, a altura da função de probabilidade não é afetada pelo tamanho da amostra. Se você está interessado em evidências, sugiro que analise Evidências estatísticas: um paradigma de probabilidade de Richard Royall.
Michael Lew
1

Depois de procurar, acho que meu veredicto final é mais ou menos assim:

Para simplificar a discussão, vamos considerar apenas o caso em que os tamanhos das amostras são iguais. Nesse caso, a aproximação aos graus de liberdade pode ser escrita como

(s12n+s22n)2s14n2(n1)+s24n2(n1)=...=(n1)(1+2s12s22s14+s24),

onde e são da amostra variâncias e é o tamanho da amostra. Portanto, os graus de liberdade são quando as variações da amostra são iguais e se aproximam medida que os tamanhos das amostras se tornam mais desiguais. Isso significa que os graus de liberdade diferirão por um fator de quase 2, com base apenas nas variações da amostra. Mesmo para tamanhos de amostra de tamanho razoável (digamos 10 ou 20), a situação ilustrada no post principal pode ocorrer facilmente. s 2 2 n ( n - 1 ) 2 ( n - 1 )s12s22n(n1)2(n1)

Quando muitos testes t são executados, classificar as comparações pelo valor-p pode facilmente resultar nas melhores comparações, não chegando ao topo da lista ou sendo excluídas após o ajuste para vários testes.

Minha opinião pessoal é que essa é uma falha fundamental no teste t de Welch, pois foi projetado para comparações entre amostras com variações desiguais, mas quanto mais desiguais as variações se tornam, mais você perde energia (no sentido de que a ordem de seu p valores estarão errados).

A única solução em que posso pensar é usar algum teste baseado em permutação ou transformar os dados para que as variações nos seus testes não fiquem muito distantes uma da outra.

ALiX
fonte
1
Não acho que deva ser chamado de "falha fundamental". Tudo é relativo a alguma coisa. O teste t de Welch saiu em resposta ao erro subestimado tipo I do teste t de variância em spool, por isso é uma maneira aprimorada de controlar o erro tipo I "em comparação com o" teste t de variância em spool. Mas quando se trata de MCP e valores de p muito baixos, com certeza há problemas.
KH Kim
2
Como você vai organizar suas permutações? Se as amostras realmente vierem de populações que diferem em variação, mesmo abaixo do nulo, os rótulos dos grupos não são arbitrários - iguais a , se um valor estiver próximo da média, é muito mais provável que tenha vindo do grupo com menor variação. Portanto, você não parece ser capaz de argumentar que pode apenas permitir rótulos sob o valor nulo. n
Glen_b -Reinstala Monica
0

Até onde eu sei, ouvi o teste t de Welch, que usa a aproximação de Satterthwaite

é verificado para o teste de significância de 0,05.

O que significa que quando P (combinação linear de distribuição qui-quadrado> c) = 0,05,

podemos obter aproximado c.

Então, acho que o valor p é bastante confiável em torno de 0,05,

E, obviamente, não é assim quando fica muito menor que 0,05.

p1 = 0 p2 = 0 para (m em 1:50) {a <-c (-m + 95,47, -m + 87,90, -m + 99,00) c <-c (38,4, 40,4, 32,8) d <-c (1,8, 1,2, 1,1) p1 [m] = t.teste (a, c, var.eqaul = F) p. value} plot (1:50, p1, col = "preto") pontos (1:50, p2, col = "vermelho")p.valuep2[m]=t.test(a,d,var.eqaul=F)

Você pode ver os valores p ficarem mais corretos quando se aproxima de 0,05 ...

Portanto, não devemos usar valores p muito inferiores a 0,05 ao usar o teste t de Welch.

Se for usado, acho que deveríamos escrever um artigo sobre isso.

De qualquer forma, atualmente estou escrevendo sobre "Estatísticas" e esse tema é intrigante.

Espero usar seus dados para escrever o livro com sua permissão.

Você me deixaria usar seus dados?

E ficarei grato se você puder dizer a fonte dos dados e o contexto a partir do qual

eles vieram!

KH Kim
fonte
Eu fiz algumas pesquisas sobre isso e descobri que a aproximação é assim. Você deseja conhecer a distribuição de um chi_1 ^ 2 (df1) + b chi_2 ^ 2 (df2), mas a distribuição exata é tão complicada que a aproximação entra em ação. E deixe um chi_1 ^ 2 + b chi_2 ^ 2 = c chi_3 ^ 2 (df3) e defina df3 para que as médias e os segundos momentos de duas distribuições sejam os mesmos. então p = 0,5 é exato, mas à medida que se afasta a diferença b2, o exato p e o aproximado p aumentam. Lembro-me de quando o t de Welch foi realizado, R sempre imprimiu "o valor de p não é exato", eu acho
KH Kim
Estou apenas analisando os dados e, como tal, os dados realmente não me pertencem. Porém, depois que os dados forem publicados (em breve), você poderá usá-los como quiser.
ALiX