Teste t pareado versus não pareado

20

Suponha que eu tenho 20 ratos. Eu emparelhei os ratos de alguma maneira, para obter 10 pares. Para os fins desta pergunta, pode ser um emparelhamento aleatório, OU pode ser um emparelhamento sensato, como tentar emparelhar ratos da mesma ninhada, do mesmo sexo, com peso semelhante, OU pode ser um emparelhamento deliberadamente estúpido como tentando emparelhar ratos com pesos o mais desigual possível. Em seguida, uso números aleatórios para atribuir um mouse em cada par ao grupo controle e o outro mouse ao grupo a ser tratado. Agora, faço o experimento, tratando apenas os camundongos a serem tratados, mas, de outra forma, não prestando atenção aos arranjos que acabamos de fazer.

Quando se trata de analisar os resultados, pode-se usar teste t não pareado ou teste t pareado. De que maneira, se houver alguma, as respostas serão diferentes? (Basicamente, estou interessado em diferenças sistemáticas de qualquer parâmetro estatístico que precise ser estimado.)

A razão pela qual pergunto isso é que um artigo em que estive recentemente envolvido foi criticado por um biólogo por usar um teste t emparelhado em vez de um teste t não pareado. É claro que, no experimento real, a situação não era tão extrema quanto a que descrevi, e, na minha opinião, havia boas razões para o emparelhamento. Mas o biólogo não concordou.

Parece-me que não é possível melhorar incorretamente a significância estatística (diminuir o valor-p), nas circunstâncias que esboçei, usando um teste t emparelhado, em vez de um teste não emparelhado, mesmo que seja inadequado parear. No entanto, poderia piorar a significância estatística se os camundongos estivessem muito emparelhados. Isto está certo?

David Epstein
fonte

Respostas:

23

Eu concordo com os pontos que Frank e Peter argumentam, mas acho que existe uma fórmula simples que chega ao cerne da questão e pode valer a pena considerar o OP.

Sejam e Y duas variáveis ​​aleatórias cuja correlação é desconhecida.XY

Seja Z=XY

Qual é a variação de ?Z

Aqui está a fórmula simples: E se Cov ( X , Y ) > 0 (ou seja, X e Y estiverem positivamente correlacionados)?

Var(Z)=Var(X)+Var(Y)2Cov(X,Y).
Cov(X,Y)>0 0XY

Então Var(Z)<Var(X)+Var(Y). Nesse caso, se o emparelhamento for feito devido a correlação positiva, como quando você está lidando com o mesmo assunto antes e depois do emparelhamento de intervenção, ajuda porque a diferença emparelhada independente tem uma variação menor do que a variação obtida para o caso não emparelhado. O método reduziu a variância. O teste é mais poderoso. Isso pode ser mostrado dramaticamente com dados cíclicos. Vi um exemplo em um livro em que eles queriam ver se a temperatura em Washington DC é mais alta que em Nova York. Então, eles tomaram a temperatura média mensal nas duas cidades por, digamos, 2 anos. Claro que há uma enorme diferença ao longo do ano por causa das quatro estações do ano. Essa variação é muito grande para que um teste t não emparelhado detecte uma diferença. No entanto, o emparelhamento com base no mesmo mês no mesmo ano elimina esse efeito sazonal e os paresteste t mostrou claramente que a temperatura média em DC tendia a ser mais alta que em Nova York. X i (temperatura em NY no mês A ) e Y itXEuUMAYEu (temperatura no DC no mês ) são positivamente correlacionados, porque as estações do ano são as mesmas em NY e DC e as cidades estão perto o suficiente para que muitas vezes eles vão experimentar os mesmos sistemas meteorológicos que afetar a temperatura. DC pode ser um pouco mais quente porque fica mais ao sul.UMA

Observe que quanto maior a covariância ou correlação, maior é a redução na variância.

Agora, suponha que seja negativo.Cov(X,Y)

Então . Agora, o emparelhamento será pior do que não, porque a variação é realmente aumentada!Var(Z)>Var(X)+Var(Y)

Quando e Y não estão correlacionados, provavelmente não importa qual método você usa. O caso de pareamento aleatório de Peter é assim.XY

Michael R. Chernick
fonte
3
Michael, porque "<" e ">" têm significados especiais nas páginas da Web; para evitar que grandes partes do seu texto simplesmente desapareçam da vista, é essencial que você use Marcação X para eles em equações (os códigos são "\ lt" e "\ gt" respectivamente). Marquei as duas equações que causaram esse problema para você. No futuro, leia o que você postar imediatamente após publicá-lo para garantir que as pessoas estejam vendo o que você pensou que veria e sinta-se à vontade para sinalizar sua postagem para atenção do moderador, se houver algum problema com a marcação. TEX
whuber
@whuber Obrigado. Geralmente, checo durante e após a postagem, porque acho que atrapalho muito as equações, especialmente quando da assinatura. Perder este é incomum e provavelmente aconteceu porque era um post longo e eu simplesmente descuidei de outra coisa que eu queria ou precisava fazer. Às vezes, um telefonema me distrai e eu esqueço de verificar. Em relação aos símbolos especiais que fazem o texto desaparecer em uma postagem, observei isso. Eu acho que uma solução simples é garantir que você deixe um espaço após o símbolo. Eu acho que isso funcionou para mim no passado.
Michael R. Chernick 27/09/12
+1, realmente no ponto. Observe que, se e Y não estiverem perfeitamente correlacionados em sua amostra , Var ( Z ) = Var ( X ) + Var ( Y ) . XYVar(Z)=Var(X)+Var(Y)
gung - Restabelece Monica
@MichaelChernick No caso em que Cov (X, Y) <0, eu tenho uma pergunta: se meu objetivo é inferir E [X] -E [Y] do meu experimento, então, mesmo que eu tenha conduzido um estudo emparelhado, quando Ao analisar meus dados, ainda posso fingir que o resultado do meu experimento é uma realização de um experimento aleatório NÃO APREENDIDO. Posso fazer isso? Porque se você realmente fez um experimento aleatório não pareado, pode literalmente obter o mesmo resultado. Então, posso apenas calcular a média de cada grupo (ignorar o material do emparelhamento) e calcular a diferença da média dos dois grupos. Este é um estimador imparcial de E [Z]. Para variância da minha estimador, eu só uso ...
KevinKim
@MichaelChernick a variância da amostra do grupo X e o grupo Y e resumir-se-os
KevinKim
7

Em vez de emparelhar, provavelmente é melhor entender o modelo de dados subjacente. Se o emparelhamento é feito para lidar com heterogeneidade descontrolada, geralmente é o caso (exceto em estudos com gêmeos) que o emparelhamento controla apenas parcialmente essa fonte de variabilidade e a regressão múltipla seria melhor. Isso ocorre porque a correspondência em variáveis ​​contínuas freqüentemente resulta em variabilidade residual, porque não é possível fazer a correspondência exata em tais variáveis.

Frank Harrell
fonte
2
Se todos nós deveríamos estar fazendo regressão, por que os livros sobre Design Experimental, como o livro de David Cox, enfatizam a importância de emparelhar ou agrupar em experimentos biológicos? O emparelhamento evita a suposição oculta de dependência linear implicada na regressão. Mas talvez haja outras razões: alguém?
David Epstein
6

Os dois testes (emparelhados e não emparelhados) fazem perguntas diferentes para que eles possam obter respostas diferentes. O emparelhamento correto quase sempre é mais poderoso do que o não emparelhado - esse é realmente o ponto do emparelhamento. Portanto, como você diz que o emparelhamento está correto, é provável que o valor p para o seu teste emparelhado seja menor do que para os mesmos dados não emparelhados. Você poderia, é claro, fazer as duas coisas e ver por si mesmo.

Portanto, a resposta para seu dilema é substantiva, não estatística. O seu emparelhamento está certo?

Você poderia obter um resultado mais significativo do emparelhamento aleatório do que de um teste não emparelhado? Vamos ver:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

Sim, você pode, embora aqui a diferença seja muito pequena, o par tenha um p menor. Eu corri esse código várias vezes. Não surpreendentemente, às vezes um p é menor, às vezes o outro, mas a diferença foi pequena em todos os casos. No entanto, tenho certeza de que em algumas situações a diferença nos valores de p pode ser grande.

Peter Flom - Restabelece Monica
fonte
Obrigado pela resposta, mas minha pergunta pediu diferenças sistemáticas . Obviamente, em um longo período de x e y, x e y ocasionalmente parecem estar muito bem emparelhados e, ocasionalmente, como se tivessem sido deliberadamente mal combinados. Certamente, é uma questão estatística se, ao escolher x e y aleatoriamente, a distribuição dos valores-p é a mesma nos dois testes. Suponho que não deve ser muito difícil para alguém que conhece mais estatísticas teóricas do que eu calcular as duas distribuições teóricas de valores-p. Meu palpite é que eles são iguais.
David Epstein
No caso real em que eu estava envolvido, o valor de p para não pareado era de cerca de 0,04 e para 0,001 emparelhado. De acordo com o biólogo crítico, deveríamos citar 0,04. De acordo com mim, a melhora no valor de p indica fortemente que nosso emparelhamento era válido. Afirmo que há uma pergunta objetiva nas estatísticas aqui, com uma resposta objetiva, e que não é apenas uma questão de bom julgamento biológico quanto à validade de um emparelhamento específico - o último parece ser a opinião de Peter Flom e de o biólogo crítico.
David Epstein
1
Eu acho que as estatísticas contam a história. Ambos os resultados devem ser divulgados, mas desde que os dados estejam corretos e a correlação possa ser explicada, o teste emparelhado é mais preciso, pois leva em consideração a correlação.
Michael R. Chernick
5

Agora entendo muito melhor o que me preocupava nos testes t emparelhados versus não emparelhados e nos valores de p associados. Descobrir foi uma jornada interessante e houve muitas surpresas ao longo do caminho. Uma surpresa resultou de uma investigação da contribuição de Michael. Isso é irrepreensível em termos de conselhos práticos. Além disso, ele diz o que eu acho que praticamente todos os estatísticos acreditam, e ele tem vários votos positivos para apoiar isso. No entanto, como uma peça de teoria, não está literalmente correta. Descobri isso elaborando as fórmulas para os valores-p e pensando cuidadosamente em como usar as fórmulas para levar a contra-exemplos. Sou matemático em treinamento, e o contra-exemplo é um "contra-exemplo de matemático". Não é algo que você encontraria nas estatísticas práticas, mas o tipo de coisa que eu estava tentando descobrir quando fiz minha pergunta original.

Aqui está o código R que fornece o contra-exemplo:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

Observe os seguintes recursos: X e Y são duas tuplas de 10, cuja diferença é enorme e quase constante. Para muitos números significativos, a correlação é 1.000 ... O valor p para o teste não emparelhado é cerca de 10 ^ 40 vezes menor que o valor p para o teste emparelhado. Portanto, isso contradiz o relato de Michael, desde que alguém o leia literalmente, no estilo matemático. Aqui termina a parte da minha resposta relacionada à resposta de Michael.


Aqui estão os pensamentos solicitados pela resposta de Pedro. Durante a discussão da minha pergunta original, conjeturei em um comentário que duas distribuições particulares de valores-p que soam diferentes são de fato as mesmas. Agora eu posso provar isso. O mais importante é que a prova revele a natureza fundamental de um valor-p, tão fundamental que nenhum texto (que eu me deparei) se incomoda em explicar. Talvez todos os estatísticos profissionais conheçam o segredo, mas para mim, a definição de valor-p sempre pareceu estranha e artificial. Antes de revelar o segredo do estatístico, deixe-me especificar a pergunta.

n>1n2(n1)n1graus de liberdade. Essas duas distribuições são diferentes, então como as distribuições associadas dos valores-p podem ser as mesmas? Somente depois de muito mais reflexão percebi que essa óbvia rejeição de minhas conjecturas era muito fácil.

f:(0,)(0,)[0,1]

p=tf(s)ds
f(,)[0,) . Eu omito toda essa confusão.)

[0,1]

n1[0,1]2(n1)[0,1][0,1]

David Epstein
fonte
Não acho que o valor-p tenha segredos misteriosos. Algumas pessoas têm dificuldades com isso. É a probabilidade de observar um valor como extremo ou mais extremo do que o que foi realmente observado quando a hipótese nula é VERDADEIRA. Eu acho que você tinha esse direito em uma de suas fórmulas. Eu acho que você afirmou que os valores-p são distribuídos uniformemente. Sim, eu concordo com isso quando a hipótese nula é verdadeira. Lembre-se de que, com seu teste t, a hipótese nula pode não ser verdadeira. Então o valor p não é uniforme. Deve ser concentrada mais perto de 0.
Michael R. Chernick
Em segundo lugar, estamos falando de duas estatísticas de teste diferentes. Um é baseado no emparelhamento e outro não no seu exemplo. Independentemente de eu ter mencionado na minha resposta ou não, o teste t não emparelhado tem uma distribuição t central com 2n-2 graus de liberdade, enquanto a distribuição t correspondente ao teste t emparelhado tem n-1 graus de liberdade. Portanto, aquele com o maior número de graus de liberdade está mais próximo da distribuição normal padrão do que o outro. Isso importa quando você aplica esses testes a dados reais? Não! Não quando n é razoavelmente grande.
Michael R. Chernick
Como observação lateral, uma limitação do teste emparelhado está exigindo o mesmo tamanho de amostra que você deve ter se todos os dados puderem ser emparelhados. Mas o teste não emparelhado é válido com tamanhos de amostra desiguais. Portanto, em geral, o teste não emparelhado tem n + m-2 graus de liberdade.
Michael R. Chernick
Sua resposta é longa e abstrata e tentei percorrê-la, mas não entendi o contraexemplo. Só não vejo onde você leva em consideração a hipótese nula e os dados reais. O valor p observado é parte integrante da distribuição t apropriada para a estatística de teste, dados os dados. Você compara esses números para as duas distribuições te o mesmo conjunto de dados comum. Se você condicionar os dados observados, essas distribuições uniformes não terão nenhum papel. Sinto muito, mas não vejo que sua resposta realmente responda a sua pergunta.
Michael R. Chernick
Michael: concentre-se apenas no código R que dei. Leva apenas um segundo para ser executado. A hipótese nula é que X e Y vêm da mesma distribuição normal, o que é, obviamente, muito falso no meu caso. No meu exemplo Cov (X, Y)> 0 e, no entanto, o teste não emparelhado dá mais significado do que o teste emparelhado.
David Epstein #
1

Eu ofereceria outra perspectiva. Frequentemente, o emparelhamento é feito para reduzir o viés. Suponha que você esteja interessado em saber se a exposição E é um fator de risco para um resultado contínuo Y. Para cada sujeito E +, você obtém um sujeito pareado por idade e sexo que é E-. Agora, poderíamos fazer um teste t emparelhado ou um teste t não pareado. Acho que devemos explicar a correspondência explicitamente e realizar um teste t emparelhado. É mais baseado em princípios, pois leva o design em consideração. Se a correspondência deve ser levada em consideração na análise é uma questão do tradeoff de variação de polarização. A contabilização da correspondência na análise fornece mais proteção contra viés, mas pode aumentar a variação. Fazer um teste t não emparelhado pode ser mais eficiente, mas não forneceria nenhuma proteção contra o viés.

Ravi Varadhan
fonte