O que fazer quando os meios de duas amostras são significativamente diferentes, mas a diferença parece pequena demais para importar

13

Eu tenho duas amostras ( n70 em ambos os casos). Os meios diferem cerca de duas vezes o valor padrão. dev. O valor resultante Té de aproximadamente 10. Embora seja ótimo saber que mostrei conclusivamente que os meios não são os mesmos, isso me parece ser impulsionado pelo grande n. Olhando para os histogramas dos dados, certamente não acho que valor de p pequeno seja realmente representativo dos dados e, para ser sincero, não me sinto à vontade para citá-los. Provavelmente estou fazendo a pergunta errada. O que estou pensando é: ok, os meios são diferentes, mas isso realmente importa, pois as distribuições compartilham uma sobreposição significativa?

É aqui que o teste bayesiano é útil? Nesse caso, onde é um bom lugar para começar, um pouco de pesquisa no Google não resultou em nada útil, mas talvez eu não faça a pergunta certa. Se isso é errado, alguém tem alguma sugestão? Ou isso é simplesmente um ponto de discussão em oposição à análise quantitativa?

Bowler
fonte
Eu só quero acrescentar a todas as outras respostas que sua primeira afirmação está errada: você NÃO demonstrou conclusivamente que os meios são diferentes . O valor p de um teste t indica se a probabilidade de observar seus dados ou valores mais extremos é provável / improvável, dada a hipótese nula (que para o teste t é , ou seja, H 0 : {"Os meios são iguais"}), o que não significa que os meios sejam, de fato, diferentes . Além disso, suponho que você também tenha realizado um teste F para testar a igualdade das variações antes de fazer o teste t de variação combinada, certo? μA=μBH0
Néstor
Sua pergunta é muito boa, pois traz uma distinção importante e mostra que você está realmente pensando em seus dados, em vez de procurar algumas estrelas em uma saída estatística e se declarar terminado. Como várias respostas apontam, significância estatística não é a mesma coisa que significativa . E quando você pensa sobre isso, eles não podem ser: como um procedimento estatístico saberia que uma diferença média estatisticamente significante de 0,01 significa algo no Campo A, mas é sem sentido pequena no Campo B?
Wayne
É justo, o idioma não estava no local, mas quando o valor-p é como o que eu estou recebendo, eu tendem a não ser muito exigentes com as palavras. Eu fiz um teste F (e um gráfico QQ). É perto o suficiente para o jazz, como eles dizem.
Bowler
1
FWIW, se seus meios estão separados por 2 SD, isso parece uma grande diferença para mim. Depende do seu campo, é claro, mas é uma diferença que as pessoas notariam facilmente a olho nu (por exemplo, as alturas médias de homens e mulheres dos EUA com idades entre 20 e 29 anos diferem em cerca de 1,5 DP). IMO, se as distribuições não acontecerem não se sobrepõe, você realmente não precisa fazer nenhuma análise de dados; no mínimo, w / tão pequeno quanto 6, p será <0,05 se as distribuições não se sobreporem. Np
gung - Restabelece Monica
Concordo que a diferença é grande, embora totalmente irreverente, como se viu.
Bowler

Respostas:

12

Seja denotar a média da primeira população e µ 2 denotar a média da segunda população. Parece que você usou um teste t de duas amostras para testar se µ 1 = µ 2 . O resultado significativo implica que μ 1μ 2 , mas a diferença parece ser a pequeno para a matéria para a sua aplicação.μ1μ2tμ1=μ2μ1μ2

O que você encontrou foi o fato de que estatisticamente significativo geralmente pode ser algo além de significativo para o aplicativo . Embora a diferença possa ser estatisticamente significativa, ainda pode não ser significativa .

Os testes bayesianos não resolverão esse problema - você ainda concluirá que existe uma diferença.

No entanto, pode haver uma saída. Por exemplo, para uma hipótese unilateral, você pode decidir que se for Δ unidades maiores que µ 2 , isso seria uma diferença significativa que seja grande o suficiente para importar para a sua aplicação.μ1Δμ2

Nesse caso, você testaria se vez de se μ 1 - μ 2 = 0 . A estatística t (assumindo variações iguais) nesse caso seria T = ˉ x 1 - ˉ x 2 - Δμ1μ2Δμ1μ2=0t quespé a estimativa do desvio padrão combinado. Sob a hipótese nula, essa estatística ét-distribuída comn1+n2-2graus de liberdade.

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

Uma maneira fácil de realizar este teste é subtrair de suas observações a partir da primeira população e, em seguida, realizar um regular unilateral de duas amostras t -teste.Δt

MånsT
fonte
8

É válido comparar várias abordagens, mas não com o objetivo de escolher aquela que favorece nossos desejos / crenças.

Minha resposta para sua pergunta é: É possível que duas distribuições se sobreponham enquanto elas têm meios diferentes, o que parece ser o seu caso (mas precisaríamos ver seus dados e contexto para fornecer uma resposta mais precisa).

Vou ilustrar isso usando algumas abordagens para comparar meios normais .

1. teste t

Considere duas amostras simuladas do tamanho de um N ( 10 , 1 ) e N ( 12 , 1 ) ; o valor t é aproximadamente 10, como no seu caso (consulte o código R abaixo).70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

No entanto, as densidades mostram uma considerável sobreposição. Mas lembre-se de que você está testando uma hipótese sobre as médias, que neste caso são claramente diferentes, mas, devido ao valor de , há uma sobreposição das densidades.σ

insira a descrição da imagem aqui

2. Probabilidade de perfil de μ

Para uma definição da probabilidade e probabilidade do perfil, consulte 1 e 2 .

μnx¯Rp(μ)=exp[n(x¯μ)2]

Para os dados simulados, estes podem ser calculados em R da seguinte maneira

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

μ1μ2

μ

(μ,σ)

π(μ,σ)1σ2

O posterior de μ para cada conjunto de dados pode ser calculado da seguinte forma

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Novamente, os intervalos de credibilidade para os meios não se sobrepõem em nenhum nível razoável.

Em conclusão, você pode ver como todas essas abordagens indicam uma diferença significativa de médias (que é o principal interesse), apesar da sobreposição das distribuições.

Uma abordagem de comparação diferente

A julgar pelas suas preocupações sobre a sobreposição das densidades, outra quantidade de interesse pode ser P(X<Y), a probabilidade de a primeira variável aleatória ser menor que a segunda variável. Essa quantidade pode ser estimada não parametricamente, como nesta resposta . Observe que não há premissas distributivas aqui. Para os dados simulados, esse estimador é0.8823825, mostrando alguma sobreposição nesse sentido, enquanto os meios são significativamente diferentes. Por favor, dê uma olhada no código R mostrado abaixo.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Eu espero que isso ajude.

Comunidade
fonte
2
(+1) Obrigado por uma resposta realmente útil sobre métodos da Baía. Além disso, o link P (X <Y) responde a outro problema que estive pensando na mesma análise.
Bowler
7

Respondendo à pergunta certa

ok, os meios são diferentes, mas isso realmente importa porque as distribuições compartilham uma sobreposição significativa?

Qualquer teste que pergunte se os meios de grupo são diferentes, quando funcionar corretamente, informará se os meios são diferentes. Não informará que as distribuições dos dados em si são diferentes, pois essa é uma pergunta diferente. Essa pergunta certamente depende de se os meios são diferentes, mas também de muitas outras coisas que podem ser (incompletamente) resumidas como variação, inclinação e curtose.

Você nota corretamente que a certeza de onde estão os meios depende da quantidade de dados que você precisa para estimar, portanto, ter mais dados permitirá identificar diferenças médias em distribuições mais próximas. Mas você quer saber se

como pequeno valor p é realmente representativo dos dados

Na verdade, não é, pelo menos não diretamente. E isso é por design. É representativo (aproximadamente falando) da certeza de que um determinado par de estatísticas de amostra dos dados (não os dados em si) são diferentes.

Se você deseja representar os dados em si de uma maneira mais formal do que simplesmente mostrar os histogramas e os momentos de teste, talvez um par de gráficos de densidade possa ser útil. Em vez disso, depende realmente do argumento que você está usando o teste.

Uma versão bayesiana

Sob todos esses aspectos, os "testes" e os testes T das diferenças bayesianas se comportarão da mesma maneira, porque eles estão tentando fazer a mesma coisa. As únicas vantagens em que posso pensar em usar uma abordagem bayesiana são: a) que será fácil fazer o teste permitindo possíveis variações diferentes para cada grupo eb) que ele se concentrará na estimativa do tamanho provável da diferença de médias em vez de encontrar um valor-p para algum teste de diferença. Dito isto, essas vantagens são bem menores: por exemplo, em b) você sempre pode relatar um intervalo de confiança para a diferença.

As aspas acima sobre 'testes' são deliberadas. Certamente é possível fazer testes de hipóteses bayesianas, e as pessoas fazem. No entanto, eu sugeriria que a vantagem comparativa da abordagem está no foco na construção de um modelo plausível dos dados e na comunicação de seus aspectos importantes com níveis adequados de incerteza.

conjugateprior
fonte
3

Antes de tudo, isso não é um problema para se colocar em testes freqüentes. O problema está na hipótese nula de que os meios são exatamente iguais. Portanto, se as populações diferem em média por qualquer quantidade pequena e o tamanho da amostra é grande o suficiente, a chance de rejeitar essa hipótese nula é muito alta. Portanto, o valor de p para o seu teste acabou sendo muito pequeno. O culpado é a escolha da hipótese nula. Escolha d> 0 e assuma a hipótese nula de que as médias diferem menos que d no valor absoluto menos que d. Você escolhe d para que a diferença real tenha que ser satisfatoriamente grande para rejeitar. Seu problema desaparece. O teste bayesiano não resolve o seu problema se você insistir em uma hipótese nula de igualdade exata de médias.

Michael R. Chernick
fonte
Eu estava escrevendo minha resposta ao mesmo tempo que os outros dois.
22960 Michael Jackson Chernick