Se o valor-p for exatamente 1 (1.0000000), quais devem ser os limites do intervalo de confiança para apoiar a hipótese nula como verdadeira? [fechadas]

12

Esta é uma questão puramente hipotética. Uma afirmação muito comum é que H0 nunca é verdadeiro, é apenas uma questão de tamanho da amostra.

Vamos supor que, de fato, não exista absolutamente nenhuma diferença mensurável entre duas médias ( μ1=μ2 ) extraídas da população normalmente distribuída (para μ=0 e σ estimadas =1 ). Assumimos N=16 por grupo e usamos o teste t . Isso significaria que o valor p é 1.00000 indicando que não há absolutamente nenhuma discrepância em relação a H0 . Isso indicaria que a estatística do teste é 0 . A diferença média entre os grupos seria 0. Quais seriam os limites do intervalo de confiança de 95% para a diferença média neste caso? Eles seriam [0.0,0.0] ?

O ponto principal da minha pergunta foi que, quando podemos realmente dizer que H0 é verdadeiro, ou seja, μ1=μ2 nesse caso? Ou quando, na estrutura freqüentista, podemos realmente dizer "sem diferença" quando comparamos dois meios?

arkiaamu
fonte
1
Eu diria que isso já foi respondido aqui stats.stackexchange.com/questions/275677/… , mas não estou insistindo nisso.
Tim
1
Estou tendo problemas para encontrar uma maneira de obter com variações positivas da população. p=1
Dave
3
"Assumimos N = 16 por grupo e usamos o teste t. Isso significa que o valor de p é 1,00000, indicando que não há absolutamente nenhuma discrepância em relação a H0". Por que você argumenta que algo (ao que 'isso' se refere?) Significa que o valor de p é 1. Geralmente, o valor de p é uniforme distribuído quando H_0 é verdadeiro ep = 1 acontece quase nunca.
Sextus Empiricus
2
@MartijnWeterings Está absolutamente correto - só porque você está amostrando duas distribuições que são de fato idênticas não significa que você obterá um valor p de 1 ao compará-las. Por definição, em 5% das vezes você obtém um valor p abaixo de 0,05.
Nuclear Wang

Respostas:

16

Um intervalo de confiança para um t-teste é da forma x¯1x¯2±tcrit,αsx¯1x¯2 , onde x¯1 e x¯2 são as médias das amostras, tcrit,α é o valor t crítico no α fornecido e sx¯1x¯2 é o erro padrão da diferença de médias. E sep=1.0 , entãox¯1x¯2=0 . Portanto, a fórmula é apenas±tcrit,αsx¯1x¯2 , e os limites são apenas {tcrit,αsx¯1x¯2 ,tcrit,αsx¯1x¯2 }.

Não sei por que você acha que os limites seriam {0,0}.O valor crítico t não é zero e o erro padrão da diferença média não é zero.

Noé
fonte
10

Sendo preguiçoso, use R para resolver o problema numericamente, em vez de fazer os cálculos manualmente:

Defina uma função que fornecerá valores normalmente distribuídos com uma média de (quase!) Exatamente zero e um SD de exatamente 1:

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Execute um teste t:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

Os meios não são exatamente zero devido à imprecisão de ponto flutuante.

Mais diretamente, os ICs são ± sqrt(1/8)*qt(0.975,df=30) ; a variação de cada média é 1/16, portanto, a variação combinada é 1/8.

Ben Bolker
fonte
8

O IC pode ter limites, mas está centrado exatamente em torno de zero

Para um teste T de duas amostras (teste de uma diferença nas médias de duas populações), um valor p de exatamente um corresponde ao caso em que as médias da amostra observadas são exatamente iguais. (As variações da amostra podem assumir qualquer valor.) Para ver isso, observe que a função de valor p para o teste é:

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

Assim, a configuração x¯=y¯ produz:

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

Agora, suponha que você forme o intervalo de confiança padrão (aproximado) usando a aproximação Welch-Satterwaite. Nesse caso, assumindo que x¯=y¯ (para fornecer um valor p exato de um) fornece o intervalo de confiança:

CI(1α)=[0±sXnX+tDF,α/2sYnY],

onde o grau de liberdade DF é determinado pela aproximação de Welch-Satterwaite. Dependendo das variações observadas da amostra no problema, o intervalo de confiança pode ser qualquer intervalo finito centrado em torno de zero. Ou seja, o intervalo de confiança pode ter limites, desde que seja centrado exatamente em torno de zero.


Obviamente, se os dados subjacentes realmente vierem de uma distribuição contínua, esse evento ocorrerá com probabilidade zero, mas vamos supor que isso aconteça.

Restabelecer Monica
fonte
A pergunta diz "σ estimado = 1".
Acumulação 03/09/19
Essa condição não é necessária para obter um valor-p de um, então eu a deixei cair.
Reponha Monica
3

É difícil ter uma discussão filosófica convincente sobre coisas que têm 0 probabilidade de acontecer. Então, mostrarei alguns exemplos relacionados à sua pergunta.

Se você tiver duas amostras independentes enormes da mesma distribuição, as duas amostras ainda terão alguma variabilidade, a estatística t de duas amostras combinadas estará próxima, mas não exatamente igual a 0, o valor P será distribuído como Unif(0,1), eo intervalo de confiança de 95% será muito curto e centrado muito perto 0.

Um exemplo de um desses conjuntos de dados e teste t:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

Aqui estão os resultados resumidos de 10.000 dessas situações. Primeiro, a distribuição dos valores-P.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

enter image description here

Em seguida, a estatística de teste:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

enter image description here

E assim por diante, para a largura do IC.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

É quase impossível obter um valor P da unidade fazendo um teste exato com dados contínuos, onde as suposições são atendidas. Tanto que um estatístico sábio ponderará sobre o que pode ter dado errado ao ver um valor-P igual a 1.

Por exemplo, você pode fornecer ao software duas amostras grandes idênticas . A programação continuará como se fossem duas amostras independentes e dará resultados estranhos. Mas, mesmo assim, o IC não terá largura 0.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 
BruceET
fonte
Tudo isso é justo o suficiente, no entanto, como a distribuição normal é contínua, a probabilidade de qualquer exemplo específico é zero, não importa se u1 = u2 ou u1-u2 = -0,977 ou o que seja. Fiquei tentado a comentar da mesma forma que "isso nunca vai acontecer e as chances de algo estar errado nesse caso" também, mas então pensei: não, faz algum sentido dizer, suponha que isso aconteceu, aceitando que isso aconteceu. probabilidade zero como qualquer exemplo específico .
Lewian 03/09/19
1
Esta é a resposta certa para a pergunta errada
David
1
@ David. Possivelmente sim. Se você pode declarar qual é a pergunta certa e sugerir uma resposta, isso pode ser útil por toda parte. Eu tentei apenas abordar alguns dos que eu pensava serem vários equívocos.
BruceET 3/09/19
O OP declarou "Uma afirmação muito comum é que H0 nunca é verdadeiro". A resposta do @ BruceET demonstra POR QUE H0 nunca pode ser aceito. Quanto mais próximo o H0 for verdadeiro, mais aleatoriamente o P se torna, o que significa que um P entre (0,98,0,99) é tão provável quanto um P entre (0,1, 0,2) quando H0 é verdadeiro.
Ron Jensen - Somos todos Monica
1

A resposta direta (+1 a Noah) explicará que o intervalo de confiança para a diferença média ainda pode ter um comprimento diferente de zero, porque depende da variação observada na amostra de uma maneira diferente do valor p.

No entanto, você ainda pode se perguntar por que é assim. Como não é tão estranho imaginar que um alto valor de p também signifique um pequeno intervalo de confiança. Afinal, ambos correspondem a algo que está próximo de uma confirmação da hipótese nula. Então, por que esse pensamento não está correto?

Um alto valor p não é o mesmo que um pequeno intervalo de confiança.

  • O valor p é um indicador de quão extrema é uma observação em particular (extrema, dada alguma hipótese) ao expressar a probabilidade de se observar um determinado desvio. É uma expressão do tamanho do efeito observado em relação à precisão do experimento (um grande tamanho do efeito observado pode não significar muito quando o experimento é tão "impreciso" que essas observações não são extremas do ponto de vista estatístico / probabilístico ) Quando se observa uma p-valor de 1, então esta (apenas) de meios que lhe observado efeito zero porque a probabilidade de observar tais resultado zero ou maior é igual a 1 (mas esta não é a mesma que existe é nulo efeito).

    Sidenote: Por que valores-p? O valor p expressa o tamanho real do efeito observado em relação aos tamanhos esperados do efeito (probabilidades). Isso é relevante porque os experimentos podem, por design, gerar observações de algum tamanho de efeito relevante por puro acaso devido a flutuações comuns em dados / reservas. Exigir que uma observação / experimento tenha um baixo valor de p significa que o experimento possui uma alta precisão - ou seja: o tamanho do efeito observado é menos frequente / provável devido a chances / flutuações (e provavelmente devido a um efeito real) .

    XN(0,1)P(X=0)=0

  • αα

    Você deve observar que um valor-p alto não é (necessariamente) uma prova / suporte / o que for para a hipótese nula. O alto valor p significa apenas que a observação não é notável / extrema para uma dada hipótese nula, mas isso também pode ser o caso da hipótese alternativa (ou seja, o resultado está de acordo com as duas hipóteses efeito sim / não). Isso geralmente ocorre quando os dados não carregam muita informação (por exemplo, alto ruído ou amostra pequena).

p0.5pU(0,1)

Sextus Empiricus
fonte
1

O ponto principal da minha pergunta era que quando podemos realmente dizer isso H0 0 é verdade, ie μ1=μ2 nesse caso?

Não, porque "ausência de evidência não é evidência de ausência". A probabilidade pode ser pensada como uma extensão da lógica , com incertezas adicionais; portanto, imagine por um momento que, em vez de números reais em intervalo de unidade, o teste de hipótese retornaria apenas os valores binários: 0 (falso) ou 1 (verdadeiro). Nesse caso, as regras básicas da lógica se aplicam, como no exemplo a seguir :

  • Se choveu lá fora, é provável que o chão esteja molhado.
  • O chão está molhado.
  • Por isso, choveu lá fora.

O chão poderia muito bem estar molhado porque choveu. Ou pode ser devido a um aspersor, alguém limpando suas calhas, uma tubulação de água quebrada, etc. Exemplos mais extremos podem ser encontrados no link acima.

Quanto ao intervalo de confiança, se sua amostra é grande e μ1-μ20 0, o intervalo de confiança para a diferença se tornaria extremamente estreito, mas diferente de zero. Como observado por outras pessoas, você pode observar coisas como zeros e exatas, mas devido às limitações de precisão do ponto flutuante.

Mesmo se você observou p=1 e a ±0 0intervalo de confiança, você ainda precisa ter em mente que o teste fornece apenas a resposta aproximada. Ao fazer testes de hipóteses, não apenas assumimos queH0 0é verdade, mas também faz uma série de outras suposições, como se as amostras fossem independentes e fossem de distribuição normal, o que nunca é o caso para dados do mundo real. O teste fornece uma resposta aproximada à pergunta incorreta, de modo que ela não pode "provar" a hipótese, pode apenas dizer "sob essas suposições irracionais, isso seria improvável" .

Tim
fonte
0

Nada impede você de usar as fórmulas t ou Gauss padrão para calcular o intervalo de confiança - todas as informações necessárias são fornecidas na sua pergunta. p = 1 não significa que há algo errado com isso. Observe que p = 1 não significa que você possa ter certeza de que o H0 é verdadeiro. Variação aleatória ainda está presente e se u0 = u1 pode ocorrer sob o H0, também pode acontecer se o valor verdadeiro de u0 for ligeiramente diferente do verdadeiro u1, portanto, haverá mais no intervalo de confiança do que apenas igualdade.

Lewian
fonte
Fiz algumas edições, espero que estejam mais definidas agora.
Arkiaamu 02/09/19
OK, removi as referências ao que estava mal definido na versão anterior. Entretanto, a pergunta foi respondida adequadamente por outras pessoas.
Lewian 03/09/19
Por favor, use a notação MathJax
David
0

Uma afirmação muito comum é que H0 nunca é verdade, é apenas uma questão de tamanho da amostra.

Não entre as pessoas que sabem do que estão falando e estão falando com precisão. O teste tradicional de hipóteses nunca conclui que o nulo é verdadeiro, mas se o nulo é verdadeiro ou não, é separado se o nulo é concluído como verdadeiro.

Isso significaria que o valor-p é 1,00000

Para um teste bicaudal, sim.

indicando que não há absolutamente nenhuma discrepância em relação a H0.

H0 0é uma declaração sobre a distribuição. O modo da distribuição fornecido emH0 0 é 0 0, portanto, não há discrepância entre a observação e o modo da distribuição, mas não é correto dizer que não há discrepância entre H0 0. Nenhum resultado individual seria uma discrepância, porque qualquer valor poderia vir da distribuição. Cada valor p é igualmente provável. Obter um valor p de exatamente 0,01 é tão provável quanto obter um valor p de exatamente 1 (além dos problemas de discretização). Se você tivesse um monte de amostras independentes e a distribuição delas não correspondesse ao queH0 0 prevê, isso seria muito mais legitimamente chamado de "discrepância" do que apenas ver uma única amostra cuja média não corresponde ao modo.

Quais seriam os limites do intervalo de confiança de 95% para a diferença média neste caso?

Para a primeira aproximação, os limites de um intervalo de confiança de 95% são aproximadamente o dobro do desvio padrão aplicável. Não há descontinuidade em zero. Se você encontrar uma funçãof(ϵ) que encontra o intervalo de confiança de 95% para uma diferença nas médias de ϵ, você pode simplesmente tirar limϵ0 0f(ϵ) para encontrar o intervalo de confiança para uma diferença média de zero.

O ponto principal da minha pergunta foi que, quando podemos realmente dizer que H0 é verdadeiro, ou seja, μ1 = μ2 neste caso?

Podemos dizer o que quisermos. No entanto, dizer que um teste mostra que o nulo é verdadeiro não é consistente com o teste de hipóteses tradicional, independentemente dos resultados. E fazê-lo não é bem fundamentado do ponto de vista probatório. A hipótese alternativa, de que os meios não são os mesmos, abrange toda a diferença possível de meios. A hipótese alternativa é "A diferença de médias é1ou 2ou 3ou .5ou .1, ... "Podemos postular uma diferença arbitrariamente pequena em médias, e isso será consistente com a hipótese alternativa. E com uma diferença arbitrariamente pequena, a probabilidade dada por essa média é arbitrariamente próxima da probabilidade dada por nulo. hipótese alternativa abrange não apenas a possibilidade de que os parâmetros das distribuições, como a média, sejam diferentes, mas que haja uma distribuição totalmente diferente. Por exemplo, a hipótese alternativa abrange "As duas amostras sempre terão uma diferença no significado de que isso é exatamente 1 ou exatamente 0, com probabilidade 0,5 para cada ". Os resultados são mais consistentes com isso do que com o nulo.

Acumulação
fonte