Como interpretar o intervalo de confiança da diferença de médias em um teste T de amostra?

21

O SPSS fornece a saída "intervalo de confiança da diferença". Li em alguns lugares que significa "95 vezes em 100, nossa diferença média amostral estará entre esses limites". Acho isso pouco claro. Alguém pode sugerir uma redação mais clara para explicar "intervalo de confiança da diferença de médias"? Essa saída aparece no contexto de um teste t de uma amostra.

Anne
fonte
1
Qual é a sua interpretação?
Mvctas # 7/11
1
Observe que não há nada de especial nessa proporção: um IC para a estimativa de qualquer coisa será interpretado de maneira semelhante. (No entanto, procedimentos diferentes podem ser usados ​​para construir o IC, dependendo do que está sendo estimado.) Consequentemente, essa pergunta é exatamente a mesma das perguntas anteriores que solicitam interpretações de ICs.
whuber

Respostas:

13

Isso não é algo fácil, mesmo para estatísticos respeitados. Veja uma recente tentativa de Nate Silver :

... se eu pedisse para você me dizer com que frequência seu trajeto demora 10 minutos a mais do que a média - algo que requer alguma versão de um intervalo de confiança - você teria que pensar um pouco sobre isso ...

(do blog FiveThirtyEight no New York Times, 29/9/10). Esse não é um intervalo de confiança. Dependendo de como você o interpreta, é um intervalo de tolerância ou um intervalo de previsão. (Caso contrário, não há nada com a excelente discussão de Silver sobre estimativa de probabilidades; é uma boa leitura.) Muitos outros sites (principalmente aqueles com foco em investimentos) confundem de maneira semelhante os intervalos de confiança com outros tipos de intervalos.

O New York Times fez um esforço para esclarecer o significado dos resultados estatísticos que produz e relata. A boa impressão abaixo de muitas pesquisas inclui algo como isto:

Em teoria, em 19 dos 20 casos, os resultados com base nessas amostras de todos os adultos diferem em não mais de três pontos percentuais em qualquer direção do que teria sido obtido ao se tentar entrevistar todos os adultos americanos.

( por exemplo , Como a pesquisa foi conduzida , 2/5/2011.)

Um pouco prolixo, talvez, mas claro e preciso: essa afirmação caracteriza a variabilidade da distribuição amostral dos resultados da pesquisa. Isso está chegando perto da ideia do intervalo de confiança, mas não está lá. Pode-se considerar o uso de tais palavras no lugar de intervalos de confiança em muitos casos, no entanto.

Quando há tanta confusão potencial na Internet, é útil recorrer a fontes autorizadas. Um dos meus favoritos é o texto consagrado pelo tempo de Freedman, Pisani, & Purves, Statistics. Agora em sua quarta edição, é usado nas universidades há mais de 30 anos e é notável por suas explicações claras e claras e foco nos métodos "freqüentadores" clássicos. Vamos ver o que diz sobre a interpretação dos intervalos de confiança:

O nível de confiança de 95% diz algo sobre o procedimento de amostragem ...

[na p. 384; todas as citações são da terceira edição (1998)]. Continua,

Se a amostra tivesse sido diferente, o intervalo de confiança teria sido diferente. ... Para cerca de 95% de todas as amostras, o intervalo ... cobre a porcentagem da população e, para os outros 5%, não.

[p. 384] O texto diz muito mais sobre os intervalos de confiança, mas isso é suficiente para ajudar: sua abordagem é mover o foco da discussão para a amostra, trazendo ao mesmo tempo rigor e clareza às declarações. Portanto, podemos tentar a mesma coisa em nossos próprios relatórios. Por exemplo, vamos aplicar essa abordagem para descrever um intervalo de confiança de [34%, 40%] em torno de uma diferença percentual relatada em um experimento hipotético:

"Este experimento usou uma amostra aleatoriamente selecionada de sujeitos e uma seleção aleatória de controles. Relatamos um intervalo de confiança de 34% a 40% para a diferença. Isso quantifica a confiabilidade do experimento: se as seleções de sujeitos e controles foram diferentes , esse intervalo de confiança mudaria para refletir os resultados para os sujeitos e controles escolhidos. Em 95% desses casos, o intervalo de confiança incluiria a verdadeira diferença (entre todos os sujeitos e todos os controles) e nos outros 5% dos casos não seria. Portanto, é provável - mas não certo - que esse intervalo de confiança inclua a verdadeira diferença: isto é, acreditamos que a verdadeira diferença esteja entre 34% e 40%. "

(Este é o meu texto, que certamente pode ser aprimorado: convido editores a trabalharem nele.)

Uma declaração longa como essa é um tanto difícil de manejar. Nos relatórios reais, a maior parte do contexto - amostragem aleatória, assuntos e controles, possibilidade de variabilidade - já foi estabelecida, tornando desnecessária metade da declaração anterior. Quando o relatório estabelece que existe variabilidade da amostra e exibe um modelo de probabilidade para os resultados da amostra, geralmente não é difícil explicar um intervalo de confiança (ou outro intervalo aleatório) de maneira clara e rigorosa, conforme o público precisa.

whuber
fonte
Obrigado Whuber, eu entendo muito bem os intervalos de confiança. É o IC da diferença de médias (entre uma amostra e um pop) em que fico confuso.
Anne
@ Anne A que você está se referindo? Nem sua pergunta nem nenhuma das respostas se referem a uma diferença entre uma média amostral e uma média populacional, até onde eu sei. Sua pergunta parece se referir à diferença entre duas médias de amostra (talvez entre a média de um grupo de sujeitos experimentais e um grupo de controles).
whuber
O exemplo em que estou pensando é onde você está observando a diferença entre uma amostra e a média da população. Nesse caso, o que exatamente significa o IC entre amostra e pop significa. Usamos a média amostral para estimar o desvio padrão pop e, portanto, estimamos o IC em torno da estimativa média. A diferença de médias não é a diferença entre a média pop que fornecemos e a média da amostra. Então o que é?
Anne
1
@Anne A "média da população" é a média hipotética e desconhecida da população que está sendo amostrada ou é a medida média de outra população que foi exaustivamente amostrada? Além disso, em que sentido você usou a "média da amostra" para estimar o desvio padrão da população ? Talvez isso seja um erro de digitação?
whuber
2
@whuber obrigado. Sua linha "Os ICs calculados para 95% de todas as amostras (ou seja, 95% de todas as replicações possíveis) cobrirão essa diferença real". é mais claro para mim do que "95 vezes em 100, nossa diferença média amostral estará entre esses limites" e sua explicação faz sentido lógico.
Anne
5

Do ponto de vista técnico pedante, eu pessoalmente não acho que exista uma "redação clara" da interpretação dos intervalos de confiança.

Eu interpretaria um intervalo de confiança como: existe uma probabilidade de 95% de que o intervalo de confiança de 95% cubra a verdadeira diferença média

Uma interpretação disso é que NN

N1

Mas note que tudo isso está na filosofia. É melhor deixar intervalos de confiança vagos na explicação que penso. Eles dão bons resultados quando usados ​​adequadamente.

probabilityislogic
fonte
Iniciando uma nova frase após "N intervalos de confiança diferentes". não flui bem com "você pode interpretar isso mais como dizendo ...". Sugiro modificar o terceiro parágrafo.
Theta30
2
Seu terceiro parágrafo é muito melhor que o segundo. Dependendo dos dados observados, o intervalo de confiança contém o valor verdadeiro do parâmetro ou não.
cardeal
@probabilityislogic: Como essa resposta foi aceita, considere editar seu segundo parágrafo. Além disso, você pode esclarecer o que você quer dizer no seu penúltimo parágrafo? Como se lê, não tenho muita certeza de qual argumento você está fazendo.
cardeal
se interpretamos os intervalos de confiança em termos de "repetição" do experimento, devemos ignorar os experimentos anteriores nessas repetições. O que quero dizer é: por que a ignorância de experimentos anteriores nessas "repetições" de intervalos de confiança é boa para os conjuntos de dados que não observamos, mas devemos agrupar os dados pelos dados que observamos? Não faria tanto sentido (pelo que entendi sobre a interpretação do IC) produzir o máximo de ICs possível com os dados que você possui?
probabilityislogic
1
Existe toda uma teoria, em grande parte paralela à teoria ideal de decisão, sobre conjuntos de confiança uniformemente mais precisos. Talvez essa seja a peça do quebra-cabeça que falta para você. (?)
cardinal
3

A resposta aproximada para a pergunta é que um intervalo de confiança de 95% permite que você tenha 95% de confiança de que o verdadeiro valor do parâmetro está dentro do intervalo. No entanto, essa resposta aproximada é incompleta e imprecisa.

A incompletude está no fato de que não está claro que "95% confiante" significa algo concreto, ou, se o fizer, então esse significado concreto não seria universalmente aceito, mesmo por uma pequena amostra de estatísticos. O significado da confiança depende de qual método foi usado para obter o intervalo e de qual modelo de inferência está sendo usado (o que, espero, ficará mais claro abaixo).

A imprecisão reside no fato de que muitos intervalos de confiança não são projetados para informar qualquer coisa sobre a localização do valor verdadeiro do parâmetro para o caso experimental específico que produziu o intervalo de confiança! Isso será surpreendente para muitos, mas decorre diretamente da filosofia de Neyman-Pearson, que é claramente declarada nesta citação de seu artigo de 1933 "Sobre o problema dos testes mais eficientes das hipóteses estatísticas":

Estamos inclinados a pensar que, no que diz respeito a uma hipótese específica, nenhum teste baseado na teoria da probabilidade pode, por si só, fornecer qualquer evidência valiosa da verdade ou falsidade dessa hipótese.

Mas podemos considerar o objetivo dos testes de outro ponto de vista. Sem esperar saber se cada hipótese separada é verdadeira ou falsa, podemos procurar regras para governar nosso comportamento com relação a elas, seguindo as quais garantimos que, a longo prazo da experiência, não estaremos errados com muita frequência.

Intervalos baseados na 'inversão' dos testes de hipóteses NP herdarão, portanto, desse teste a natureza de ter conhecido propriedades de erro de longo prazo sem permitir inferência sobre as propriedades do experimento que as produziu! Meu entendimento é que isso protege contra inferência indutiva, que Neyman aparentemente considerou uma abominação.

Neyman reivindica explicitamente o termo 'intervalo de confiança' e a origem da teoria dos intervalos de confiança em seu artigo de 1941 da Biometrika “Argumento fiducial e a teoria dos intervalos de confiança”. De certo modo, qualquer coisa que seja adequadamente um intervalo de confiança é reproduzida por suas regras e, portanto, o significado de um intervalo individual só pode ser expresso em termos da taxa de longo prazo em que os intervalos calculados por esse método contêm (encobrem) o verdadeiro valor relevante. valor do parâmetro.

Agora precisamos forçar a discussão. Uma vertente segue a noção de 'cobertura' e a outra segue intervalos não neymanianos que são como intervalos de confiança. Adiarei o primeiro para que eu possa concluir este post antes que ele se torne muito longo.

Existem muitas abordagens diferentes que produzem intervalos que poderiam ser chamados de intervalos de confiança não Neymanianos. O primeiro deles são os intervalos fiduciais de Fisher. (A palavra 'fiducial' pode assustar muitos e provocar sorrisos irônicos de outros, mas deixarei isso de lado ...) Para alguns tipos de dados (por exemplo, normal, com variação desconhecida da população), os intervalos calculados pelo método de Fisher são numericamente idênticos aos intervalos que seriam calculados pelo método de Neyman. No entanto, eles convidam interpretações diametralmente opostas. Os intervalos neymanianos refletem apenas as propriedades de cobertura de longo prazo do método, enquanto os intervalos de Fisher visam apoiar a inferência indutiva a respeito dos verdadeiros valores dos parâmetros para o experimento específico que foi realizado.

O fato de que um conjunto de limites de intervalo pode vir de métodos baseados em dois paradigmas filosoficamente distintos leva a uma situação realmente confusa - os resultados podem ser interpretados de duas maneiras contraditórias. A partir do argumento fiducial, há uma probabilidade de 95% de que um intervalo fiducial específico de 95% contenha o valor verdadeiro do parâmetro. Pelo método de Neyman, sabemos apenas que 95% dos intervalos calculados dessa maneira conterão o valor verdadeiro do parâmetro e devemos dizer coisas confusas sobre a probabilidade do intervalo que contém o valor verdadeiro do parâmetro ser desconhecido, mas 1 ou 0.

Em grande medida, a abordagem de Neyman dominou a de Fisher. Isso é muito infeliz, na minha opinião, porque não leva a uma interpretação natural dos intervalos. (Releia a citação acima de Neyman e Pearson e verifique se ela corresponde à sua interpretação natural dos resultados experimentais. Provavelmente não.)

Se um intervalo pode ser corretamente interpretado em termos de taxas de erro globais, mas também corretamente em termos inferenciais locais, não vejo uma boa razão para barrar os usuários de intervalo da interpretação mais natural oferecida por este último. Assim, minha sugestão é que a interpretação adequada de um intervalo de confiança seja AMBAS as seguintes:

  • Neymanian: Esse intervalo de 95% foi construído por um método que gera intervalos que cobrem o valor verdadeiro do parâmetro em 95% das ocasiões a longo prazo (... da nossa experiência estatística).

  • Pescador: Este intervalo de 95% tem uma probabilidade de 95% de cobrir o valor real do parâmetro.

(Os métodos bayesiano e de probabilidade também produzirão intervalos com propriedades freqüentistas desejáveis. Tais intervalos convidam interpretações ligeiramente diferentes que provavelmente se sentirão mais naturais do que as Neymanianas.)

Michael Lew
fonte
@Micheal - o lugar em que eles diferem é que um intervalo fudicial deve se basear em uma estatística suficiente e condicionar todas as quantidades auxiliares. O intervalo de confiança de Neymans não requer essa propriedade e, portanto, está sujeito ao "intervalo de confiança de 95%", com cobertura variável para subclasses de amostras específicas.
probabilityislogic
@probability - Você pode expandir isso? Você quer dizer que existem circunstâncias em que um intervalo de confiança neymaniano de 95% é um intervalo de confiança, mas não é um intervalo de 95%? Quais seriam essas circunstâncias? O intervalo dos pescadores teria os mesmos limites nessas circunstâncias?
Michael Lew
É possível mostrar casos em que é possível dizer pela amostra que um intervalo de confiança de "95%" não contém o valor verdadeiro. o exemplo 5 e o exemplo 6 no artigo de Jaynes apresentam dois casos em que o não uso de estatísticas suficientes nos ICs fornecerá cobertura a longo prazo, mas a cobertura variará em determinadas classes de amostras. É análogo a ter duas variáveis com a mesma média (cobertura longo prazo), mas variância diferente (cobertura no caso específico)
probabilityislogic
2

O significado de um intervalo de confiança é: se você repetisse seu experimento exatamente da mesma maneira (ou seja: o mesmo número de observações, com base na mesma população etc.), e se suas suposições estiverem corretas, você calcularia esse intervalo novamente em cada repetição, esse intervalo de confiança conteria a prevalência verdadeira em 95% das repetições (em média).

Portanto, você pode dizer que tem 95% de certeza (se suas suposições estão corretas etc.) que agora construiu um intervalo que contém a verdadeira prevalência.

Isso geralmente é afirmado como: com 95% de confiança, entre 4,5 e 8,3% dos filhos de mães que fumaram durante a gravidez se tornam obesos.

Observe que isso normalmente não é interessante por si só: você provavelmente deseja comparar isso com a prevalência em filhos de mães que não fumaram (razão de chances, risco relativo etc.)

Nick Sabbe
fonte
(Esta resposta, que chegou aqui depois de uma fusão de duas linhas, está respondendo a uma pergunta duplicado enquadrada em termos de um CI de uma proporção.)
whuber
0

Se a verdadeira diferença média estiver fora desse intervalo, haverá apenas 5% de chance de que a diferença média de nosso experimento esteja tão distante da verdadeira diferença média.

Thomas Levine
fonte
O que você quer dizer com "tão longe"? Esse é o limite superior do IC que está longe ou a média observada?
probabilityislogic
A distância entre a média verdadeira e a média observada é o que quero dizer com "tão longe". Vou mudar para "tão longe"; Eu acho que isso é um pouco mais claro.
Thomas Levine
-2

Minha interpretação: se você realizar o experimento N vezes (onde N tende ao infinito), fora desse grande número de experimentos, 95% dos experimentos terão intervalos de confiança que se situam dentro desses limites de 95%. Mais claramente, digamos que esses limites são "a" e "b", então 95 em 100 vezes a diferença média da amostra ficará entre "a" e "b". Suponho que você entenda que experimentos diferentes podem ter amostras diferentes para cobrir fora de toda a população.

ayush biyani
fonte
@ Ayush. obrigado. Isso é útil. Desculpe, mas não segui sua frase final.
Anne
@anne - Ok. O que quero dizer é que, se você quiser testar a média entre duas amostras e digamos que cada amostra tem 1000 pessoas, você pode definir infinitas amostras (digamos 40 pessoas de cada uma) .. Eu escrevi isso para dizer por que os diferentes experimentos diferem entre si. Os experimentos em que observamos o intervalo de confiança.
ayush Biyani
2
@ayush - esta não é a interpretação correta em sua segunda última frase. Ou pelo menos você deve adicionar subscritos a "a" e "b", o que deixa claro que são essas quantidades que variam mais de 100 vezes. Sua notação atual faz parecer que "a" e "b" são quantidades fixas.
probabilityislogic
@probabilityislogic - concorda .. os subscritos são necessários.
ayush Biyani
1
@Ayush (-1) A caracterização que aparece atualmente na sua resposta pode ser interpretada de várias maneiras, a maioria das quais (portanto) está incorreta. Por exemplo, intervalos de confiança[uma,b]são geralmente construídos de modo a conter a "diferença média da amostra", o que implica que essa diferença estará entre os limites de 100% do tempo, não importa o quê.
whuber
-2

"95 vezes em 100, seu valor ficará dentro de um desvio padrão da média"

beginnerstat
fonte
4
Bem-vindo ao site, @beginnerstat. Será que você quis dizer " dois desvios-padrão da média"? Além disso, não tenho certeza se vejo como essa redação melhora o que o OP leu em outros lugares. Gostaria de elaborar um pouco?
gung - Restabelece Monica
1
Sim ao comentário de @ gung: estou particularmente interessado em entender o sentido em que "médio" e "SD" são usados ​​aqui. Referem-se a parâmetros subjacentes ou a estimativas de amostra ? Eles se referem à distribuição de uma variável aleatória subjacente ou à distribuição amostral da média das variáveis ​​iid dessa distribuição?
whuber