Quando os intervalos de confiança são úteis?

30

Se eu entendi corretamente, um intervalo de confiança de um parâmetro é um intervalo construído por um método que gera intervalos contendo o valor verdadeiro para uma proporção especificada de amostras. Portanto, a 'confiança' é mais sobre o método do que o intervalo que eu calculo de uma amostra específica.

Como usuário de estatísticas, sempre me senti enganado por isso, pois o espaço de todas as amostras é hipotético. Tudo o que tenho é uma amostra e quero saber o que essa amostra me diz sobre um parâmetro.

Esse julgamento está errado? Existem maneiras de observar intervalos de confiança, pelo menos em algumas circunstâncias, que seriam significativos para os usuários das estatísticas?

[Esta questão surge de segundos pensamentos após dissimular os intervalos de confiança em uma resposta math.se https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

confidence-interval interpretation Jyotirmoy Bhattacharya
fonte

15

Eu gosto de pensar nos ICs como uma maneira de escapar da estrutura de Teste de Hipóteses (HT), pelo menos a estrutura de decisão binária que segue a abordagem de Neyman , e me manter alinhada com a teoria da medição de alguma forma. Mais precisamente, eu os vejo como mais próximos da confiabilidade de uma estimativa (uma diferença de médias, por exemplo), e, por outro lado, os HT estão mais próximos do raciocínio hipotético-dedutivo, com suas armadilhas (não podemos aceitar o nulo, a alternativa é frequentemente estocástico, etc.). Ainda assim, tanto com a estimativa de intervalo quanto com a HT, temos que confiar em premissas de distribuição na maioria das vezes (por exemplo, uma distribuição amostral sob ), o que permite inferir nossa amostra para a população em geral ou para uma representativa (pelo menos nos freqüentadores). aproximação). $H_0$

Em muitos contextos, os ICs são complementares ao HT usual, e eu os vejo como na figura a seguir (está em ): $H_0$

texto alternativo

isto é, sob a estrutura HT (esquerda), você analisa a distância entre sua estatística e o nulo, enquanto com os ICs (direita) observa o efeito nulo "da sua estatística", em certo sentido.

Além disso, observe que, para certos tipos de estatística, como o odds ratio, a TH geralmente não faz sentido e é melhor olhar para o IC associado, que é assimétrico e fornecer informações mais relevantes sobre a direção e a precisão da associação, se houver.

chl
fonte

Por que você diz que os testes de hipóteses geralmente não fazem sentido para razões de chances, mais do que qualquer outra estimativa de efeito? Eu enfatizaria que os intervalos de confiança são mais úteis que os erros padrão para razões de chances e outras estimativas com distribuições amostrais assimétricas em amostras finitas.

onestop 23/10/10

@onestop Bem, eu estava parcialmente pensando no que você diz sobre "distribuições de amostragem assimétrica ..." (e parece que eu não estava tão claro), mas também no fato de que, em estudos epidemiológicos, geralmente estamos mais interessados em ICs (que é, quão precisa é a nossa estimativa) do que HT.

chl

+1. Isso me lembra que eu tenho usado seus scripts para aprender assíntota pulando e trocando coisas, tentando coisas diferentes. Mais uma vez obrigado por isso, muito útil para começar.

ars

@ars Na verdade, me lembro que essa foto foi feita com o PStricks. De qualquer forma, um bom ponto de partida para o Asymptote é piprime.fr/asymptote .

chl

@chl, isso pode estar fora do tópico, mas você pode me dizer se criou esses gráficos em R?

suncoolsu

7

Uma abordagem alternativa relevante para o seu 2º Q, "Existem maneiras de observar intervalos de confiança, pelo menos em algumas circunstâncias, que seriam significativas para os usuários das estatísticas?":

Você deve dar uma olhada na inferência bayesiana e nos intervalos credíveis resultantes . Um intervalo credível de 95% pode ser interpretado como um intervalo que você acredita ter 95% de probabilidade de incluir o valor verdadeiro do parâmetro. O preço que você paga é que você precisa colocar uma distribuição de probabilidade anterior nos valores que acredita que o parâmetro verdadeiro provavelmente terá antes de coletar os dados. E seu prior pode diferir do prior de outra pessoa, portanto, seus intervalos credíveis resultantes também podem diferir mesmo quando você usa os mesmos dados.

Esta é apenas minha tentativa rápida e grosseira de resumir! Um bom livro recente com foco prático é:

Andrew Gelman, John B. Carlin, Hal S. Stern e Donald B. Rubin. "Bayesian Data Analysis" (2ª edição). Chapman & Hall / CRC, 2003. ISBN 978-1584883883

uma parada
fonte

Obrigado. Mas e os intervalos de confiança freqüentadores especificamente? Existem circunstâncias em que elas seriam relevantes?

Jyotirmoy Bhattacharya 23/10/10

Acredito que ter antecedentes diferentes não é um problema (pelo menos do ponto de vista objetivo bayesiano), se acontecer que você tenha conhecimentos diferentes sobre a situação em questão. Nós queríamos ver os priores como uma maneira de transmitir nossas informações a priori. Eu sei que não é simples ...

Teucer

@Jyotirmoy Sobre abordagens bayesianas x frequentistas, pontos interessantes foram feitos aqui: stats.stackexchange.com/questions/1611/…

chl

6

Penso que a premissa desta questão é falha porque nega a distinção entre o incerto e o conhecido .

A descrição de um lançamento de moeda fornece uma boa analogia. Antes que a moeda seja lançada, o resultado é incerto; depois, não é mais "hipotético". Confundir esse fato consumado com a situação real que desejamos entender (o comportamento da moeda, ou decisões a serem tomadas como resultado de seu resultado) nega essencialmente um papel de probabilidade na compreensão do mundo.

Esse contraste é lançado em grande relevo dentro de uma arena experimental ou regulatória. Nesses casos, o cientista ou o regulador sabem que serão confrontados com situações cujos resultados, a qualquer momento antes, são desconhecidos, mas devem fazer determinações importantes, como projetar o experimento ou estabelecer os critérios a serem usados para determinar a conformidade com os regulamentos. (para testes de drogas, segurança no local de trabalho, padrões ambientais etc.). Essas pessoas e as instituições para as quais trabalham precisam de métodos e conhecimento das características probabilísticas desses métodos , a fim de desenvolver estratégias ótimas e defensáveis, como bons projetos experimentais e procedimentos de decisão justos que cometerem o mínimo possível.

Intervalos de confiança, apesar de sua justificativa classicamente ruim, se encaixam nesse quadro teórico da decisão. Quando um método de construção de um intervalo aleatório possui uma combinação de boas propriedades, como garantir uma cobertura mínima esperada do intervalo e minimizar a duração esperada do intervalo - ambas propriedades a priori , e não a posteriori -, uma longa carreira de uso desse método, podemos minimizar os custos associados às ações indicadas por esse método.

whuber
fonte

Dê um exemplo do uso de um intervalo de confiança para tomar uma decisão. Ou, melhor ainda, compare dois intervalos de confiança e como você tomaria decisões diferentes com cada um, mantendo-se completamente dentro da estrutura freqüentista.

BrainPermafrost

@Brain Qualquer livro de estatísticas introdutórias fornecerá esses exemplos. Um que é descaradamente freqüentador é Freedman, Pisani e Purves, Statistics (qualquer edição).

whuber

6

Você está certo ao dizer que os intervalos de confiança de 95% são coisas resultantes do uso de um método que funciona em 95% dos casos, em vez de qualquer intervalo individual com 95% de probabilidade de conter o valor esperado.

"A base lógica e a interpretação dos limites de confiança são, mesmo agora, uma questão de controvérsia." {David Colquhoun, 1971, Palestras sobre Bioestatística}

Essa citação é retirada de um livro de estatística publicado em 1971, mas eu diria que ainda é verdade em 2010. A controvérsia é provavelmente mais extrema no caso de intervalos de confiança para proporções binomiais. Existem muitos métodos concorrentes para calcular esses intervalos de confiança, mas todos são imprecisos em um ou mais sentidos, e mesmo o método com pior desempenho tem proponentes entre os autores de livros didáticos. Mesmo os chamados intervalos "exatos" não produzem as propriedades esperadas dos intervalos de confiança.

Em um artigo escrito para cirurgiões (amplamente conhecido por seu interesse em estatística!), John Ludbrook e eu defendemos o uso rotineiro de intervalos de confiança calculados usando um anterior bayesiano uniforme, porque esses intervalos têm propriedades freqüentistas tão boas quanto qualquer outro método (em média exatamente 95% de cobertura sobre todas as proporções verdadeiras), mas, mais importante, uma cobertura muito melhor sobre todas as proporções observadas (exatamente 95% de cobertura). O artigo, devido ao seu público-alvo, não é muito detalhado e, portanto, pode não convencer todos os estatísticos, mas estou trabalhando em um artigo de acompanhamento com o conjunto completo de resultados e justificativas.

É um caso em que a abordagem bayesiana tem propriedades freqüentistas tão boas quanto a abordagem freqüentista, algo que acontece com bastante frequência. A suposição de um prior uniforme não é problemática, porque uma distribuição uniforme de proporções populacionais está embutida em todos os cálculos de cobertura freqüentista que encontrei.

Você pergunta: "Existem maneiras de observar intervalos de confiança, pelo menos em algumas circunstâncias, o que seria significativo para os usuários das estatísticas?" Minha resposta, então, é que, para intervalos binomiais de confiança, é possível obter intervalos que contêm a proporção da população exatamente 95% do tempo para todas as proporções observadas. Isso é um sim. No entanto, o uso convencional de intervalos de confiança espera cobertura para todas as proporções populacionais e, para isso, a resposta é "Não!"

A extensão das respostas à sua pergunta e as várias respostas sugerem que os intervalos de confiança são amplamente mal compreendidos. Se mudarmos nosso objetivo de cobertura para todos os valores de parâmetros verdadeiros para cobertura do valor de parâmetro verdadeiro para todos os valores de amostra, pode ficar mais fácil porque os intervalos serão modelados para serem diretamente relevantes aos valores observados, e não para o desempenho do método per se.

Michael Lew
fonte

5

Esta é uma excelente discussão. Eu sinto que intervalos Bayesianos credíveis e intervalos de apoio à probabilidade são o caminho a percorrer, bem como as probabilidades Bayesianas posteriores de eventos de interesse (por exemplo, um medicamento é eficaz). Mas suplantar valores de P com intervalos de confiança é um grande ganho. Praticamente todas as edições dos melhores periódicos médicos, como NEJM e JAMA, têm um artigo com o problema "ausência de evidência não é evidência de ausência" em seus resumos. O uso de intervalos de confiança impedirá amplamente esses erros. Um excelente pequeno texto é http://www.amazon.com/Statistics-Confidence-Intervals-Statistical-Guidelines/dp/0727913751

Frank Harrell
fonte

3

Para responder à sua pergunta diretamente: Suponha que você esteja pensando em usar uma máquina para encher uma caixa de cereal com uma certa quantidade de cereal. Obviamente, você não deseja encher / encher demais a caixa. Você deseja avaliar a confiabilidade da máquina. Você realiza uma série de testes da seguinte forma: (a) Use a máquina para encher a caixa e (b) Meça a quantidade de cereal que é preenchida na caixa.

Usando os dados coletados, você constrói um intervalo de confiança para a quantidade de cereal que a máquina provavelmente preencherá na caixa. Esse intervalo de confiança nos diz que o intervalo que obtivemos tem uma probabilidade de 95% de conter a quantidade real de cereal que a máquina colocará na caixa. Como você diz, a interpretação do intervalo de confiança se baseia em amostras hipotéticas e não vistas geradas pelo método considerado. Mas, é exatamente isso que queremos em nosso contexto. No contexto acima, que vai usar a máquina várias vezes para encher a caixa e, portanto, nós nos preocupamos com hipotéticos realizações, invisíveis a quantidade de cereal os preenchimentos máquina na caixa.

Para abstrair do contexto acima: um intervalo de confiança nos garante que, se usarmos o método sob investigação (no método de exemplo acima = máquina) repetidamente, há uma probabilidade de 95% de que o intervalo de confiança tenha o parâmetro true .

fonte

2

@Srikant. Não! É assim que os CIs clássicos mordem. Vamos supor por simplicidade que a quantidade de cereal preenchida em uma caixa seja normal com média e variação . O intervalo de confiança de é baseado em sua distribuição amostral, que é diferente. Um IC em particular pode estar muito distante devido a erros de amostragem e, portanto, não terá relação com o desempenho da máquina. Se você coletar amostras e formar ICs repetidamente, 95% deles estariam certos, mas isso não é consolo.

μ

$\mu$

σ^{2}

$\sigma^2$

μ

$\mu$

Jyotirmoy Bhattacharya

11

@Jyotirmoy Obviamente, um IC específico pode estar distante. Em outras palavras, há uma chance de 5% de que o IC não contenha o valor verdadeiro. No entanto, a interpretação que dei é consistente com a forma como os ICs são realmente construídos. Imaginamos usar o método repetidamente e construir o IC de modo que a probabilidade de que o IC observado contenha o valor verdadeiro seja 0,95. Observe que minha resposta não diz nada sobre a probabilidade de onde realmente reside o valor verdadeiro, pois é uma afirmação que só pode ser feita com intervalos credíveis e não com intervalos de confiança.

11

@Jyotirmoy Limites inferior / superior para um % CI de uma média observada são construídos sob , onde a distribuição amostral de uma média (ou uma diferença de médias) é a que você assumiu dependendo da sua amostra ( ou distribuição ). Achei a resposta de Srikant correta e sua interpretação não parece ir além do experimento que foi estruturado. ICs são variáveis aleatórias.

(100 - α)

$(100-\alpha)$

H_{0}

$H_0$

t

$t$

z

$z$

chl

@Srikant. Talvez eu tenha entendido errado "método = máquina" na resposta. Eu pensei que você estava dizendo que 95% de todas as caixas que saem da linha de montagem teriam pesos dentro do intervalo de confiança de 95% derivado de uma amostra específica das caixas.

Jyotirmoy Bhattacharya

Quando os intervalos de confiança são úteis?

Respostas: