Parece que, através de várias questões relacionadas aqui, há consenso de que a parte "95%" do que chamamos de "intervalo de confiança de 95%" refere-se ao fato de que se replicarmos exatamente nossos procedimentos de amostragem e computação de IC muitas vezes , 95% dos ICs assim calculados conteriam a média da população. Parece também ser consenso que essa definição nãopermita concluir com um único IC de 95% que há uma chance de 95% de que a média esteja em algum lugar dentro do IC. No entanto, não entendo como o primeiro não implica o segundo, pois, tendo imaginado muitos ICs 95% dos quais contêm a média da população, não deveria nossa incerteza (se o nosso IC realmente calculado contém a população média ou não) nos força a usar a taxa básica dos casos imaginados (95%) como nossa estimativa da probabilidade de que nosso caso real contenha o IC?
Eu já vi postagens discutirem ao longo das linhas "o IC realmente calculado contém a média da população ou não, então sua probabilidade é 1 ou 0", mas isso parece implicar uma definição estranha de probabilidade dependente em estados desconhecidos (ou seja, um amigo joga moedas justas, oculta o resultado, e não sou permitido dizer que há 50% de chance de ser cara).
Certamente eu estou errado, mas não vejo onde minha lógica deu errado ...
fonte
Respostas:
Parte da questão é que a definição freqüente de probabilidade não permite que uma probabilidade não trivial seja aplicada ao resultado de um experimento em particular, mas apenas a uma população fictícia de experimentos dos quais esse experimento em particular pode ser considerado uma amostra. A definição de um IC é confusa, pois é uma declaração sobre essa população (geralmente) fictícia de experimentos, e não sobre os dados específicos coletados na instância em questão. Portanto, parte do problema é uma das definições de probabilidade: a idéia do verdadeiro valor dentro de um intervalo específico com probabilidade de 95% é inconsistente com uma estrutura freqüentista.
Outro aspecto da questão é que o cálculo da confiança freqüentista não usa todas as informações contidas na amostra específica, relevantes para limitar o valor real da estatística. Minha pergunta "Existem exemplos em que os intervalos credíveis bayesianos são obviamente inferiores aos intervalos freqüentes de confiança"discute um artigo de Edwin Jaynes, que tem alguns bons exemplos que realmente destacam a diferença entre intervalos de confiança e intervalos confiáveis. Um que é particularmente relevante para essa discussão é o Exemplo 5, que discute a diferença entre um intervalo credível e um intervalo de confiança para estimar o parâmetro de uma distribuição exponencial truncada (para um problema no controle de qualidade industrial). No exemplo que ele dá, não há informação suficiente na amostra a ser determinado que o verdadeiro valor do parâmetro encontra-se em nenhum lugar um intervalo de confiança construída adequadamente 90%!
Isso pode parecer chocante para alguns, mas a razão para esse resultado é que intervalos de confiança e intervalos confiáveis são respostas a duas perguntas diferentes, a partir de duas interpretações diferentes de probabilidade.
O intervalo de confiança é a resposta à solicitação: "Dê-me um intervalo que o valor verdadeiro do parâmetro em % das instâncias de um experimento que seja repetido várias vezes". O intervalo credível é uma resposta à solicitação: "Dê-me um intervalo que entre parênteses o valor verdadeiro com probabilidade dada a amostra específica que eu realmente observei. " Para poder responder à última solicitação, devemos primeiro adotar (a ) um novo conceito do processo de geração de dados ou (b) um conceito diferente da própria definição de probabilidade.100p p
A principal razão pela qual um intervalo de confiança de 95% em particular não implica uma chance de 95% de conter a média é porque o intervalo de confiança é uma resposta a uma pergunta diferente, portanto, é apenas a resposta certa quando a resposta para as duas perguntas acontece. tem a mesma solução numérica.
Em resumo, intervalos credíveis e de confiança respondem a diferentes perguntas de diferentes perspectivas; ambos são úteis, mas você precisa escolher o intervalo certo para a pergunta que realmente deseja fazer. Se você deseja um intervalo que admita uma interpretação de uma probabilidade de 95% (posterior) de conter o valor verdadeiro, escolha um intervalo credível (e, com ele, a correspondente conceitualização de probabilidade), não um intervalo de confiança. O que você não deve fazer é adotar uma definição diferente de probabilidade na interpretação do que a usada na análise.
Obrigado a @cardinal por seus refinamentos!
Aqui está um exemplo concreto, do excelente livro de David MaKay "Teoria da informação, inferência e algoritmos de aprendizado" (página 464):
Seja o parâmetro de interesse e os dados , um par de pontos e desenhados independentemente da seguinte distribuição:θ D x1 x2
Se for , esperamos ver os conjuntos de dados , , e todos com igual probabilidade . Considere o intervalo de confiançaθ 39 (39,39) (39,40) (40,39) (40,40) 1/4
Claramente, este é um intervalo de confiança de 75% válido, porque se você amostrar novamente os dados, , muitas vezes o intervalo de confiança construído dessa maneira conteria o valor verdadeiro em 75% do tempo.D=(x1,x2)
Agora considere os dados . Nesse caso, o intervalo de confiança freqüentista de 75% seria . No entanto, supondo que o modelo do processo de geração esteja correto, poderia ser 28 ou 29 nesse caso, e não temos motivos para supor que 29 seja mais provável que 28, portanto a probabilidade posterior é . Portanto, nesse caso, o intervalo de confiança freqüentista claramente não é um intervalo credível de 75%, pois há apenas 50% de probabilidade de que ele contenha o valor real de , considerando o que podemos deduzir sobre nessa amostra específica .D=(29,29) [29,29] θ p(θ=28|D)=p(θ=29|D)=1/2 θ θ
Sim, este é um exemplo artificial, mas se os intervalos de confiança e intervalos credíveis não fossem diferentes, eles ainda seriam idênticos nos exemplos inventados.
Observe que a principal diferença é que o intervalo de confiança é uma afirmação sobre o que aconteceria se você repetisse o experimento várias vezes; o intervalo credível é uma afirmação sobre o que pode ser inferido a partir dessa amostra específica.
fonte
Nas estatísticas freqüentes, as probabilidades são sobre eventos a longo prazo. Eles simplesmente não se aplicam a um único evento após a conclusão. E a execução de um experimento e o cálculo do IC é exatamente esse evento.
Você queria compará-lo com a probabilidade de uma moeda escondida ser cara, mas não pode. Você pode relacionar isso com algo muito próximo. Se o seu jogo possui uma regra em que você deve declarar após as "cabeças" do flip, a probabilidade de estar correta no longo prazo é de 50% e isso é análogo.
Quando você executa seu experimento e coleta seus dados, obtém algo semelhante ao giro real da moeda. O processo do experimento é como o processo da moeda lançando uma vez que geraμ ou não apenas como a moeda é cara ou não. Depois que você joga a moeda, quer a veja ou não, não há probabilidade de que sejam caras, sejam caras ou não. Agora, suponha que você chame chefes. É isso que é o cálculo do IC. Porque você nunca pode revelar a moeda (sua analogia a um experimento desapareceria). Ou você está certo ou errado, é isso. Seu estado atual tem alguma relação com a probabilidade de surgir na próxima jogada, ou que eu poderia ter previsto o que é? Não. O processo pelo qual a cabeça é produzida tem uma probabilidade de 0,5 de produzi-la, mas isso não significa que uma cabeça que já exista tenha uma probabilidade de existência de 0,5. Depois de calcular seu IC, não há probabilidade de ele capturarμ , funciona ou não - você já jogou a moeda.
OK, acho que já torturei o suficiente. O ponto crítico é realmente que sua analogia é equivocada. Você nunca pode revelar a moeda; você só pode chamar cara ou coroa com base em suposições sobre moedas (experimentos). Você pode querer fazer uma aposta depois, com a cabeça ou coroa sendo corretas, mas nunca poderá apostar nela. Além disso, é um componente crítico do procedimento de IC que você está informando que o valor da importação está no intervalo. Caso contrário, você não tem um IC (ou pelo menos não um na% declarada).
Provavelmente, o que torna o IC confuso é o nome. É um intervalo de valores que contém ou não . Achamos que eles contêm mas a probabilidade disso não é a mesma que o processo que o levou a desenvolvê-lo. A parte de 95% do nome do IC 95% é praticamente o processo. Você pode calcular um intervalo que acredita que posteriormente contém em algum nível de probabilidade, mas esse é um cálculo diferente e não um IC.μ μ μ
É melhor pensar no nome IC95% como uma designação de um tipo de medida de um intervalo de valores que você acha que contém plausivelmente e separa os 95% dessa plausibilidade. Poderíamos chamá-lo de Jennifer CI, enquanto o 99% CI é o Wendy CI. Isso pode realmente ser melhor. Depois, podemos dizer que acreditamosμ μ provavelmente está na faixa de valores e ninguém ficaria preso ao dizer que há uma probabilidade de Wendy que capturamos . Se você quiser uma designação diferente, acho que provavelmente também deve se sentir livre para se livrar da parte de "confiança" do IC (mas é um intervalo).μ
fonte
Idéias formais e explícitas sobre argumentos, inferência e lógica originaram, dentro da tradição ocidental, Aristóteles. Aristóteles escreveu sobre esses tópicos em vários trabalhos diferentes (incluindo um chamado Tópicos ;-)). No entanto, o princípio único mais básico é A lei da não-contradição , que pode ser encontrada em vários lugares, incluindo a metafísicalivro IV, capítulos 3 e 4. Uma formulação típica é: "... é impossível que qualquer coisa ao mesmo tempo seja e não seja [no mesmo sentido]" (1006 a 1). Sua importância é declarada um pouco antes: "... este é naturalmente o ponto de partida, mesmo para todos os outros axiomas" (1005 b 30). Perdoe-me por me tornar filosófico, mas essa pergunta, por sua natureza, tem conteúdo filosófico que não pode ser simplesmente deixado de lado por conveniência.
Considere este experimento mental: Alex joga uma moeda, pega-a e vira-a no antebraço com a mão cobrindo o lado voltado para cima. Bob estava parado na posição correta; ele viu brevemente a moeda na mão de Alex e, portanto, pode deduzir qual lado está voltado para cima agora. No entanto, Carlos não viu a moeda - ele não estava no lugar certo. Nesse ponto, Alex pergunta a eles qual é a probabilidade de a moeda mostrar cabeças. Carlos sugere que a probabilidade é 0,5, pois essa é a frequência de longo prazo das cabeças. Bob discorda, ele afirma com confiança que a probabilidade não passa de exatamente 0 .
Agora quem está certo? É possível, é claro, que Bob tenha visto errado e esteja incorreto (suponhamos que ele não tenha visto errado). No entanto, você não pode sustentar que ambos estão certos e mantêm a lei da não-contradição. (Suponho que, se você não acredita na lei da não-contradição, pode pensar que ambas estão certas, ou alguma outra formulação desse tipo.) Agora imagine um caso semelhante, mas sem Bob presente, a sugestão de Carlos poderia ser mais certo (eh?) sem Bob por perto, já que ninguém viu a moeda? A aplicação da lei da não-contradição não é tão clara neste caso, mas acho óbvio que as partes da situação que parecem importantes são mantidas constantes da primeira para a segunda. Houve muitas tentativas de definir probabilidade e, no futuro, ainda pode haver muito mais, mas uma definição de probabilidade em função de quem está por perto e onde está posicionado tem pouco apelo. De qualquer forma (adivinhando pelo uso da frase "intervalo de confiança "), estamos trabalhando dentro da abordagem freqüentista e, nesse sentido, se alguém sabe que o verdadeiro estado da moeda é irrelevante. Não é uma variável aleatória - é um valor realizado e mostra cabeças, ou coroa .
É importante para mim notar, neste ponto, que tudo isso ocorre dentro de uma concepção freqüentista de probabilidade. A perspectiva bayesiana não viola a lei da não-contradição, simplesmente parte de diferentes suposições metafísicas sobre a natureza da realidade (mais especificamente sobre probabilidade). Outros no CV são muito mais versados na perspectiva bayesiana do que eu, e talvez eles possam explicar por que as suposições por trás de sua pergunta não se aplicam à abordagem bayesiana e que, de fato, pode haver uma probabilidade de 95% da média dentro de uma credibilidade de 95%intervalo, sob certas condições, incluindo (entre outras) que o anterior usado era preciso (consulte o comentário de @DikranMarsupial abaixo). No entanto, acho que todos concordariam que, uma vez que você declara estar trabalhando com a abordagem Frequentist, não é possível que a probabilidade da verdadeira média em qualquer IC 95% seja de 95.
fonte
Por que um IC de 95% não implica uma chance de 95% de conter a média?
Há muitas questões a serem esclarecidas nesta questão e na maioria das respostas dadas. Vou me limitar apenas a dois deles.
uma. O que significa uma população? Existe uma população verdadeira significa?
O conceito de média populacional depende do modelo. Como todos os modelos estão errados, mas alguns são úteis, essa média populacional é uma ficção definida apenas para fornecer interpretações úteis. A ficção começa com um modelo de probabilidade.
b. Qual é a definição e a finalidade de um intervalo de confiança?
Observação: Os leitores devem observar que não é necessário fazer suposições sobre o estado da realidade, a região de confiança é definida para um modelo estatístico bem definido sem fazer referência a qualquer média "verdadeira". Mesmo que a medida de probabilidade "verdadeira" não exista ou não esteja em , a definição da região de confiança funcionará, pois as suposições são sobre modelagem estatística e não sobre os estados da realidade.M
Por um lado, antes de observar os dados, é um conjunto aleatório (ou intervalo aleatório) e a probabilidade de " conter a média " é pelo menos para todos . Essa é uma característica muito desejável para o paradigma freqüentista.Cα(X) Cα(X) μθ (1−α) θ∈Θ
Por outro lado, depois de observar os dados , é apenas um conjunto fixo e a probabilidade de " conter a média " deve estar em {0,1} para todos .x Cα(x) Cα(x) μθ θ∈Θ
Ou seja, depois de observar os dados , não podemos mais empregar o raciocínio probabilístico. Até onde eu sei, não existe uma teoria para tratar conjuntos de confiança para uma amostra observada (estou trabalhando nisso e obtendo bons resultados). Por um tempo, o frequentista deve acreditar que o conjunto observado (ou intervalo) é um dos conjuntos que contém para todos .x Cα(x) (1−α)100% μθ θ∈Θ
PS: Convido comentários, críticas, críticas ou até objeções ao meu post. Vamos discutir isso em profundidade. Como não sou um falante nativo de inglês, meu post certamente contém erros de digitação e gramática.
Referência:
Schervish, M. (1995), Theory of Statistics, Segunda ed., Springer.
fonte
Estou surpreso que ninguém tenha mencionado o exemplo de Berger de um intervalo de confiança de 75% essencialmente inútil descrito no segundo capítulo de "O princípio da verossimilhança". Os detalhes podem ser encontrados no texto original ( disponível gratuitamente no Projeto Euclid ): o essencial é o exemplo, que descreve, sem ambiguidade, uma situação em que você conhece com absoluta certeza o valor de um parâmetro ostensivamente desconhecido após observando dados, mas você afirmaria ter apenas 75% de confiança de que seu intervalo contém o valor verdadeiro. Trabalhar com os detalhes desse exemplo foi o que me permitiu entender toda a lógica da construção de intervalos de confiança.
fonte
Não sei se isso deve ser feito como uma nova pergunta, mas está abordando a mesma pergunta acima, propondo um experimento mental.
Primeiramente, vou assumir que, se eu selecionar uma carta de baralho aleatoriamente em um baralho padrão, a probabilidade de eu ter selecionado um clube (sem olhar para ela) é 13/52 = 25%.
Em segundo lugar, já foi afirmado muitas vezes que um intervalo de confiança de 95% deve ser interpretado em termos de repetir um experimento várias vezes e o intervalo calculado conterá a verdadeira média em 95% das vezes - acho que isso foi demonstrado de forma razoavelmente convincente por James Waters simulação. A maioria das pessoas parece aceitar essa interpretação de um IC de 95%.
Agora, para o experimento mental. Vamos supor que tenhamos uma variável normalmente distribuída em uma grande população - talvez alturas de machos ou fêmeas adultos. Tenho um assistente disposto e incansável, encarregado de executar vários processos de amostragem de um determinado tamanho de amostra da população e calcular a média da amostra e o intervalo de confiança de 95% para cada amostra. Meu assistente é muito afiado e consegue medir todas as amostras possíveis da população. Em seguida, para cada amostra, meu assistente registra o intervalo de confiança resultante como verde (se o IC contiver a média verdadeira) ou vermelho (se o IC não contiver a média verdadeira). Infelizmente, meu assistente não vai me mostrar os resultados de seus experimentos. Preciso obter algumas informações sobre as alturas dos adultos na população, mas só tenho tempo, recursos e paciência para fazer o experimento uma vez. Eu faço uma única amostra aleatória (do mesmo tamanho de amostra usada pelo meu assistente) e calculo o intervalo de confiança (usando a mesma equação).
Não tenho como ver os resultados do meu assistente. Então, qual é a probabilidade de a amostra aleatória que selecionei produzir um IC verde (ou seja, o intervalo contém a média verdadeira)?
Na minha opinião, isso é o mesmo que a situação do baralho de cartas descrita anteriormente e pode ser interpretada com uma probabilidade de 95% de que o intervalo calculado contenha a média verdadeira (ou seja, verde). No entanto, o consenso parece ser que um intervalo de confiança de 95% NÃO pode ser interpretado, pois existe uma probabilidade de 95% de que o intervalo contenha a média verdadeira. Por que (e onde) meu raciocínio no experimento de pensamento acima se desfaz?
fonte
Embora tenha havido uma extensa discussão nas inúmeras ótimas respostas, quero acrescentar uma perspectiva mais simples. (embora tenha sido aludido em outras respostas - mas não explicitamente.) Para alguns parâmetros , e para uma amostra , um intervalo de confiança de é uma declaração de probabilidade do formulárioθ (X1,X2,⋯,Xn) 100p%
Se considerarmos a ser uma constante, então a afirmação acima é sobre a variáveis aleatórias e , ou mais precisamente, trata-se de o intervalo aleatório .θ g(X1,X2,⋯,Xn) f(X1,X2,⋯,Xn) (g(X1,X2,⋯,Xn),f(X1,X2,⋯,Xn))
Portanto, em vez de fornecer qualquer informação sobre a probabilidade do parâmetro estar contido no intervalo, ele fornece informações sobre a probabilidade do intervalo que contém o parâmetro - como o intervalo é feito a partir de variáveis aleatórias.
fonte
Para propósitos práticos, você não está mais errado ao apostar que seu IC de 95% incluiu a média verdadeira com probabilidades de 95: 5, do que você deve apostar no sorteio do seu amigo com probabilidades de 50:50.
Se seu amigo já jogou a moeda e você acha que há 50% de probabilidade de ele ser cara, então você está apenas usando uma definição diferente da palavra probabilidade. Como já foi dito, para os freqüentadores, você não pode atribuir uma probabilidade a um evento que ocorreu, mas pode descrever a probabilidade de um evento ocorrer no futuro usando um determinado processo.
De outro blog: o frequentista dirá: "Um evento em particular não pode ter uma probabilidade. A moeda mostra cara ou coroa, e a menos que você o mostre, eu simplesmente não posso dizer qual é o fato. Somente se você repetir o sorteio muitas, muitas vezes, se você variar as condições iniciais dos lançamentos com força suficiente, eu esperaria que a frequência relativa de cabeças em todos esses lançamentos se aproximasse de 0,5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability
fonte
Digamos que o IC que você calculou a partir do conjunto específico de dados que você possui é um dos 5% de ICs possíveis que não contêm a média. Quão próximo está o intervalo de 95% de credibilidade que você gostaria de imaginar? (Ou seja, quão perto está de conter a média com 95% de probabilidade?) Você não tem certeza de que está próximo. De fato, seu IC pode não se sobrepor a nenhum dos IC95% de 95% que realmente contêm a média. Sem mencionar que ele não contém a média em si, o que também sugere que não é um intervalo credível de 95%.
Talvez você queira ignorar isso e supor com otimismo que seu IC é um dos 95% que contém a média. OK, o que sabemos sobre seu IC, considerando que ele está nos 95%? Que contém a média, mas talvez apenas uma saída ao extremo, excluindo tudo o resto do outro lado da média. Não é provável que contenha 95% da distribuição.
De qualquer forma, não há garantia, talvez nem mesmo uma esperança razoável de que seu IC de 95% seja um intervalo credível de 95%.
fonte
Se você está apenas adivinhando que seus amigos jogam moedas com 50% de cara / coroa, então você não está fazendo certo.
Certamente, a credibilidade de seu palpite sobre o lançamento da moeda dependerá dessas condições e nem sempre será a mesma de 50% (às vezes, seu método de "trapaça" pode funcionar melhor).
Seu palpite geral pode ser, se você trapacear, x> 50% do tempo certo, mas isso não significa necessariamente que a probabilidade de cada lançamento em particular seja constantemente x% de cabeças. Portanto, seria um pouco estranho projetar sua probabilidade geral na probabilidade de um lançamento específico. É um 'tipo de probabilidade' diferente.
É um pouco sobre qual nível ou profundidade você especifica / define 'probabilidade' .
A confiança é independente da 'probabilidade específica do experimento / inversão' e independente das 'probabilidades a priori' .
A confiança é sobre o conjunto de experimentos . É construído de tal maneira que você não precisa conhecer probabilidades ou distribuições a priori na população.
A confiança diz respeito à "taxa de falhas" geral da estimativa, mas para casos específicos, é possível especificar variações de probabilidade com mais precisão .
( Essas variações de probabilidade existem pelo menos implicitamente , em teoria, e não precisamos conhecê-las para que elas existam. Mas podemos expressar explicitamente essas probabilidades usando uma abordagem bayesiana).
Exemplo 1:
Se você tem 1% da população doente, em média, obtém 1,98% do teste positivo (1% das pessoas saudáveis de 99% são positivas e 99% das pessoas doentes de 1% são positivas). Isso faz com que seu intervalo de IC de 95% (condicional) quando você encontrar um teste positivo corrija apenas 50% das vezes.
Exemplo 2:
(o oposto é verdadeiro para pessoas com resultados próximos a 100, o QI deles provavelmente será mais provável que 95% dentro do IC de 95%, e isso deve compensar os erros que você cometeu nos extremos, de forma que você acabe tendo razão. em 95% dos casos)
fonte
Primeiro, vamos definir o intervalo de confiança ou, em espaços de dimensão maior que um, a região de confiança. A definição é uma versão concisa da dada por Jerzy Neyman em seu artigo de 1937 para a Royal Society.
Essa probabilidade reduz para apenas para determinadas combinações de informações e regiões de aceitação . Por exemplo, se o anterior é uniforme e a distribuição de amostragem é simétrica em e (por exemplo, uma Gaussiana com como a média), em seguida:α I A(p,α) s p p
Se, além disso, as regiões de aceitação são tais que , então:s∈A(s,α)⟺s∈A(s,α)
O exemplo didático de estimativa de uma média populacional com um intervalo de confiança padrão construído sobre uma estatística normal é um caso especial das suposições anteriores. Portanto, o intervalo de confiança padrão 95% faz conter o significativo com uma probabilidade de 0,95; mas essa correspondência geralmente não é válida.
fonte
Há algumas respostas interessantes aqui, mas pensei em adicionar uma pequena demonstração prática usando R. Recentemente, usamos esse código em um curso de estatísticas para destacar como os intervalos de confiança funcionam. Aqui está o que o código faz:
1 - Amostra de uma distribuição conhecida (n = 1000)
2 - Calcula o IC95% para a média de cada amostra
3 - Pergunta se o IC de cada amostra inclui ou não a média verdadeira.
4 - Relata no console a fração de ICs que incluiu a média verdadeira.
Eu apenas executei o script várias vezes e, na verdade, não é incomum descobrir que menos de 94% dos ICs continham a verdadeira média. Pelo menos para mim, isso ajuda a dissipar a ideia de que um intervalo de confiança tem uma probabilidade de 95% de conter o parâmetro true.
Espero que isto ajude!
fonte