Morey et al (2015) argumentam que os intervalos de confiança são enganosos e existem vários vieses relacionados à compreensão deles. Entre outros, eles descrevem a falácia da precisão da seguinte maneira:
A falácia da precisão
A largura de um intervalo de confiança indica a precisão do nosso conhecimento sobre o parâmetro. Intervalos de confiança estreitos mostram conhecimento preciso, enquanto erros de confiança amplos mostram conhecimento impreciso.Não há conexão necessária entre a precisão de uma estimativa e o tamanho de um intervalo de confiança. Uma maneira de ver isso é imaginar dois pesquisadores - um pesquisador sênior e um estudante de doutorado - analisando dados de participantes de um experimento. Como um exercício para o benefício do aluno de doutorado, o pesquisador sênior decide dividir aleatoriamente os participantes em dois conjuntos de para que cada um possa analisar separadamente metade do conjunto de dados. Em uma reunião posterior, os dois compartilham um com o outro de seus alunos intervalos de confiança para a média. O IC do aluno de doutorado é e o IC do pesquisador sênior é .
O pesquisador sênior observa que seus resultados são amplamente consistentes e que eles poderiam usar a média ponderada de suas duas estimativas pontuais respectivas, , como uma estimativa geral da média verdadeira.
A aluna de doutorado, no entanto, argumenta que seus dois meios não devem ser uniformemente ponderados: ela observa que seu IC é metade da largura e argumenta que sua estimativa é mais precisa e, portanto, deve ser mais ponderada. Seu orientador observa que isso não pode estar correto, porque a estimativa de ponderar desigualmente as duas médias seria diferente da estimativa de analisar o conjunto de dados completo, que deve ser . O erro do aluno de doutorado é supor que os ICs indiquem diretamente a precisão pós-dados.
O exemplo acima parece ser enganoso. Se dividirmos aleatoriamente uma amostra ao meio, em duas amostras, esperamos que a média da amostra e os erros padrão estejam próximos. Nesse caso, não deve haver diferença entre o uso da média ponderada (por exemplo, ponderada por erros inversos) e a média aritmética simples. No entanto, se as estimativas diferirem e os erros em uma das amostras forem visivelmente maiores, isso poderá sugerir "problemas" nessa amostra.
Obviamente, no exemplo acima, os tamanhos das amostras são os mesmos, de modo que "juntar de volta" os dados calculando a média é o mesmo que calcular a média da amostra inteira. O problema é que o exemplo inteiro segue a lógica mal definida de que a amostra é primeiro dividida em partes e depois juntada novamente para a estimativa final.
O exemplo pode ser reformulado para levar exatamente à conclusão oposta:
O pesquisador e o aluno decidiram dividir o conjunto de dados em duas partes e analisá-los independentemente. Depois, eles compararam suas estimativas e parecia que a amostra significa que eles calculavam eram muito diferentes, além disso, o erro padrão da estimativa do aluno era muito maior. O aluno temia que isso pudesse sugerir problemas com a precisão de sua estimativa, mas o pesquisador sugeriu que não há conexão entre intervalos de confiança e precisão; portanto, ambas as estimativas são igualmente confiáveis e podem publicar qualquer uma delas, escolhida aleatoriamente, como sua estimativa final.
Em termos mais formais, os intervalos de confiança "padrão", como o de Student , são baseados em erros
onde é alguma constante. Nesse caso, eles estão diretamente relacionados à precisão, não são ..?
Então, minha pergunta é:
a falácia da precisão é realmente uma falácia? O que dizem os intervalos de confiança sobre precisão?
Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015). A falácia de confiar em intervalos de confiança. Boletim Psiconômico e Revisão, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/
Respostas:
No artigo, demonstramos a falácia da precisão de várias maneiras. O que você está perguntando - o primeiro no artigo - O exemplo pretende demonstrar que um "IC = precisão" simplista está errado. Isso não quer dizer que qualquer freqüentista, bayesiano ou verossimilhança competente ficaria confuso com isso.
Aqui está outra maneira de ver o que está acontecendo: Se nos informassem os ICs, ainda não conseguiríamos combinar as informações nas amostras; seria preciso saber , e de que poderíamos decompor os ICs no ˉ x e s 2 , e, assim, combinar as duas amostras corretamente. A razão pela qual temos que fazer isso é que as informações no IC são marginais sobre o parâmetro incômodo. Devemos levar em conta que ambas as amostras contêm informações sobre o mesmo parâmetro incômodo. Isso envolve calcular a computação dos dois valores s 2 , combinando-os para obter uma estimativa geral de σ 2 e , em seguida, calcular um novo IC.N x¯ s2 s2 σ2
Quanto a outras demonstrações da falácia da precisão, consulte
A resposta para o dilema é que "precisão", pelo menos da maneira que os advogados de IC pensam sobre isso (uma avaliação pós-experimental de quão "próxima" é uma estimativa de um parâmetro) simplesmente não é uma característica que os intervalos de confiança geralmente têm , e eles não foram feitos para. Procedimentos particulares de confiança podem ... ou não.
Veja também a discussão aqui: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591
fonte
Antes de tudo, vamos nos limitar aos procedimentos de IC que produzem apenas intervalos com larguras finitas estritamente positivas (para evitar casos patológicos).
Nesse caso, a relação entre precisão e largura do IC pode ser demonstrada teoricamente. Faça uma estimativa para a média (quando existir). Se o seu IC para a média for muito estreito, você terá duas interpretações: ou teve alguma má sorte e sua amostra foi muito grudenta (chance prévia de 5% disso acontecer) ou seu intervalo cobre a média verdadeira (95% oportunidade a priori). Obviamente, o IC observado pode ser um desses dois, mas configuramos nosso cálculo para que esse último seja muito mais provável de ocorrer (ou seja, 95% de chance a priori) ... portanto, temos um alto grau de confiançaque nosso intervalo cobre a média, porque configuramos as coisas de maneira probabilística, e é assim. Assim, um IC de 95% não é um intervalo de probabilidade (como um intervalo de credibilidade bayesiano), mas mais como um "consultor de confiança" ... alguém que, estatisticamente, está certo 95% das vezes, por isso confiamos nas respostas deles, embora qualquer resposta em particular poderia muito bem estar errada.
Nos 95% dos casos em que abrange o parâmetro real, a largura informa algo sobre o intervalo de valores plausíveis dados os dados (ou seja, quão bem você pode limitar o valor verdadeiro), portanto, ele age como uma medida de precisão . Nos 5% de casos em que não ocorre, o IC é enganoso (já que a amostra é enganosa).
Então, a largura do IC de 95% indica precisão ... Eu diria que há uma chance de 95% (desde que a largura do seu IC seja finita positiva) ;-)
O que é um IC sensato?
Em resposta à postagem do autor original, revisei minha resposta para (a) levar em consideração que o exemplo de "amostra dividida" tinha um propósito muito específico e (b) para fornecer mais informações, conforme solicitado pelo comentarista:
Em um mundo ideal (freqüentista), todas as distribuições de amostras admitiriam uma estatística essencial que poderíamos usar para obter intervalos de confiança exatos. O que há de tão bom nas estatísticas centrais? Sua distribuição pode ser derivada sem conhecer o valor real do parâmetro sendo estimado! Nesses casos legais, temos uma distribuição exata de nossa estatística de amostra em relação ao parâmetro true (embora possa não ser gaussiano) sobre esse parâmetro.
Em outras palavras: conhecemos a distribuição de erros (ou alguma transformação dela).
É essa qualidade de alguns estimadores que nos permite formar intervalos de confiança sensatos. Esses intervalos não apenas satisfazem suas definições ... eles o fazem em virtude de serem derivados da distribuição real do erro de estimativa.
A distribuição gaussiana e a estatística Z associada são o exemplo canônico do uso de uma quantidade essencial para desenvolver um IC exato para a média. Existem mais exemplos esotéricos, mas esse geralmente é o que motiva a "teoria das grandes amostras", que é basicamente uma tentativa de aplicar a teoria por trás dos ICs gaussianos a distribuições que não admitem uma verdadeira quantidade essencial. Nesses casos, você lerá sobre quantidades aproximadamente pivotais ou assintoticamente pivotais (no tamanho da amostra) ou intervalos de confiança "aproximados" ... estes são baseados na teoria das probabilidades - especificamente, o fato de que a distribuição de erros para muitos MLEs se aproxima de uma distribuição normal.
Outra abordagem para gerar ICs sensíveis é "inverter" um teste de hipótese. A idéia é que um teste "bom" (por exemplo, UMP) resultará em um IC bom (leia-se: restrito) para uma determinada taxa de erro do tipo I. Eles não tendem a fornecer cobertura exata, mas fornecem cobertura de limite inferior (nota: a definição real de um X% -CI diz apenas que deve cobrir o parâmetro true pelo menos X% do tempo).
O uso de testes de hipóteses não requer diretamente uma quantidade crucial ou distribuição de erros - sua sensibilidade é derivada da sensibilidade do teste subjacente. Por exemplo, se tivéssemos um teste cuja região de rejeição tivesse comprimento 0 5% do tempo e comprimento infinito 95% do tempo, estaríamos de volta ao local em que estávamos com os ICs - mas é óbvio que esse teste não é condicional aos dados e, portanto, não fornecerá nenhuma informação sobre o parâmetro subjacente que está sendo testado.
Essa idéia mais ampla - de que uma estimativa de precisão deve estar condicionada aos dados, remonta a Fischer e à idéia de estatística auxiliar. Você pode ter certeza de que, se o resultado do seu teste ou procedimento de IC NÃO for condicionado pelos dados (ou seja, seu comportamento condicional é o mesmo que o comportamento incondicional), você terá um método questionável em suas mãos.
fonte
I think the precision fallacy is a true fallacy, but not necessarily one we should care about. It isn't even that hard to show it's a fallacy. Take an extreme example like the following: we have a sample{x1,x2,…,xn} from a normal(μ,σ2) distribution and wish to construct a confidence interval on μ , but instead of using the actual data we take our confidence interval to be either (−∞,∞) or {0} based on the flip of a biased coin. By using the right bias we can get any level of confidence we like, but obviously our interval "estimate" has no precision at all even if we end up with an interval that has zero width.
The reason why I don't think we should care about this apparent fallacy is that while it is true that there's no necessary connection between the width of a confidence interval and precision, there is an almost universal connection between standard errors and precision, and in most cases the width of a confidence interval is proportional to a standard error.
I also don't believe the author's example is a very good one. Whenever we do data analysis we can only estimate precision, so of course the two individuals will reach different conclusions. But if we have some privileged knowledge, such as knowing that both samples are from the same distribution, then we obviously shouldn't ignore it. Clearly we should pool the data and use the resulting estimate ofσ as our best guess. It seems to me this example is like the one above where we only equate confidence interval width with precision if we've allowed ourselves to stop thinking.
fonte
I think the demonstrable distinction between "confidence intervals" and "precision" (see answer from @dsaxton) is important because that distinction points out problems in common usage of both terms.
Quoting from Wikipedia:
One thus might argue that frequentist confidence intervals do represent a type of precision of a measurement scheme. If one repeats the same scheme, the 95% CI calculated for each repetition will contain the one true value of the parameter in 95% of the repetitions.
This, however, is not what many people want from a practical measure of precision. They want to know how close the measured value is to the true value. Frequentist confidence intervals do not strictly provide that measure of precision. Bayesian credible regions do.
Some of the confusion is that, in practical examples, frequentist confidence intervals and Bayesian credible regions "will more-or-less overlap". Sampling from a normal distribution, as in some comments on the OP, is such an example. That may also be the case in practice for some of the broader types of analyses that @Bey had in mind, based on approximations to standard errors in processes that have normal distributions in the limit.
If you know that you are in such a situation, then there may be no practical danger in interpreting a particular 95% CI, from a single implementation of a measurement scheme, as having a 95% probability of containing the true value. That interpretation of confidence intervals, however, is not from frequentist statistics, for which the true value either is or is not within that particular interval.
If confidence intervals and credible regions differ markedly, that Bayesian-like interpretation of frequentist confidence intervals can be misleading or wrong, as the paper linked above and earlier literature referenced therein demonstrate. Yes, "common sense" might help avoid such misinterpretations, but in my experience "common sense" isn't so common.
Other CrossValidated pages contain much more information on confidence intervals and the differences between confidence intervals and credible regions. Links from those particular pages are also highly informative.
fonte
I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
.@Bey has it. There is no necessary connection between scores and performance nor price and quality nor smell and taste. Yet the one usually informs about the other.
One can prove by induction that one cannot give a pop quiz. On close examination this means one cannot guarantee the quiz is a surprise. Yet most of the time it will be.
It sounds like Morey et al show that there exist cases where the width is uninformative. Although that is sufficient to claim "There is no necessary connection between the precision of an estimate and the size of a confidence interval", it is not sufficient to further conclude that CIs generally contain no information about precision. Merely that they are not guaranteed to do so.
(Insufficient points to + @Bey's answer. )
fonte