O que dizem os intervalos de confiança sobre precisão (se houver)?

31

Morey et al (2015) argumentam que os intervalos de confiança são enganosos e existem vários vieses relacionados à compreensão deles. Entre outros, eles descrevem a falácia da precisão da seguinte maneira:

A falácia da precisão
A largura de um intervalo de confiança indica a precisão do nosso conhecimento sobre o parâmetro. Intervalos de confiança estreitos mostram conhecimento preciso, enquanto erros de confiança amplos mostram conhecimento impreciso.

Não há conexão necessária entre a precisão de uma estimativa e o tamanho de um intervalo de confiança. Uma maneira de ver isso é imaginar dois pesquisadores - um pesquisador sênior e um estudante de doutorado - analisando dados de participantes de um experimento. Como um exercício para o benefício do aluno de doutorado, o pesquisador sênior decide dividir aleatoriamente os participantes em dois conjuntos de para que cada um possa analisar separadamente metade do conjunto de dados. Em uma reunião posterior, os dois compartilham um com o outro de seus alunos intervalos de confiança para a média. O IC do aluno de doutorado é e o IC do pesquisador sênior é .5025t95%52±295%53±4

O pesquisador sênior observa que seus resultados são amplamente consistentes e que eles poderiam usar a média ponderada de suas duas estimativas pontuais respectivas, , como uma estimativa geral da média verdadeira.52.5

A aluna de doutorado, no entanto, argumenta que seus dois meios não devem ser uniformemente ponderados: ela observa que seu IC é metade da largura e argumenta que sua estimativa é mais precisa e, portanto, deve ser mais ponderada. Seu orientador observa que isso não pode estar correto, porque a estimativa de ponderar desigualmente as duas médias seria diferente da estimativa de analisar o conjunto de dados completo, que deve ser . O erro do aluno de doutorado é supor que os ICs indiquem diretamente a precisão pós-dados.52.5

O exemplo acima parece ser enganoso. Se dividirmos aleatoriamente uma amostra ao meio, em duas amostras, esperamos que a média da amostra e os erros padrão estejam próximos. Nesse caso, não deve haver diferença entre o uso da média ponderada (por exemplo, ponderada por erros inversos) e a média aritmética simples. No entanto, se as estimativas diferirem e os erros em uma das amostras forem visivelmente maiores, isso poderá sugerir "problemas" nessa amostra.

Obviamente, no exemplo acima, os tamanhos das amostras são os mesmos, de modo que "juntar de volta" os dados calculando a média é o mesmo que calcular a média da amostra inteira. O problema é que o exemplo inteiro segue a lógica mal definida de que a amostra é primeiro dividida em partes e depois juntada novamente para a estimativa final.

O exemplo pode ser reformulado para levar exatamente à conclusão oposta:

O pesquisador e o aluno decidiram dividir o conjunto de dados em duas partes e analisá-los independentemente. Depois, eles compararam suas estimativas e parecia que a amostra significa que eles calculavam eram muito diferentes, além disso, o erro padrão da estimativa do aluno era muito maior. O aluno temia que isso pudesse sugerir problemas com a precisão de sua estimativa, mas o pesquisador sugeriu que não há conexão entre intervalos de confiança e precisão; portanto, ambas as estimativas são igualmente confiáveis ​​e podem publicar qualquer uma delas, escolhida aleatoriamente, como sua estimativa final.

Em termos mais formais, os intervalos de confiança "padrão", como o de Student , são baseados em errost

x¯±c×SE(x)

onde é alguma constante. Nesse caso, eles estão diretamente relacionados à precisão, não são ..?c

Então, minha pergunta é:
a falácia da precisão é realmente uma falácia? O que dizem os intervalos de confiança sobre precisão?


Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015). A falácia de confiar em intervalos de confiança. Boletim Psiconômico e Revisão, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/

Tim
fonte
2
Suponho que se a precisão é definida como recíproca da variação, a largura desses ICs reflete apenas uma estimativa da precisão. Por mais que a largura de um intervalo credível bayesiano para a média refletisse incerteza sobre a precisão.
Scortchi - Restabelece Monica
@ Scortchi, então essa é outra maneira de dizer que os métodos frequentistas não são confiáveis ​​em geral ..?
Tim
7
Eu diria que este é um arenque vermelho. Acabei de simular 10.000 experimentos, em cada um tirando 50 amostras de uma distribuição normal com média 52,5 e DP 7,5 (para que o SE de subamostras de tamanho 25 fosse aproximadamente , produzindo ICs de±3). Dividi essas amostras em duas e verifiquei com que frequência os ICs diferiam em 2 ou mais. Isso aconteceu em apenas 6 dos 10.000 casos. Qualquer pessoa que observe ICs tão diferentes prefere suspeitar que algo tenha quebrado na seleção de subamostras. 7.5/25=5±3
S. Kolassa - Restabelece Monica 30/03
@StephanKolassa eu fiz exatamente a mesma simulação que levam às mesmas conclusões - é assim que a questão surgiu :)
Tim
2
@ Tim: Eu realmente não sei o que eles estão tentando obter: se a verdadeira precisão da estimativa da média é concebida como uma função de um valor de parâmetro desconhecido, comum às duas subamostras, então eu não pense que alguém se importaria em admitir que a diferença na largura desses dois ICs não reflete, portanto, uma diferença na precisão das estimativas (a menos que duvidem do procedimento de subamostragem). Considerando as propriedades de cobertura dos ICs condicionadas ao coeficiente de variação observado, pode ter sido uma tática melhor.
Scortchi - Restabelece Monica

Respostas:

16

No artigo, demonstramos a falácia da precisão de várias maneiras. O que você está perguntando - o primeiro no artigo - O exemplo pretende demonstrar que um "IC = precisão" simplista está errado. Isso não quer dizer que qualquer freqüentista, bayesiano ou verossimilhança competente ficaria confuso com isso.

Aqui está outra maneira de ver o que está acontecendo: Se nos informassem os ICs, ainda não conseguiríamos combinar as informações nas amostras; seria preciso saber , e de que poderíamos decompor os ICs no ˉ x e s 2 , e, assim, combinar as duas amostras corretamente. A razão pela qual temos que fazer isso é que as informações no IC são marginais sobre o parâmetro incômodo. Devemos levar em conta que ambas as amostras contêm informações sobre o mesmo parâmetro incômodo. Isso envolve calcular a computação dos dois valores s 2 , combinando-os para obter uma estimativa geral de σ 2 e , em seguida, calcular um novo IC.Nx¯s2s2σ2

Quanto a outras demonstrações da falácia da precisão, consulte

  • os vários ICs na seção Welch (1939) (o submarino), um dos quais inclui o IC "trivial" mencionado por @dsaxton acima. Neste exemplo, o IC ideal não rastreia a largura da probabilidade e existem vários outros exemplos de ICs que também não.
  • O fato de que os ICs - mesmo os ICs "bons" podem estar vazios, "falsamente", indicando precisão infinita

A resposta para o dilema é que "precisão", pelo menos da maneira que os advogados de IC pensam sobre isso (uma avaliação pós-experimental de quão "próxima" é uma estimativa de um parâmetro) simplesmente não é uma característica que os intervalos de confiança geralmente têm , e eles não foram feitos para. Procedimentos particulares de confiança podem ... ou não.

Veja também a discussão aqui: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591

richarddmorey
fonte
7
(+1) Ótimo ouvir o autor real! Concordo que os ICs têm várias questões filosóficas, assim como TODAS as formas de inferência (apenas questões diferentes ) ... Gosto de como você apontou que é o procedimento de confiança específico que você precisa considerar, e não apenas que é um IC nesse momento. e esse nível.
4
(+1) Obrigado pela sua resposta! Concordo com os argumentos que você declara em seu artigo que os ICs não precisam dizer nada sobre precisão, no entanto, chamar isso de falácia dá a impressão de que você indica que eles não dizem nada sobre precisão - e isso não é o mesmo ... Além disso: na sua opinião, a "falácia da precisão" é uma questão de análise da vida real ..? Concordo que interpretando mal CI de é, mas neste caso, eu não tenho tanta certeza ...
Tim
2
O impacto da "vida real" é difícil de quantificar, principalmente porque é possível falar sobre o impacto em um cenário de análise específico ou em um campo. Por apenas calcular um IC em um gaussiano, a falácia não é muito perigosa. Mas considere a lista de citações na p117 (o parágrafo inicia "Com que frequência o procedimento de confiança de Steiger ..."). Os intervalos nesses artigos publicados provavelmente são "muito" estreitos. A falácia tem outros impactos: falta de rigor nos geradores de novos procedimentos de IC (verifique qualquer documento com um novo IC), relutância dos analistas em se afastar das suposições gaussianas quando necessário e outras.
Richarddmorey 30/03
Estou atormentado por essas parênteses. O que é esse "submarino"?
Superbest
1
θ
13

Antes de tudo, vamos nos limitar aos procedimentos de IC que produzem apenas intervalos com larguras finitas estritamente positivas (para evitar casos patológicos).

Nesse caso, a relação entre precisão e largura do IC pode ser demonstrada teoricamente. Faça uma estimativa para a média (quando existir). Se o seu IC para a média for muito estreito, você terá duas interpretações: ou teve alguma má sorte e sua amostra foi muito grudenta (chance prévia de 5% disso acontecer) ou seu intervalo cobre a média verdadeira (95% oportunidade a priori). Obviamente, o IC observado pode ser um desses dois, mas configuramos nosso cálculo para que esse último seja muito mais provável de ocorrer (ou seja, 95% de chance a priori) ... portanto, temos um alto grau de confiançaque nosso intervalo cobre a média, porque configuramos as coisas de maneira probabilística, e é assim. Assim, um IC de 95% não é um intervalo de probabilidade (como um intervalo de credibilidade bayesiano), mas mais como um "consultor de confiança" ... alguém que, estatisticamente, está certo 95% das vezes, por isso confiamos nas respostas deles, embora qualquer resposta em particular poderia muito bem estar errada.

Nos 95% dos casos em que abrange o parâmetro real, a largura informa algo sobre o intervalo de valores plausíveis dados os dados (ou seja, quão bem você pode limitar o valor verdadeiro), portanto, ele age como uma medida de precisão . Nos 5% de casos em que não ocorre, o IC é enganoso (já que a amostra é enganosa).

Então, a largura do IC de 95% indica precisão ... Eu diria que há uma chance de 95% (desde que a largura do seu IC seja finita positiva) ;-)

O que é um IC sensato?

Em resposta à postagem do autor original, revisei minha resposta para (a) levar em consideração que o exemplo de "amostra dividida" tinha um propósito muito específico e (b) para fornecer mais informações, conforme solicitado pelo comentarista:

Em um mundo ideal (freqüentista), todas as distribuições de amostras admitiriam uma estatística essencial que poderíamos usar para obter intervalos de confiança exatos. O que há de tão bom nas estatísticas centrais? Sua distribuição pode ser derivada sem conhecer o valor real do parâmetro sendo estimado! Nesses casos legais, temos uma distribuição exata de nossa estatística de amostra em relação ao parâmetro true (embora possa não ser gaussiano) sobre esse parâmetro.

Em outras palavras: conhecemos a distribuição de erros (ou alguma transformação dela).

É essa qualidade de alguns estimadores que nos permite formar intervalos de confiança sensatos. Esses intervalos não apenas satisfazem suas definições ... eles o fazem em virtude de serem derivados da distribuição real do erro de estimativa.

A distribuição gaussiana e a estatística Z associada são o exemplo canônico do uso de uma quantidade essencial para desenvolver um IC exato para a média. Existem mais exemplos esotéricos, mas esse geralmente é o que motiva a "teoria das grandes amostras", que é basicamente uma tentativa de aplicar a teoria por trás dos ICs gaussianos a distribuições que não admitem uma verdadeira quantidade essencial. Nesses casos, você lerá sobre quantidades aproximadamente pivotais ou assintoticamente pivotais (no tamanho da amostra) ou intervalos de confiança "aproximados" ... estes são baseados na teoria das probabilidades - especificamente, o fato de que a distribuição de erros para muitos MLEs se aproxima de uma distribuição normal.

Outra abordagem para gerar ICs sensíveis é "inverter" um teste de hipótese. A idéia é que um teste "bom" (por exemplo, UMP) resultará em um IC bom (leia-se: restrito) para uma determinada taxa de erro do tipo I. Eles não tendem a fornecer cobertura exata, mas fornecem cobertura de limite inferior (nota: a definição real de um X% -CI diz apenas que deve cobrir o parâmetro true pelo menos X% do tempo).

O uso de testes de hipóteses não requer diretamente uma quantidade crucial ou distribuição de erros - sua sensibilidade é derivada da sensibilidade do teste subjacente. Por exemplo, se tivéssemos um teste cuja região de rejeição tivesse comprimento 0 5% do tempo e comprimento infinito 95% do tempo, estaríamos de volta ao local em que estávamos com os ICs - mas é óbvio que esse teste não é condicional aos dados e, portanto, não fornecerá nenhuma informação sobre o parâmetro subjacente que está sendo testado.

Essa idéia mais ampla - de que uma estimativa de precisão deve estar condicionada aos dados, remonta a Fischer e à idéia de estatística auxiliar. Você pode ter certeza de que, se o resultado do seu teste ou procedimento de IC NÃO for condicionado pelos dados (ou seja, seu comportamento condicional é o mesmo que o comportamento incondicional), você terá um método questionável em suas mãos.


fonte
2
Seria ótimo se você pudesse elaborar o que adicionou em uma "Nota". Acho que é o cerne de toda a discussão: é possível conceber procedimentos freqüentes muito estranhos, mas válidos, para a construção de ICs sob os quais a largura do IC não tem relação alguma com precisão alguma. Portanto, pode-se argumentar, como Morey et al. fazer, que os ICs são enganados em princípio. Concordo com você que os procedimentos de IC comumente usados ​​são mais razoáveis ​​do que isso, mas é preciso ser claro sobre o que os torna tais.
Ameba diz Reinstate Monica
@amoeba acrescentei mais algumas explicações sobre por que nem todos os ICs são criados iguais ... a idéia principal é ancillarity, o segundo é o papel de uma distribuição de erro (ou uma aproximação a ele)
Obrigado pela atualização. Uma coisa que ainda não acho muito clara em sua resposta é que, no primeiro parágrafo, você não diz nada sobre a largura do IC; você está apenas falando sobre isso, contendo ou não o parâmetro verdadeiro da população. Tudo o que existe é correto, mesmo em casos "patológicos". Então você diz que sim, a largura indica precisão, mas você não forneceu nenhum argumento para isso (nesse ponto). Na discussão posterior, você explica mais.
Ameba diz Reinstate Monica
@amoeba Acho que meu post poderia ter um pouco mais de formatação. A lógica básica é essa (supondo que estamos usando um procedimento de IC "razoável", como descrevi): há uma chance a priori de 95% de que o intervalo contenha o parâmetro true. Depois de coletar dados, temos nosso intervalo real (largura finita, diferente de zero). Se ele contém o parâmetro true, a largura expressa o intervalo de valores plausíveis que poderia ser, portanto, a largura limita o intervalo do parâmetro. NO ENTANTO, nos 5% dos casos em que o intervalo não contém o valor, o intervalo é enganoso.
@amoeba updated post to better emphasize the connection between CI width and precision.
8

I think the precision fallacy is a true fallacy, but not necessarily one we should care about. It isn't even that hard to show it's a fallacy. Take an extreme example like the following: we have a sample {x1,x2,,xn} from a normal(μ,σ2) distribution and wish to construct a confidence interval on μ, but instead of using the actual data we take our confidence interval to be either (,) or {0} based on the flip of a biased coin. By using the right bias we can get any level of confidence we like, but obviously our interval "estimate" has no precision at all even if we end up with an interval that has zero width.

The reason why I don't think we should care about this apparent fallacy is that while it is true that there's no necessary connection between the width of a confidence interval and precision, there is an almost universal connection between standard errors and precision, and in most cases the width of a confidence interval is proportional to a standard error.

I also don't believe the author's example is a very good one. Whenever we do data analysis we can only estimate precision, so of course the two individuals will reach different conclusions. But if we have some privileged knowledge, such as knowing that both samples are from the same distribution, then we obviously shouldn't ignore it. Clearly we should pool the data and use the resulting estimate of σ as our best guess. It seems to me this example is like the one above where we only equate confidence interval width with precision if we've allowed ourselves to stop thinking.

dsaxton
fonte
Good point about the randomly infinite CIs...definitely show that confidence is a different concept than precision. I probably should have caveated my response by saying that I am assuming a likelihood-based CI, where width is related to curvature of log likelihood, which is an approximation of standard error...your post points out that there are CIs that technically achieve coverage but in a very counterintuitive way.
A related issue (albeit very interesting one) is that of relevant subsets for a CI...for example, if you condition on ancillary statistics, your CI coverage may change (a case in point is that the conditional coverage of a t-interval changes based on the variability of your sample). Here's the link to the paper: jstor.org/stable/2242024?seq=1#page_scan_tab_contents
@Bey There's another less extreme example from this paper involving a submarine: webfiles.uci.edu/mdlee/fundamentalError.pdf. It's an interesting one, but again appears to be a case of an interpretation that no intelligent person would make.
dsaxton
Agreed....can't leave common sense at the door with stats...even in Machine Learning (somewhat of a misnomer)
1
@richarddmorey: Okay, I see. Then it was just an unfortunate formulation! I did not take it out of the context on purpose; I honestly read this sentence as a summary and generalization to any situation (not realizing that "in that example" was assumed in that sentence). Consider leaving a clarification comment in that other thread with my accusation (that already got some upvotes).
amoeba says Reinstate Monica
4

I think the demonstrable distinction between "confidence intervals" and "precision" (see answer from @dsaxton) is important because that distinction points out problems in common usage of both terms.

Quoting from Wikipedia:

The precision of a measurement system, related to reproducibility and repeatability, is the degree to which repeated measurements under unchanged conditions show the same results.

One thus might argue that frequentist confidence intervals do represent a type of precision of a measurement scheme. If one repeats the same scheme, the 95% CI calculated for each repetition will contain the one true value of the parameter in 95% of the repetitions.

This, however, is not what many people want from a practical measure of precision. They want to know how close the measured value is to the true value. Frequentist confidence intervals do not strictly provide that measure of precision. Bayesian credible regions do.

Some of the confusion is that, in practical examples, frequentist confidence intervals and Bayesian credible regions "will more-or-less overlap". Sampling from a normal distribution, as in some comments on the OP, is such an example. That may also be the case in practice for some of the broader types of analyses that @Bey had in mind, based on approximations to standard errors in processes that have normal distributions in the limit.

If you know that you are in such a situation, then there may be no practical danger in interpreting a particular 95% CI, from a single implementation of a measurement scheme, as having a 95% probability of containing the true value. That interpretation of confidence intervals, however, is not from frequentist statistics, for which the true value either is or is not within that particular interval.

If confidence intervals and credible regions differ markedly, that Bayesian-like interpretation of frequentist confidence intervals can be misleading or wrong, as the paper linked above and earlier literature referenced therein demonstrate. Yes, "common sense" might help avoid such misinterpretations, but in my experience "common sense" isn't so common.

Other CrossValidated pages contain much more information on confidence intervals and the differences between confidence intervals and credible regions. Links from those particular pages are also highly informative.

EdM
fonte
This is a good point....I think the closest think to the common interpretation of "precision" is more like RMS error. An unbiased but highly variable estimate is seen as no better than a low-variability but highly biased estimator...both cannot be relied upon to give an estimate close to the true value.
+1, but I am not sure I share your pessimistic view on "common sense". There is a great quote from Jeffreys about "common sense" in frequentist statistics: I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense.
amoeba says Reinstate Monica
@amoeba consider Laplace's claim that "Probability theory is nothing but common sense reduced to calculation." The efforts devoted since then to probability theory at least show that the implications of common sense aren't always immediately obvious.
EdM
@amoeba: Fisher rejected CIs, and identifying Fisher as freq-ist. is misleading. His logic of intervals (fiducial) was similar to obj. Bayes, and he identifies probability with rational uncertainty. He says this: "It is sometimes asserted that the fiducial method generally leads to the same results as the method of [CIs]. It is difficult to understand how this can be so, since it has been firmly laid down that the method of confidence intervals does not lead to probability statements about the parameters of the real world, whereas the fiducial argument exists for this purpose." (Fisher, 1959)
richarddmorey
@richard, Thanks for the clarification. Fisher is known to have said contradictory things throughout his long career and to have changed his opinion a couple of times. I am not really familiar with his fiducial theory so cannot comment on that. My unconscious assumption was that Jeffreys in that quote was referring to the Fisher's "frequentist period" but I have no evidence for that. In my (limited!) experience, nobody ever uses fiducial inference. Nobody. Ever. Whereas frequentist techniques are used all the time and many go back to Fisher. Hence the association existing in my mind.
amoeba says Reinstate Monica
1

@Bey has it. There is no necessary connection between scores and performance nor price and quality nor smell and taste. Yet the one usually informs about the other.

One can prove by induction that one cannot give a pop quiz. On close examination this means one cannot guarantee the quiz is a surprise. Yet most of the time it will be.

It sounds like Morey et al show that there exist cases where the width is uninformative. Although that is sufficient to claim "There is no necessary connection between the precision of an estimate and the size of a confidence interval", it is not sufficient to further conclude that CIs generally contain no information about precision. Merely that they are not guaranteed to do so.

(Insufficient points to + @Bey's answer. )

ctwardy
fonte