Por que essas declarações não seguem logicamente a partir de um IC de 95% para a média?

26

Eu tenho lido o artigo de Hoekstra et al., De 2014, sobre "Interpretação robusta dos intervalos de confiança", que baixei do site da Wagenmakers .

Na penúltima página, a seguinte imagem aparece.

Questionário

Segundo os autores, False é a resposta correta para todas essas afirmações. Não sei muito bem por que as declarações são falsas e, até onde sei, o resto do artigo não tenta explicar isso.

Acredito que 1-2 e 4 não estão corretos porque afirmam algo sobre o valor provável da média verdadeira, quando a média verdadeira tem um valor definido que é desconhecido. Esta é uma distinção convincente?

Em relação a 3, entendo que não se pretende fazer afirmações sobre a probabilidade de a hipótese nula estar incorreta, embora não tenha tanta certeza do motivo.

Da mesma forma, 6 não pode ser verdade porque implica que a verdadeira média está mudando de experimento para experimento.

O que eu realmente não entendo é 5. Por que esse erro está errado? Se eu tenho um processo que 95% do tempo produz ICs que contêm a média verdadeira, por que não devo dizer que tenho 95% de confiança de que o valor da população está entre 0,1 e 0,4? É porque podemos ter algumas informações especiais sobre a amostra que acabamos de tirar que nos fazem pensar que é provável que seja um dos 5% que não contém a verdadeira média? Por exemplo, 0,13 é incluído no intervalo de confiança e, por algum motivo, 0,13 não é considerado um valor plausível em algum contexto específico de pesquisa, por exemplo, porque esse valor entraria em conflito com a teoria anterior.

O que significa confiança neste contexto, afinal?

user1205901 - Restabelecer Monica
fonte
2
Intimamente relacionado: por que um IC de 95% não implica uma chance de 95% de conter a média?
gung - Restabelece Monica

Respostas:

11

O próprio significado da questão (5) depende de alguma interpretação não revelada de "confiança". Pesquisei o artigo com cuidado e não encontrei nenhuma tentativa de definir "confiança" ou o que isso poderia significar neste contexto. A explicação do artigo sobre sua resposta à pergunta (5) é

"... [menciona os limites do IC, enquanto ... um IC pode ser usado para avaliar apenas o procedimento e não um intervalo específico".

Isso é ilusório e enganoso. Primeiro, se você não pode avaliar o resultado do procedimento, qual a utilidade do procedimento em primeiro lugar? Segundo, a afirmação na pergunta não é sobre o procedimento, mas sobre a "confiança" do leitor em seus resultados.

Os autores se defendem:

"Antes de continuar, é importante recuperar a definição correta de um IC. Um IC é um intervalo numérico construído em torno da estimativa de um parâmetro. Esse intervalo, no entanto, não indica diretamente uma propriedade do parâmetro; em vez disso, indica uma propriedade do procedimento, como é típico para uma técnica frequentista ".

O viés deles surge na última frase: "técnica frequentista" (escrita, talvez, com um escárnio implícito). Embora essa caracterização esteja correta, ela é criticamente incompleta. Ele não percebe que um intervalo de confiança também é uma propriedade dos métodos experimentais (como as amostras foram obtidas e medidas) e, mais importante, da própria natureza. Essa é a única razão pela qual alguém estaria interessado em seu valor.

Recentemente, tive o prazer de ler Estatística Circular em Biologia, de Edward Batschelet (Academic Press, 1981). Batschelet escreve de maneira clara e direta, em um estilo direcionado ao cientista que trabalha. Aqui está o que ele diz sobre intervalos de confiança:

" Uma estimativa de um parâmetro sem indicação de desvios causados ​​por flutuações aleatórias tem pouco valor científico. ...

"Enquanto o parâmetro a ser estimado é um número fixo, os limites de confiança são determinados pela amostra. Eles são estatísticos e, portanto, dependem das flutuações do acaso. Diferentes amostras retiradas da mesma população levam a diferentes intervalos de confiança."

[A ênfase está no original, nas páginas 84-85.]

Observe a diferença de ênfase: enquanto o artigo em questão se concentra no procedimento, Batschelet se concentra na amostra e, especificamente, no que pode revelar sobre o parâmetro e em quanto essa informação pode ser afetada por "flutuações ao acaso". Acho essa abordagem científica descaradamente prática muito mais construtiva, esclarecedora e - em última análise - útil.

Uma caracterização mais completa dos intervalos de confiança do que o oferecido pelo artigo teria, portanto, que proceder assim:

Um IC é um intervalo numérico construído em torno da estimativa de um parâmetro. Qualquer pessoa que concorda com as suposições subjacentes à construção do IC é justificada em dizer que está confiante de que o parâmetro está dentro do intervalo: esse é o significado de "confiante". Esse significado está amplamente de acordo com os significados não técnicos convencionais de confiança, porque em muitas repetições do experimento (independentemente de elas ocorrerem ou não) o IC, embora varie, deve conter o parâmetro na maioria das vezes.

Nesse sentido mais completo, mais convencional e mais construtivo de "confiança", a resposta à pergunta (5) é verdadeira.

whuber
fonte
2
Vale ressaltar que a abordagem de Batschelet parece descartar certos tipos de intervalos de confiança que fazem com que os leitores pensem em pausa, como ICs que podem estar vazios. Esse IC dificilmente capturaria a idéia de "indicações de desvios causados ​​por flutuações ao acaso". Isso sugere que talvez a definição padrão do intervalo de confiança não atinja exatamente o que se pretende. Independentemente disso, na ausência de qualquer indicação clara do que "confiança" significa na pergunta (5), temos que desconsiderar as conclusões tiradas pelos autores com base nas respostas que chegaram a essa pergunta.
whuber
Eu discordo que 5 esteja correto sob sua definição refinada de intervalo de confiança. O IC deve basear-se em uma estatística suficiente; caso contrário, você pode criar ICs que tenham uma subclasse de casos "ruim" e "bom", reconhecível na amostra que você possui, de modo que a cobertura nessas classes seja muito baixa ou muito alta. O exemplo mais básico é uma amostra iid do tamanho 2 de um . A média da amostra não é suficiente para portanto a cobertura do IC varia dependendo da amostra específica que você obtém. μyEucumavocêchy(μ,1 1)μ
probabilityislogic
... continua ... mesmo que a cobertura média de longo prazo seja alcançada, a cobertura em uma classe específica de amostras não será.
probabilityislogic
10

Questões 1-2, 4: na análise freqüentista, a média verdadeira não é uma variável aleatória, portanto, essas probabilidades não são definidas, enquanto na análise bayesiana as probabilidades dependeriam do anterior.

Pergunta 3: Por exemplo, considere um caso em que tenhamos certeza de que ainda seria possível obter esses resultados, mas bastante irracional dizer que a hipótese nula é "improvável" verdadeira. Obtivemos dados que dificilmente ocorrerão se a hipótese nula for verdadeira, mas isso não implica que é improvável que a hipótese nula seja verdadeira.

Pergunta 5: Isso é um pouco questionável, pois depende da definição de "podemos estar confiantes em%". Se definirmos a afirmação como a coisa que é inferida a partir de p% de intervalos de confiança, a afirmação está por definição correta. O argumento pró-bayesiano típico afirma que as pessoas tendem a interpretar essas afirmações intuitivamente para significar "a probabilidade é de p%", o que seria falso (compare as respostas a 1-2,4).

Pergunta 6: Sua explicação "implica que a verdadeira média está mudando de experimento para experimento" está exatamente correta.

O artigo foi discutido recentemente no blog de Andrew Gelman ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Por exemplo, a questão referente à interpretação da afirmação na questão 5 é discutida nos comentários.

Juho Kokkala
fonte
11
Então, se alguém voltasse e substituísse todas as instâncias de "média verdadeira" por "melhor estimativa para a média verdadeira", as declarações se tornariam corretas?
precisa saber é o seguinte
@Superbest No. Se considerarmos a "melhor estimativa com base nesses dados", é uma constante conhecida (desde que a melhor seja bem definida). Se considerarmos a "melhor estimativa de uma amostra futura", não sabemos como isso varia, porque não sabemos a verdadeira média.
Juho Kokkala
Isso não é exatamente uma refutação ao comentário acima, mas devo salientar que, de fato, a "melhor estimativa" implica um número real, e não uma distribuição. Com um IC, talvez se possa falar sobre "a distribuição de onde a verdadeira média pode estar, dados esses dados".
Superbest
11
@Super Esse é exatamente o mal-entendido da CI que está sendo abordado no artigo. Em particular, a verdadeira média é um número ; não tem distribuição. Veja os dois primeiros hits em uma pesquisa no site por intervalo de confiança para discussão adicional.
whuber
11
@ super, "intervalo credível" chegaria perto.
whuber
8

Sem qualquer definição formal do que significa estar "95% confiante", que justificativa existe para rotular # 5 verdadeiro ou falso? Sem dúvida, um leigo o interpretaria mal como sinônimo de uma probabilidade de 95% da média nesse intervalo: mas algumas pessoas o usam no sentido de ter usado um método de geração de intervalo cujos intervalos contêm a verdadeira média em 95% das vezes, precisamente para evitar falar sobre a distribuição de probabilidade de um parâmetro desconhecido; o que parece uma extensão bastante natural da terminologia.

A estrutura semelhante da afirmação anterior (nº 4) pode ter incentivado os entrevistados a tentar fazer uma distinção entre "podemos estar 95% confiantes" e "existe uma probabilidade de 95%", mesmo que eles não tivessem entendido a idéia antes. Eu esperava que esse truque levasse o número 5 a ter a maior proporção de concordância - olhando para o artigo, descobri que estava errado, mas notei que pelo menos 80% liam o questionário em uma versão holandesa, o que talvez devesse levantar questões sobre a pertinência da tradução para o inglês.

Scortchi - Restabelecer Monica
fonte
4

Aqui está a definição de um intervalo de confiança, no Dicionário de Estatística da BS Everitt :

"Um intervalo de valores, calculado a partir das observações da amostra, que se acredita, com uma certa probabilidade, conter o valor verdadeiro do parâmetro. Um IC de 95%, por exemplo, implica que o processo de estimativa foi repetido várias vezes, depois 95% dos intervalos calculados deve conter o valor verdadeiro do parâmetro. Observe que o nível de probabilidade declarado se refere às propriedades do intervalo e não ao próprio parâmetro, que não é considerado uma variável aleatória "

Um equívoco muito comum é confundir o significado de um intervalo de confiança com o de um intervalo confiável , também conhecido como "intervalo de confiança bayesiano", que faz declarações semelhantes às das perguntas.

Ouvi dizer que os intervalos de confiança geralmente são semelhantes aos intervalos credíveis derivados de um anterior não informativo, mas isso me foi contado anedoticamente (embora por um cara que eu respeito muito), e não tenho detalhes ou citação.

Peter Flom - Restabelece Monica
fonte
Intervalos de confiança de papel de Jaynes 1976 versus intervalos bayesianos. Isso é pelo menos uma soure credível. Há também os anteriores de referência de Berger e Bernardo. Sério, você nunca ouviu falar disso?
probabilityislogic
2

Em relação a intuição para a falsidade da questão 5, eu obter a seguinte discussão sobre este tema a partir de aqui

É correto dizer que há uma chance de 95% de que o intervalo de confiança que você calculou contenha a verdadeira média da população. Não é correto dizer que há uma chance de 95% de que a média da população esteja dentro do intervalo.

Qual é a diferença? A média da população tem um valor. Você não sabe o que é (a menos que esteja fazendo simulações), mas ele tem um valor. Se você repetisse a experiência, esse valor não mudaria (e você ainda não saberia o que é). Portanto, não é estritamente correto perguntar sobre a probabilidade de que a média da população esteja dentro de um determinado intervalo. Por outro lado, o intervalo de confiança que você calcula depende dos dados que você coletou. Se você repetisse o experimento, seu intervalo de confiança quase certamente seria diferente. Portanto, não há problema em perguntar sobre a probabilidade de o intervalo conter a média da população.

Agora, às suas perguntas específicas sobre 5. Por que está errado ...

  1. É porque podemos ter algumas informações especiais sobre a amostra que acabamos de tirar que nos fazem pensar que é provável que seja um dos 5% que não contém a verdadeira média? Não, acho que é porque a média verdadeira não é uma variável aleatória, mas o intervalo de confiança é uma função dos dados.
  2. 100(1 1-α)100(1 1-α)

Como uma observação lateral (mencionada em outras respostas a essa pergunta), um intervalo confiável , um conceito das estatísticas bayesianas, prevê que o valor real do parâmetro tem uma probabilidade particular de estar no intervalo de confiança, dados os dados realmente obtidos. Talvez você possa obter mais informações sobre isso no blog de Gelman.

Deathkill14
fonte
5
"O intervalo contém o valor verdadeiro" e "o valor verdadeiro está dentro do intervalo" significa exatamente a mesma coisa. É mais útil pensar em termos do primeiro, mas não faz muito sentido dizer que um está correto e o outro incorreto.
David Richerby