Intervalo de confiança e probabilidade - onde está o erro nesta declaração?

11

Se alguém fizer uma declaração como abaixo:

"No geral, os não fumantes expostos à fumaça ambiental tiveram um risco relativo de doença cardíaca coronária de 1,25 (intervalo de confiança de 95%, 1,17 a 1,32) em comparação com os não fumantes não expostos à fumaça".

Qual é o risco relativo para a população como um todo? Quantas coisas estão relacionadas à doença cardíaca coronária? Do grande número de coisas que podem ser testadas, muito poucas estão realmente conectadas a doenças cardíacas coronárias, de modo que a chance de qualquer coisa escolhida aleatoriamente ser conectada é muito pequena. Assim, podemos dizer que o risco relativo para a população é 1. Mas o intervalo citado não contém o valor 1. Portanto, na verdade, existe uma conexão entre as duas coisas, cuja probabilidade é muito pequena ou essa é uma das seguintes: os 5% de intervalos que não contêm o parâmetro Como o último é muito mais provável que o primeiro, é o que devemos assumir. Portanto, a conclusão apropriada é que o conjunto de dados era quase certamente atípico da população,

Obviamente, se há alguma base para supor que mais de 5% das coisas estão ligadas a doenças cardíacas nas coronárias, pode haver alguma evidência na estatística para apoiar a sugestão de que a fumaça ambiental seja uma delas. O senso comum sugere que isso é improvável.

Qual é o erro no seu raciocínio (como todas as organizações de saúde concordam que há literatura significativa sobre os efeitos prejudiciais do tabagismo passivo)? É por causa da premissa de que "do grande número de coisas que podem ser testadas, muito poucas estão realmente ligadas a doenças cardíacas nas coronárias"? Essa frase pode ser verdadeira para qualquer fator escolhido aleatoriamente (ou seja, quantos cães uma pessoa possui com risco de doença arterial coronariana), mas a probabilidade a priori é muito maior para tabagismo passivo e doença cardíaca coronária do que apenas para "qualquer fator aleatório" .

Esse é o raciocínio correto? Ou há algo mais?

BYS2
fonte
O texto citado parece ... bem, como uma citação. De onde é? :)
MånsT
haha sim, é uma citação, da wikipedia ... alguém adicionou isso ao artigo por "intervalo de confiança". Estou tentando removê-lo porque isso é claramente incorreto, mas o cara se recusa, então eu preciso de um motivo matematicamente sólido, em vez de apenas "isso está claramente errado" .. embora eu tenha algumas idéias, eu queria saber se alguém poderia explicar exatamente quais erros estão sendo cometidos aqui. Porque se isso fosse correto, então muitos estudos pode ser refutada por motivos semelhantes
BYS2
3
Se se arrastar um pouco, vou me mudar e tentar ajudar. Seu argumento é claramente falacioso e aponta fortemente para ele ter uma agenda.
Erik
3
Como físico que usa muitas estatísticas, mas não é estatístico, acho esse parágrafo realmente inútil, não importa o fato de que pareça estar errado. Eu sempre pensei, possivelmente incorretamente, que um cl de 95% significava que, se a hipótese nula fosse verdadeira, uma vez em cada 20 se repetisse meu experimento obteria um resultado significativo no nível de 95% (uma boa razão na minha opinião para use menos de 99,9, mas isso é outra discussão). Esse post parece ser mais um ponto sobre fatores correlatos e realmente não ajuda a não especialistas (ou a ninguém).
Bowler
@Erik. O usuário tem um histórico bastante complicado de marionetes de meias (tinha algumas contas e usa edições IP) e foi bloqueado antes ... não sabe ao certo qual é o seu negócio. Mas parece ser um encrenqueiro
BYS2

Respostas:

10

Há muitas coisas erradas aqui. Como @ Néstor explica, ele assume implicitamente probabilidades anteriores em (sem link) e (link).H 1H0H1

Ele coloca um peso muito alto (muito próximo a 1) em e um peso muito pequeno em . Esta é a primeira coisa dúbia que ele faz, uma vez que existe um vínculo mecanicista entre fumaça e doenças cardíacas (considere fumantes ativos), a questão é realmente se a exposição é suficiente. Isso nem considera os estudos anteriores realizados. Portanto, não é realmente um "vasto número de coisas" a serem testadas, como usar meias vermelhas, por exemplo. Isso significa que ele já começa com um prior altamente tendencioso e não justificável.H 1H0H1

Ele então atualiza seu anterior, afirmando que a probabilidade de obter um intervalo de confiança de 95% de não conter o valor verdadeiro tem uma probabilidade de 5%. Embora isso seja verdade, essa não é a chance de obter esse intervalo específico sob a suposição da hipótese nula . Observe que ele teria tratado um intervalo de confiança de [1,17, 1,32] exatamente o mesmo que um intervalo de confiança de [100, 200], o que é claramente problemático.

Isso é realmente importante para a abordagem bayesiana: enquanto você tem uma probabilidade total de 5% de não obter um intervalo contendo 1 sob a suposição de que 1 é zero, a densidade de probabilidade de obter esse intervalo específico é diferente (e menor).

O terceiro erro é que ele nunca especificou seu anterior nem declara qual a probabilidade de ser contra para ele obter esse resultado. É apenas "muito pequeno".H 1H0H1

O quarto erro é dizer que a ação apropriada a ser tomada seria descartar os dados. Observe que o resultado dele nem depende dos dados, seu argumento implica exatamente a mesma ação que teria sido feita para todos os dados. Se você encontrar um link interessante, mas suspeitar que seja apenas um golpe de sorte, a coisa científica apropriada a fazer é tentar replicar seu resultado!

Erik
fonte
Obrigado por expandir a resposta da Nestor! Uma pergunta rápida, porém, você afirmou que "... essa não é a chance de obter esse intervalo específico sob a hipótese da hipótese nula". Se quiséssemos encontrar a chance de obter um intervalo específico sob a hipótese nula, precisaríamos usar a inferência bayesiana e um intervalo credível correto? Intervalos de confiança freqüentistas apenas informam "a chance de que o intervalo inclua o valor real". Obrigado novamente
BYS2 12/07/12
O intervalo de confiança freqüentista de 95% é construído para que pelo menos 95% das vezes que o intervalo calculado contenha o valor verdadeiro. Por enquanto, tudo bem. Dito isto, você também pode calcular a probabilidade (ou o valor da densidade) de obter um intervalo de confiança específico, se a hipótese nula for verdadeira. A localização exata contém mais "informações" do que apenas se incluiu a hipótese nula. Jogar fora essa informação é ruim quando se usa a inferência bayesiana, pois é relevante para a probabilidade de o nulo ser verdadeiro.
Erik
Um exemplo de brinquedo seria o seguinte: inferência bayesiana, você deseja fazer inferência em relação à forma de uma distribuição. Prior permite duas possibilidades: H1: A distribuição é normal normal. H2: Distribuição normal, média = sd = 1. Uma amostra dos valores das distribuições permite atualizar o seu anterior. Quando você recebe apenas os sinais de seus valores, também pode atualizar o seu anterior, mas a atualização será menos informativa, pois você descartou informações relevantes.
Erik
6

Essa é uma questão filosófica bastante interessante relacionada ao teste de hipóteses (e, portanto, no cenário freqüentador também em intervalos de confiança, como explico aqui ).

Obviamente, existem muitas hipóteses que poderiam ser investigadas - o tabagismo passivo causa doenças cardíacas nas coronárias, o consumo de álcool causa chd, possuir cães causa chd, ser um Capricórnio causa chd ...

Se escolhermos aleatoriamente uma de todas essas hipóteses, a probabilidade de escolhermos uma hipótese que seja verdadeira é praticamente zero. Este parece ser o argumento no texto citado - de que é muito improvável que testemos uma hipótese verdadeira.

Mas a hipótese não foi escolhida aleatoriamente. Foi motivado por conhecimentos epidemiológicos e médicos anteriores sobre doença cardíaca coronária. Existem mecanismos teóricos que explicam como o tabagismo pode causar doenças cardíacas nas coronárias, por isso não parece exagero pensar que eles funcionariam também para o tabagismo passivo.

As críticas na citação podem ser válidas para estudos exploratórios em que um conjunto de dados é extraído de hipóteses. Essa é a razão pela qual não aceitamos essas "descobertas" como fatos - em vez disso, exigimos que os resultados possam ser replicados em novos estudos. De qualquer forma, o artigo citado na citação é um meta-estudo e, portanto, não é afetado por esse problema.

Nos últimos séculos, vimos empiricamente que testar hipóteses motivadas pela teoria ao comparar os resultados previstos com os resultados observados funciona. O fato de acreditarmos nesse procedimento é a razão pela qual fizemos tanto progresso na medicina, engenharia e ciência. É por isso que posso escrever isso no meu computador e que você pode lê-lo no seu. Argumentar que esse procedimento está errado é argumentar que o método científico é fundamentalmente falho - e temos muitas evidências que afirmam o contrário.

Duvido que exista algo que uma pessoa que não esteja disposta a aceitar esse tipo de evidência realmente aceite ...

MånsT
fonte
Eu realmente não entendi o seu parágrafo antes do último; você está se referindo ao "teste de significância" (por exemplo, calculando a probabilidade dos dados pelo menos mais extremos) ou realmente ao "teste de hipóteses" (o cenário bayesiano)? Quem disse que algum deles não funciona se você fizer a pergunta certa?
Néstor
@ Néstor: Talvez eu devesse ter escrito isso de maneira diferente. Eu não estava realmente fazendo uma afirmação sobre o teste estatístico de hipóteses, mas sim fazendo uma observação sobre o fato de que comparar previsões de modelos com dados do mundo real (ou seja, "testar" se a hipótese estiver correta) parece ser uma maneira muito eficiente de fazer Ciência. O cerne dessa crítica contra a IC é, acredito, uma falta de vontade de aceitar esse método. O tipo de argumento fornecido na citação se aplicaria a qualquer método estatístico - com zero probabilidades anteriores para todas as hipóteses nulas, nunca acreditaríamos em nada.
31512 M12512
6

Realmente não entendo por que o autor diz que a probabilidade de um risco relativo de doença coronariana ser 1 poderia ser extremamente pequena, baseando sua análise apenas em um intervalo de confiança; isso é claramente errado. Para mim, parece que ele está usando um ambiente frequentista, mas ele está raciocinando bayesiano (o que é bastante comum).

A única coisa vinculada a um IC são os testes de significância clássicos, mas, como todos sabemos, se { Não há ligação entre tabagismo e doença cardíaca coronária }, eles fornecem (onde indica " dados pelo menos tão extremos quanto o que observamos "), não (onde são os dados), que é o que ele afirma e o que está vinculado exatamente ao que você aponta; você precisa incorporar conhecimento prévio sobre esse link em particular! Isso deriva do fato de que: do teorema de Bayes, em que é a probabilidade anterior em .p ( D e | H 0 ) D e p ( H 0 | D ) D p ( H 0 | D ) p ( D | H 0 ) p ( H 0 ) , p ( H 0 ) H 0H0:p(De|H0)Dep(H0|D)D

p(H0|D)p(D|H0)p(H0),
p(H0)H0
Néstor
fonte
H0 não seria: não há ligação entre tabagismo passivo e CHD? Uma vez que a hipótese nula é geralmente a hipótese de que não há efeito. Além disso, obrigado por esta resposta!
BYS2
Sim você está certo! Eu não percebi isso até que você apontou :-). Vou editar minha resposta.
Néstor
3

Embora exista algo nessa linha de raciocínio bayesiana (desconstruída com muito cuidado por Erik!), E de fato essa linha de pensamento explicaria por que muitos achados médicos não podem ser reproduzidos, esse argumento específico aplica esse pensamento como uma marreta.

O autor pressupõe duas coisas sem fornecer evidências: que a exposição à fumaça foi escolhida aleatoriamente e que quase nada no mundo causa doenças cardíacas. Sob esses laxantes padrões de raciocínio, o autor poderia rejeitar QUALQUER conclusão de que algo cause doenças cardíacas. Tudo o que você precisa fazer é afirmar:

  1. Que a hipótese foi escolhida aleatoriamente e
  2. Essa doença cardíaca tem muito perto de zero causas.

Ambas as afirmações são discutíveis (e, com base no meu conhecimento geral, muito provavelmente falsas). Mas, com essas suposições, mesmo observando que 100% das pessoas expostas ao fumo passivo caíram mortas de um ataque cardíaco dentro de um ano, você pode afirmar que a conexão é apenas uma correlação coincidente com a causa oculta, singular e "verdadeira" .

Jonathan
fonte
Tudo bem, obrigado por seus pensamentos! Sim, o autor definitivamente assumiu que a hipótese foi 'escolhida aleatoriamente', o que não está correto.
BYS2
-1

Não vejo nada obviamente errado com o parágrafo entre aspas, mas não vi os dados e não consigo verificar os números. No entanto, os dois parágrafos a seguir não são muito claros.

Suponha que ele tenha dito: "No geral, os não fumantes que eram obesos mórbidos tinham um risco relativo de doença cardíaca coronária de 1,25 (intervalo de confiança de 95%, 1,17 a 1,32) em comparação com os não fumantes que tinham peso corporal normal". Alguém teria motivos para duvidar dele?

Emil Friedman
fonte
Bem, o primeiro parágrafo das citações foi apenas o autor citando as conclusões de um estudo epidemiológico, para que não haja nada de errado com isso.
BYS2