Qual é a opinião freqüente da história do voltímetro e suas variações? A idéia por trás disso é que uma análise estatística que apela a eventos hipotéticos teria que ser revisada se fosse descoberto mais tarde que esses eventos hipotéticos não poderiam ter ocorrido como assumido.
A versão da história na Wikipedia é fornecida abaixo.
Um engenheiro desenha uma amostra aleatória de tubos de elétrons e mede sua voltagem. As medições variam de 75 a 99 volts. Um estatístico calcula a média da amostra e um intervalo de confiança para a média verdadeira. Mais tarde, o estatístico descobre que o voltímetro lê apenas até 100, de modo que a população parece ser 'censurada'. Isso requer uma nova análise, se o estatístico é ortodoxo. No entanto, o engenheiro diz que tem outro medidor de leitura para 1000 volts, que ele usaria se alguma tensão fosse superior a 100. Isso é um alívio para o estatístico, porque significa que a população estava efetivamente sem censura, afinal. Porém, no dia seguinte, o engenheiro informa ao estatístico que esse segundo medidor não estava funcionando no momento da medição. O estatístico verifica que o engenheiro não teria sustentado as medições até que o medidor fosse consertado e informa que são necessárias novas medições. O engenheiro está surpreso. "Em seguida, você estará perguntando sobre o meu osciloscópio".
Obviamente, a história é tola, mas não está claro para mim quais liberdades estão sendo tomadas com a metodologia que zomba. Tenho certeza de que, neste caso, um estatístico aplicado ocupado não se preocuparia com isso, mas e um freqüentador acadêmico hardcore?
Usando uma abordagem dogmática freqüentista, precisaríamos repetir o experimento? Poderíamos tirar conclusões a partir dos dados já disponíveis?
Para abordar também o argumento mais geral da história, se quisermos fazer uso dos dados que já temos, a revisão necessária de resultados hipotéticos pode ser feita para se encaixar no quadro freqüentista?
fonte
Respostas:
Na inferência frequentista , queremos determinar com que frequência algo teria acontecido se um determinado processo estocástico fosse realizado repetidamente. Esse é o ponto de partida para a teoria dos valores-p, intervalos de confiança e similares. No entanto, em muitos projetos aplicados, o processo "dado" não é realmente fornecido, e o estatístico precisa fazer pelo menos algum trabalho para especificá-lo e modelá-lo. Este pode ser um problema surpreendentemente ambíguo, como neste caso.
Modelando o processo de geração de dados
Com base nas informações fornecidas, nosso melhor candidato parece ser o seguinte:
Mas isso não é um pouco injusto para o nosso engenheiro? Supondo que ele seja um engenheiro e não apenas um técnico, ele provavelmente entende por que precisa medir novamente quando o primeiro medidor lê 100V; é porque o medidor está saturado no limite superior de sua faixa e, portanto, não é mais confiável. Então, talvez o que o engenheiro realmente faça seja
Ambos os processos são consistentes com os dados que temos, mas são processos diferentes e geram intervalos de confiança diferentes. O processo 2 é o que preferimos como estatísticos. Se as tensões costumam estar bem acima de 100V, o Processo 1 possui um modo de falha potencialmente catastrófico, no qual as medições são ocasionalmente subestimadas, porque os dados são censurados sem o nosso conhecimento. O intervalo de confiança aumentará de acordo. Podemos mitigar isso pedindo ao engenheiro que nos diga quando o medidor de 1000V não está funcionando, mas essa é realmente apenas outra maneira de garantir que nossos dados estejam em conformidade com o Processo 2.
Se o cavalo já saiu do estábulo e não podemos determinar quando as medições são e não são censuradas, podemos tentar inferir a partir dos dados os horários em que o medidor de 1000V não está funcionando. Ao introduzir uma regra de inferência no processo, criamos efetivamente um novo Processo 1.5 distinto de 1 e 2. Nossa regra de inferência às vezes funcionaria e outras não, portanto, o intervalo de confiança do Processo 1.5 teria tamanho intermediário em comparação aos Processos 1 e 2. 2)
Em teoria, não há nada de errado ou suspeito em uma única estatística com três intervalos de confiança diferentes associados a três processos estocásticos plausivelmente representativos. Na prática, poucos consumidores de estatísticas querem três intervalos de confiança diferentes. Eles querem um, o que é baseado no que realmente teria acontecido, se o experimento tivesse sido repetido várias vezes. Assim, normalmente, o estatístico aplicado considera o conhecimento do domínio que adquiriu durante o projeto, faz um palpite e apresenta o intervalo de confiança associado ao processo que adivinhou. Ou ela trabalha com o cliente para formalizar o processo, portanto não há necessidade de adivinhar o futuro.
Como responder a novas informações
Apesar da insistência do estatístico na história, a inferência freqüentista não exige que repitamos medições quando obtemos novas informações, sugerindo que o processo estocástico gerador não é exatamente o que originalmente concebemos. No entanto, se o processo for repetido, precisamos garantir que todas as repetições sejam consistentes com o processo de modelo assumido pelo intervalo de confiança. Podemos fazer isso alterando o processo ou alterando nosso modelo.
Se alterarmos o processo, talvez seja necessário descartar os dados passados que foram coletados inconsistentemente com esse processo. Mas isso não é um problema aqui, porque todas as variações de processo que estamos considerando são diferentes apenas quando alguns dos dados estão acima de 100V, e isso nunca aconteceu neste caso.
O que quer que façamos, modelo e realidade devem ser alinhados. Somente então a taxa de erro freqüentista teoricamente garantida será a que o cliente realmente obtém após o desempenho repetido do processo.
A Alternativa Bayesiana
Por outro lado, se tudo o que realmente nos importa é a provável faixa da verdadeira média para essa amostra, devemos deixar de lado o freqüentismo inteiramente e procurar as pessoas que vendem a resposta a essa pergunta - os bayesianos. Se seguirmos esse caminho, todas as discussões sobre contrafatuais se tornam irrelevantes; tudo o que importa é o anterior e a probabilidade. Em troca dessa simplificação, perdemos a esperança de garantir uma taxa de erro sob a repetida execução do "experimento".
Por que o alarido?
Essa história foi construída para fazer parecer que o estatístico freqüentador se preocupa com coisas tolas sem motivo. Honestamente, quem se importa com esses contrafatuais tolos? A resposta, é claro, é que todos devem se importar. Atualmente, campos científicos de importância vital estão sofrendo uma grave crise de replicação , o que sugere que a frequência de falsas descobertas é muito maior do que o esperado na literatura científica. Um dos fatores que impulsionou essa crise, embora não seja o único , é o surgimento do p-hacking , que é quando os pesquisadores brincam com muitas variações de um modelo, controlando variáveis diferentes, até obterem significado.
O P-hacking tem sido amplamente difamado na mídia científica popular e na blogosfera, mas poucos realmente entendem o que há de errado no P-hacking e por quê. Ao contrário da opinião estatística popular, não há nada errado em analisar seus dados antes, durante e após o processo de modelagem. O que está errado é falhar ao relatar análises exploratórias e como elas influenciaram o curso do estudo. Somente olhando o processo completo, podemos determinar o modelo estocástico representativo desse processo e que análise freqüencialista é apropriada para esse modelo, se houver.
Afirmar que uma certa análise freqüentista é apropriada é uma afirmação muito séria. Fazer essa afirmação implica que você está se vinculando à disciplina do processo estocástico que escolheu, o que implica um sistema inteiro de contrafatuais sobre o que você teria feito em diferentes situações. Você precisa realmente estar em conformidade com esse sistema para que a garantia freqüentadora seja aplicada a você. Muito poucos pesquisadores, especialmente aqueles em áreas que enfatizam a exploração aberta, estão em conformidade com o sistema e não relatam seus desvios escrupulosamente; é por isso que agora temos uma crise de replicação em nossas mãos. (Alguns pesquisadores respeitados argumentaram que essa expectativa não é realista, posição que simpatizo, mas que está indo além do escopo deste post.)
Em estudos relativamente simples e / ou padronizados, como ensaios clínicos, podemos ajustar itens como comparações múltiplas ou sequenciais e manter a taxa de erro teórico; em estudos mais complexos e exploratórios, um modelo freqüentista pode ser inaplicável, pois o pesquisador pode não estar totalmente consciente de todas as decisões que estão sendo tomadas , quanto mais registrá-las e apresentá-las explicitamente. Nesses casos, o pesquisador deve (1) ser honesto e aberto sobre o que foi feito; (2) apresentam valores de p com ressalvas fortes ou nenhuma; (3) considere apresentar outras linhas de evidência, como plausibilidade prévia da hipótese ou um estudo de replicação de acompanhamento.
fonte
Parece uma falácia lógica. Independentemente de o medidor de 1000 volts estar ou não funcionando, o engenheiro diz que "se alguma leitura fosse superior a 100, eu teria usado o outro medidor". Mas como ele saberia que a tensão era> 100 sem ter usado o medidor de 1000 volts?
Não acho que esse quebra-cabeça seja suficientemente formulado para criar uma questão filosófica útil. Na prática, concordo com a resposta de que a coisa certa é fazer um histograma e ver se ele parece truncado.
Mas, de qualquer forma, nada na questão lida com questões importantes, como: (1) qual é a distribuição conhecida (ou suspeita) de leituras e por que? Existe alguma razão para acreditar que eles são normalmente distribuídos? (2) Se essa pergunta não for respondida, como foi estimado algum intervalo de confiança?
Para levá-lo ao extremo, alguma 'tensão' está sendo medida. Suponha que a fonte de alimentação não possa fornecer mais de 100 volts. Se isso fosse verdade, presumivelmente não poderia haver medições acima de 100 volts, portanto o medidor é irrelevante.
Há muito mais - em termos de antecedentes, restrições etc. - que é estimado e afins do que a pergunta cobre. Isso é diferente do paradoxo de "Monty Hall", que é nítido e limpo.
fonte