Qual é a opinião freqüente da história do voltímetro?

15

Qual é a opinião freqüente da história do voltímetro e suas variações? A idéia por trás disso é que uma análise estatística que apela a eventos hipotéticos teria que ser revisada se fosse descoberto mais tarde que esses eventos hipotéticos não poderiam ter ocorrido como assumido.

A versão da história na Wikipedia é fornecida abaixo.

Um engenheiro desenha uma amostra aleatória de tubos de elétrons e mede sua voltagem. As medições variam de 75 a 99 volts. Um estatístico calcula a média da amostra e um intervalo de confiança para a média verdadeira. Mais tarde, o estatístico descobre que o voltímetro lê apenas até 100, de modo que a população parece ser 'censurada'. Isso requer uma nova análise, se o estatístico é ortodoxo. No entanto, o engenheiro diz que tem outro medidor de leitura para 1000 volts, que ele usaria se alguma tensão fosse superior a 100. Isso é um alívio para o estatístico, porque significa que a população estava efetivamente sem censura, afinal. Porém, no dia seguinte, o engenheiro informa ao estatístico que esse segundo medidor não estava funcionando no momento da medição. O estatístico verifica que o engenheiro não teria sustentado as medições até que o medidor fosse consertado e informa que são necessárias novas medições. O engenheiro está surpreso. "Em seguida, você estará perguntando sobre o meu osciloscópio".

Obviamente, a história é tola, mas não está claro para mim quais liberdades estão sendo tomadas com a metodologia que zomba. Tenho certeza de que, neste caso, um estatístico aplicado ocupado não se preocuparia com isso, mas e um freqüentador acadêmico hardcore?

Usando uma abordagem dogmática freqüentista, precisaríamos repetir o experimento? Poderíamos tirar conclusões a partir dos dados já disponíveis?

Para abordar também o argumento mais geral da história, se quisermos fazer uso dos dados que já temos, a revisão necessária de resultados hipotéticos pode ser feita para se encaixar no quadro freqüentista?

Praxeolitic
fonte
4
A abordagem freqüentista também permite condicionamento, por isso não tenho certeza de que o raciocínio encontrado na citação é totalmente adequado.
Xian
@ Xi'an Mesmo se incorporássemos nos nossos cálculos a censura da amostra ou a probabilidade de o segundo voltímetro ser quebrado, existe a questão de mudarmos o design do experimento depois que ele ocorreu . Não sei se isso pode ser reconciliado com métodos freqüentistas.
Praxeolitic
6
Talvez verifique esta entrada no Princípio da Condicionalidade . Embora não seja freqüentador, não sou um grande fã desta história porque parece implicar a integração de todos os eventos hipotéticos possíveis sem definir o alcance deles. Isso é bastante caricatural.
Xi'an
5
Isso é realmente digno de discussões e respostas ponderadas. Mas observe que "se o estatístico for ortodoxo" e não incompetente ou ganancioso para trabalhos adicionais, ela declarará que, como nenhuma das observações originais foi censurada, sua escolha original de procedimento (presumivelmente admissível) permanece admissível e, portanto, não há base para mude. A base teórica subjacente às estatísticas "freqüentistas" - teoria da decisão - não tem utilidade para esse "princípio de probabilidade".
whuber
11
Eu sei o que eu faria, desde que haja dados suficientes. Eu faria um histograma. Eu olhava para o histograma. Se houvesse um limite claro em 99 para fazer um histograma truncado unilateral nesse ponto, eu suspeitaria que ele foi truncado. Também examinaria os dados conhecidos como não truncados e inspecionaria suas formas de curva e verificaria se posso obter um modelo de probabilidade adequado a isso, por exemplo, uma distribuição gama ou não. Eu voltaria aos dados truncados (por suposição) e veria se o restante também é distribuído por gama (ou o que seja). Então eu preciso explicar: "Por que gama?" Se assim for, eu terminei.
Carl

Respostas:

4

Na inferência frequentista , queremos determinar com que frequência algo teria acontecido se um determinado processo estocástico fosse realizado repetidamente. Esse é o ponto de partida para a teoria dos valores-p, intervalos de confiança e similares. No entanto, em muitos projetos aplicados, o processo "dado" não é realmente fornecido, e o estatístico precisa fazer pelo menos algum trabalho para especificá-lo e modelá-lo. Este pode ser um problema surpreendentemente ambíguo, como neste caso.

Modelando o processo de geração de dados

Com base nas informações fornecidas, nosso melhor candidato parece ser o seguinte:

  1. Se o medidor de 100V indicar 100V, o engenheiro mede novamente com o medidor de 1000V, se estiver operacional. Caso contrário, ele simplesmente marca 100V e segue em frente.

Mas isso não é um pouco injusto para o nosso engenheiro? Supondo que ele seja um engenheiro e não apenas um técnico, ele provavelmente entende por que precisa medir novamente quando o primeiro medidor lê 100V; é porque o medidor está saturado no limite superior de sua faixa e, portanto, não é mais confiável. Então, talvez o que o engenheiro realmente faça seja

  1. Se o medidor de 100V indicar 100, o engenheiro mede novamente com o medidor de 1000V, se estiver operacional. Caso contrário, ele simplesmente marca 100V, acrescenta um sinal de mais para indicar a medição saturada e segue em frente.

Ambos os processos são consistentes com os dados que temos, mas são processos diferentes e geram intervalos de confiança diferentes. O processo 2 é o que preferimos como estatísticos. Se as tensões costumam estar bem acima de 100V, o Processo 1 possui um modo de falha potencialmente catastrófico, no qual as medições são ocasionalmente subestimadas, porque os dados são censurados sem o nosso conhecimento. O intervalo de confiança aumentará de acordo. Podemos mitigar isso pedindo ao engenheiro que nos diga quando o medidor de 1000V não está funcionando, mas essa é realmente apenas outra maneira de garantir que nossos dados estejam em conformidade com o Processo 2.

Se o cavalo já saiu do estábulo e não podemos determinar quando as medições são e não são censuradas, podemos tentar inferir a partir dos dados os horários em que o medidor de 1000V não está funcionando. Ao introduzir uma regra de inferência no processo, criamos efetivamente um novo Processo 1.5 distinto de 1 e 2. Nossa regra de inferência às vezes funcionaria e outras não, portanto, o intervalo de confiança do Processo 1.5 teria tamanho intermediário em comparação aos Processos 1 e 2. 2)

Em teoria, não há nada de errado ou suspeito em uma única estatística com três intervalos de confiança diferentes associados a três processos estocásticos plausivelmente representativos. Na prática, poucos consumidores de estatísticas querem três intervalos de confiança diferentes. Eles querem um, o que é baseado no que realmente teria acontecido, se o experimento tivesse sido repetido várias vezes. Assim, normalmente, o estatístico aplicado considera o conhecimento do domínio que adquiriu durante o projeto, faz um palpite e apresenta o intervalo de confiança associado ao processo que adivinhou. Ou ela trabalha com o cliente para formalizar o processo, portanto não há necessidade de adivinhar o futuro.

Como responder a novas informações

Apesar da insistência do estatístico na história, a inferência freqüentista não exige que repitamos medições quando obtemos novas informações, sugerindo que o processo estocástico gerador não é exatamente o que originalmente concebemos. No entanto, se o processo for repetido, precisamos garantir que todas as repetições sejam consistentes com o processo de modelo assumido pelo intervalo de confiança. Podemos fazer isso alterando o processo ou alterando nosso modelo.

Se alterarmos o processo, talvez seja necessário descartar os dados passados ​​que foram coletados inconsistentemente com esse processo. Mas isso não é um problema aqui, porque todas as variações de processo que estamos considerando são diferentes apenas quando alguns dos dados estão acima de 100V, e isso nunca aconteceu neste caso.

O que quer que façamos, modelo e realidade devem ser alinhados. Somente então a taxa de erro freqüentista teoricamente garantida será a que o cliente realmente obtém após o desempenho repetido do processo.

A Alternativa Bayesiana

Por outro lado, se tudo o que realmente nos importa é a provável faixa da verdadeira média para essa amostra, devemos deixar de lado o freqüentismo inteiramente e procurar as pessoas que vendem a resposta a essa pergunta - os bayesianos. Se seguirmos esse caminho, todas as discussões sobre contrafatuais se tornam irrelevantes; tudo o que importa é o anterior e a probabilidade. Em troca dessa simplificação, perdemos a esperança de garantir uma taxa de erro sob a repetida execução do "experimento".

Por que o alarido?

Essa história foi construída para fazer parecer que o estatístico freqüentador se preocupa com coisas tolas sem motivo. Honestamente, quem se importa com esses contrafatuais tolos? A resposta, é claro, é que todos devem se importar. Atualmente, campos científicos de importância vital estão sofrendo uma grave crise de replicação , o que sugere que a frequência de falsas descobertas é muito maior do que o esperado na literatura científica. Um dos fatores que impulsionou essa crise, embora não seja o único , é o surgimento do p-hacking , que é quando os pesquisadores brincam com muitas variações de um modelo, controlando variáveis ​​diferentes, até obterem significado.

O P-hacking tem sido amplamente difamado na mídia científica popular e na blogosfera, mas poucos realmente entendem o que há de errado no P-hacking e por quê. Ao contrário da opinião estatística popular, não há nada errado em analisar seus dados antes, durante e após o processo de modelagem. O que está errado é falhar ao relatar análises exploratórias e como elas influenciaram o curso do estudo. Somente olhando o processo completo, podemos determinar o modelo estocástico representativo desse processo e que análise freqüencialista é apropriada para esse modelo, se houver.

Afirmar que uma certa análise freqüentista é apropriada é uma afirmação muito séria. Fazer essa afirmação implica que você está se vinculando à disciplina do processo estocástico que escolheu, o que implica um sistema inteiro de contrafatuais sobre o que você teria feito em diferentes situações. Você precisa realmente estar em conformidade com esse sistema para que a garantia freqüentadora seja aplicada a você. Muito poucos pesquisadores, especialmente aqueles em áreas que enfatizam a exploração aberta, estão em conformidade com o sistema e não relatam seus desvios escrupulosamente; é por isso que agora temos uma crise de replicação em nossas mãos. (Alguns pesquisadores respeitados argumentaram que essa expectativa não é realista, posição que simpatizo, mas que está indo além do escopo deste post.)

Pode parecer injusto que estamos criticando artigos publicados com base em uma afirmação sobre o que eles teriam feito se os dados fossem diferentes. Mas essa é a natureza (um tanto paradoxal) do raciocínio freqüentista: se você aceita o conceito de valor-p, deve respeitar a legitimidade da modelagem do que teria sido feito sob dados alternativos. (Gelman & Loken, 2013)

Em estudos relativamente simples e / ou padronizados, como ensaios clínicos, podemos ajustar itens como comparações múltiplas ou sequenciais e manter a taxa de erro teórico; em estudos mais complexos e exploratórios, um modelo freqüentista pode ser inaplicável, pois o pesquisador pode não estar totalmente consciente de todas as decisões que estão sendo tomadas , quanto mais registrá-las e apresentá-las explicitamente. Nesses casos, o pesquisador deve (1) ser honesto e aberto sobre o que foi feito; (2) apresentam valores de p com ressalvas fortes ou nenhuma; (3) considere apresentar outras linhas de evidência, como plausibilidade prévia da hipótese ou um estudo de replicação de acompanhamento.

Paulo
fonte
Parece uma boa resposta, mas vou precisar digeri-la mentalmente amanhã.
Praxeolitic
pela descrição do problema, conforme declarado, parece que um engenheiro está afirmando que ele estava sempre fazendo sua opção # 2
Aksakal
Talvez, mas ele não disse isso explicitamente. Grandes erros podem ser cometidos quando as pessoas adivinham o que as outras pessoas estão pensando em vez de discutir explicitamente.
Paul
Nos cursos de estatística aplicada, pouca ênfase é dada ao formalismo do que significa estimar parâmetros. Suponha que planejemos jogar uma moeda e registrar a frequência das cabeças. Entrando, assumimos tacitamente que a distribuição real é Bernoulli com p = q = 0,5. Depois de 1.000 lançamentos, perguntamo-nos "qual a probabilidade de ser uma moeda justa", comparando a realidade com a teoria / suposição. Mas em muita ciência, as pessoas assumem que as coisas são normalmente distribuídas e depois usam testes t. Mas isso não faz sentido se os retornos não são normalmente distribuídos.
eSurfsnake
1

Parece uma falácia lógica. Independentemente de o medidor de 1000 volts estar ou não funcionando, o engenheiro diz que "se alguma leitura fosse superior a 100, eu teria usado o outro medidor". Mas como ele saberia que a tensão era> 100 sem ter usado o medidor de 1000 volts?

Não acho que esse quebra-cabeça seja suficientemente formulado para criar uma questão filosófica útil. Na prática, concordo com a resposta de que a coisa certa é fazer um histograma e ver se ele parece truncado.

Mas, de qualquer forma, nada na questão lida com questões importantes, como: (1) qual é a distribuição conhecida (ou suspeita) de leituras e por que? Existe alguma razão para acreditar que eles são normalmente distribuídos? (2) Se essa pergunta não for respondida, como foi estimado algum intervalo de confiança?

Para levá-lo ao extremo, alguma 'tensão' está sendo medida. Suponha que a fonte de alimentação não possa fornecer mais de 100 volts. Se isso fosse verdade, presumivelmente não poderia haver medições acima de 100 volts, portanto o medidor é irrelevante.

Há muito mais - em termos de antecedentes, restrições etc. - que é estimado e afins do que a pergunta cobre. Isso é diferente do paradoxo de "Monty Hall", que é nítido e limpo.

eSurfsnake
fonte
11
O objetivo da história é criticar interpretações de probabilidade que se baseiam em eventos hipotéticos, estendendo essas interpretações a um extremo absurdo. Os problemas mencionados são irrelevantes. Supostamente, o engenheiro sabia mudar os voltímetros, se necessário (por exemplo, vê uma leitura de "100") e o estatístico, por outro lado, tem motivos para usar a abordagem que está usando (por exemplo, ele simplesmente já sabe que a distribuição normal é uma boa modelo para essas leituras).
Praxeolitic #