Regras de parada opcionais que não estão nos livros didáticos

16

As regras de parada afetam o relacionamento entre os valores P e as taxas de erro associadas às decisões. Um artigo recente de Simmons et al. 2011 cunha o termo graus de liberdade dos pesquisadores para descrever uma coleção de comportamentos que eles consideram responsáveis ​​por muitos dos relatórios da literatura sobre psicologia que foram considerados não reprodutíveis.

Desses comportamentos, regras opcionais de parada ou análises intermediárias não declaradas são as que mais me interessam. Descrevo seus efeitos sobre as taxas de erro para meus alunos, mas eles não parecem ser descritos nos livros didáticos que meus alunos usam (ou não usar!). Na livraria principal da minha universidade, há quatorze livros de estatística destinados a estudantes de nível introdutório em várias disciplinas, como biociências, negócios, engenharia, etc. Apenas um desses textos continha um item de índice "teste sequencial" e nenhum tinha um item de índice " regra de parada ".

Existe um livro de estatística de nível introdutório que explique a questão das regras de parada opcionais?

Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: flexibilidade não revelada na coleta e análise de dados permite apresentar qualquer coisa como significativa . Psychological Science, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632

Michael Lew - restabelece Monica
fonte
1
O problema não desaparece se você abandonar as estatísticas freqüentes e usar métodos de TI ou Bayesianos? (Ou mesmo aprendizado de máquina puro, dependendo do tamanho do seu conjunto de dados) Isso não está sendo irreverente - o mashup incompatível de Fisher e NP causa apenas problemas, mesmo quando feito "corretamente". No futuro, não haverá mais frequentistas.
Thedude
1
Sim, o problema desapareceria se não houvesse uso de métodos que cumprissem o princípio da frequência. No entanto, esse futuro pode não estar chegando neste mundo. O que é isso?
Michael Lew - restabelece Monica
2
@ Michael: Quase indubitavelmente (isto é, TI) significa "informação teórica".
cardeal
Sobre um tópico relacionado: errorstatistics.com/2013/04/06/…
pe.
2
@thedude usando um referencial teórico diferente apresenta outros problemas . O problema aqui é que todos vocês estão tratando a matemática como algo além de apenas uma descrição do mundo. As estatísticas freqüentistas são uma maneira muito útil de descrever o mundo; a bayesiana é outra. Nem lhe fornecerá um Oracle da verdade .
Indolering 07/07

Respostas:

2

Você não pode ter uma regra de parada sem ter uma idéia da sua distribuição e tamanho do seu efeito - o que você não conhece a priori.

Além disso, sim, precisamos nos concentrar no tamanho do efeito - e nunca foi considerado correto considerar apenas valores-p, e certamente não devemos mostrar tabelas ou gráficos que mostram valores-p ou valores -F em vez do tamanho do efeito.

Existem problemas com os testes tradicionais de inferência de hipóteses estatísticas (que Cohen diz serem dignos de seu acrônimo, e Fisher e Pearson se revirariam nos túmulos se vissem tudo o que está sendo feito em seus nomes violentamente opostos hoje).

Para determinar N, você já deve ter determinado uma significância alvo e um limite de poder, além de fazer muitas suposições sobre distribuição, e, em particular, também deve ter determinado o tamanho do efeito que deseja estabelecer. A indolering está exatamente certa de que este deve ser o ponto de partida - qual tamanho mínimo de efeito seria rentável!

As "Novas estatísticas" estão defendendo a exibição dos tamanhos dos efeitos (como diferença emparelhada quando apropriado), juntamente com os desvios ou variações padrão associados (porque precisamos entender a distribuição) e os desvios padrão ou intervalos de confiança (mas o último já está bloqueando um valor-p e uma decisão sobre se você está prevendo uma direção ou uma aposta de mão dupla). Mas definir um efeito mínimo de sinal especificado com uma previsão científica, deixa isso claro - embora o padrão pré-científico seja tentar e errar e apenas procurar diferenças. Mas, novamente, você fez suposições sobre a normalidade se seguir por esse caminho.

Outra abordagem é usar gráficos de caixa como uma abordagem não paramétrica, mas as convenções sobre bigodes e outliers variam amplamente e, mesmo assim, elas se originam em suposições de distribuição.

O problema de parada não é, de fato, um problema de um pesquisador individual ou não de N, mas que temos uma comunidade inteira de milhares de pesquisadores, onde 1000 é muito mais que 1 / alfa no nível tradicional de 0,05. Atualmente, a resposta é proposta para fornecer as estatísticas resumidas (média, stddev, stderr - ou "versões não paramétricas correspondentes - mediana etc. como no boxplot) para facilitar a meta-análise e apresentar resultados combinados de todos os experimentos, se eles ocorrerem ter atingido um nível alfa específico ou não.

Intimamente relacionado é o problema de múltiplos testes, que é tão cheio de dificuldades, e onde os experimentos são simplistas demais em nome da preservação de energia, enquanto metodologias complexas são propostas para analisar os resultados.

Acho que ainda não pode haver um capítulo de livro-texto que lide com isso, pois ainda temos pouca ideia do que estamos fazendo ...

No momento, a melhor abordagem é provavelmente continuar usando as estatísticas tradicionais mais apropriadas para o problema, combinadas com a exibição das estatísticas resumidas - o efeito e o erro padrão e N sendo o mais importante. O uso de intervalos de confiança é basicamente equivalente ao teste T correspondente, mas permite comparar novos resultados com os publicados com mais significado, além de permitir um ethos que incentiva a reprodutibilidade e a publicação de experimentos e meta-análises reproduzidas.

Em termos de abordagens teóricas da informação ou bayesianas, eles usam ferramentas diferentes e fazem suposições diferentes, mas ainda não têm todas as respostas e, no final, enfrentam os mesmos problemas, ou piores, porque a inferência bayesiana recua de forma definitiva. responder e apenas apresentar evidências relativas anteriores assumidos ou ausentes.

No final, o Machine Learning também tem resultados que precisam ser considerados - geralmente com ICs ou Teste-T, geralmente com gráficos, esperançosamente emparelhando em vez de apenas comparar e usando versões adequadamente compensadas quando as distribuições não coincidem. Ele também tem suas controvérsias sobre bootstrapping e validação cruzada, e preconceitos e variações. O pior de tudo é que ele tem a propensão de gerar e testar uma infinidade de modelos alternativos, parametrizando minuciosamente todos os algoritmos em uma das muitas caixas de ferramentas, aplicados aos conjuntos de dados cuidadosamente arquivados para permitir múltiplos testes não desenfreados. O pior é que ainda está na idade das trevas usando precisão, ou pior ainda, a medida F, para avaliação - em vez de métodos corretos ao acaso.

Eu li dezenas de artigos sobre essas questões, mas não consegui encontrar nada totalmente convincente - exceto os trabalhos de pesquisa negativa ou de meta-análise que parecem indicar que a maioria dos pesquisadores não manipula e interpreta as estatísticas adequadamente em relação a qualquer "padrão" ", antigo ou novo. Poder, testes múltiplos, dimensionamento e parada antecipada, interpretação de erros padrão e intervalos de confiança, ... estes são apenas alguns dos problemas.

Por favor, me derrube - eu gostaria de provar que estou errado! Na minha opinião, há muita água do banho, mas ainda não encontramos o bebê! Nesse estágio, nenhuma das visões extremas ou abordagens de marcas de nome parece promissora como resposta, e aquelas que querem jogar fora todo o resto provavelmente perderam o bebê.

David MW Powers
fonte
Não é uma questão de derrubá-lo, não acho que PODE haver uma solução para esses problemas. Somos seres humanos que reconhecem padrões no mundo, temos que resolver com validade convergente. Depois que sua pobre tentativa de provar um deus existe, Descartes se deparou com uma validade convergente. Às vezes está lá, às vezes não, mas na maioria das vezes nos deparamos com nossos poderes infinitesimalmente pequenos de computação cognitiva.
Indolering 07/07
1

Não acredito que "regras de parada" opcionais sejam um termo técnico em relação à parada ideal. No entanto, duvido que você encontre muita discussão aprofundada sobre o assunto nos livros de estatísticas de psicologia intro-nível.

A lógica cínica para isso é que todos os estudantes de ciências sociais têm habilidades matemáticas fracas. A melhor resposta, IMHO, é que testes t simples não são adequados para a maioria das experiências em ciências sociais. É preciso analisar a força do efeito e descobrir se isso resolve as diferenças entre os grupos. O primeiro pode indicar que o último é possível, mas é tudo o que pode fazer.

Medidas de gastos com assistência social, regulamentação estatal e urbanização têm todas relações estatisticamente significativas com medidas de comportamento religioso. No entanto, apenas declarar o valor p está enquadrando o teste em um relacionamento causal de tudo ou nada. Veja o seguinte:

insira a descrição da imagem aqui

Os resultados dos gastos com assistência social e da urbanização têm valores de p estatisticamente significativos, mas os gastos com assistência social estão muito mais fortemente correlacionados. Esse gasto com assistência social mostra uma relação tão forte com outras medidas de religiosidade ( taxa não religiosa e conforto na religião ) para as quais a urbanização nem sequer atinge um valor-p < .10, sugerindo que a urbanização não afeta as crenças religiosas gerais. Observe, no entanto, que mesmo os gastos com assistência social não explicam a Irlanda ou as Filipinas, mostrando que alguns outros efeitos são comparativamente mais fortes do que os gastos com assistência social .

Confiar em "regras de interrupção" pode levar a falsos positivos, especialmente nas amostras pequenas de psicologia. A psicologia como campo está realmente sendo contida por esse tipo de travessia estatística. No entanto, colocar toda a nossa fé em um valor-p arbitrário também é bastante estúpido. Mesmo se todos tivéssemos enviado nossos tamanhos de amostra e declarações de hipóteses para um periódico antes de realizar o experimento, ainda encontraríamos falsos positivos, já que a academia está buscando coletivamente a significância estatística.

O certo a fazer não é interromper a mineração de dados, o correto é descrever os resultados em relação ao seu efeito . As teorias são julgadas não apenas pela precisão de suas previsões, mas também pela utilidade dessas previsões. Não importa o quão boa seja a metodologia de pesquisa, um medicamento que fornece uma melhoria de 1% nos sintomas do resfriado não vale o custo de ser embalado em uma cápsula.

Atualização Para ser claro, concordo totalmente que os cientistas sociais devem ter um padrão mais alto: precisamos melhorar a educação, fornecer ferramentas melhores aos cientistas sociais e elevar os níveis de significância para o 3-sigma. Estou tentando enfatizar um ponto sub-representado: a grande maioria dos estudos de psicologia é inútil porque o tamanho do efeito é muito pequeno.

Porém, com o Amazon Turk, posso compensar adequadamente a execução de 10 estudos paralelos e manter um nível de confiança> 3-sigma muito barato. Mas se a força do efeito for pequena, haverá ameaças significativas à validade externa. O efeito da manipulação pode ser devido a uma notícia ou a ordem das perguntas, ou ....

Não tenho tempo para um ensaio, mas os problemas de qualidade nas ciências sociais vão muito além dos métodos estatísticos ruins.

Indolering
fonte
Entendo que há alguma fusão de estudos sociológicos (geralmente não experimentais) e clínicos aqui. No entanto, sua primeira frase não faz sentido: as regras de parada são uma enorme área de pesquisa em ensaios clínicos. A lógica para isso é que várias hipóteses correlatas testadas sequencialmente fazem parte de um plano de análise pré - especificado . O link na questão dos OPs, no entanto, não é uma questão de matemática ruim, é de ciência ruim. Realizar vários testes estatísticos para "sentir" a análise correta e parar quando alguém encontra significado é uma ciência ruim, não importa como você a faça.
21417 AdamOf
@AdamO Concordo! Quando escrevi isso, eu era um estudante de graduação tentando usar métodos de mineração de dados e quando fui garantir que estava fazendo tudo corretamente (o que eu era) as reações iniciais que recebi de professores e estatísticos eram ... ingênuas. Ironicamente, o procedimento operacional padrão para laboratórios de ciências sociais é executar estudos piloto até encontrar algo interessante. Eu estava fazendo a mesma coisa, mas na verdade tentando compensar isso: p
Indolering
0

O artigo que você cita não menciona as regras de interrupção e parece ter pouca influência no problema em questão. Sua única e muito pequena relação é a de múltiplos testes, que é um conceito estatístico , não científico.

Na literatura de ensaios clínicos, você descobrirá que as regras de parada são rigorosas com informações explícitas sobre as condições em que um estudo "parecerá": com base no ano civil ou na inscrição pessoa / ano, na configuração de um nível alfa e também afeta os efeitos de tratamentos "eficazes" versus "prejudiciais". De fato, devemos considerar a conduta rigorosa de tais estudos como um exemplo de ciência bem- sucedida . O FDA chegará ao ponto de dizer que, após um achado significativo de eficácia que não seja o pré-especificado, um segundo estudo deve ser realizado para validar esses achados. Isso continua sendo um problema tanto que Thomas Flemming recomenda que todos os estudos clínicos precisemvalidado com um segundo ensaio confirmatório completamente independente , conduzido por entidades separadas. Tão ruim é o problema dos erros falso-positivos ao considerar a vida e os cuidados médicos.

Com uma supervisão aparentemente inócua, outros campos da ciência perpetuaram a ética ruim na pesquisa. De fato, as ciências sociais não afetam os tratamentos que as pessoas recebem, tratam de resumos e modelos conceituais que apenas melhoram nossa compreensão da interação entre teoria e observação. No entanto, qualquer consumidor de ciência social, leiga ou científica, é frequentemente apresentado com resultados conflitantes: chocolate é bom para você, chocolate é ruim para você (chocolate é bom para você, a propósito, açúcar e gordurachocolate é ruim para você), sexo é bom para você, casamento deixa você triste / casamento deixa você feliz. O campo é negligente com a ciência ruim. Até eu sou culpado de trabalhar em análises em que fiquei descontente com a linguagem fortemente causal, que estava ligada a fortes recomendações sobre políticas e apoio federal, totalmente injustificadas e, no entanto, foram publicadas.

O artigo de Simmons descreve efetivamente como a divulgação ajudaria a explicitar os tipos de "atalhos" que os pesquisadores fazem nos estudos sociais. Simmons fornece na Tabela 1 um exemplo de como a dragagem de dados aumenta drasticamente as taxas de erros positivos falsos, de uma maneira típica do cientista antiético "pescar descobertas". O resumo das descobertas na Tabela 2 descreve os aspectos freqüentemente omitidos dos artigos que serviriam para melhorar muito a compreensão de como possivelmente mais de uma análise foi conduzida.

Para resumir, as regras de parada somente seriam apropriadas com uma hipótese pré-especificada: elas são eticamente sólidas e requerem métodos estatísticos. O artigo de Simmons admite que grande parte da pesquisa nem sequer concede isso, e é eticamente doentio, mas a linguagem estatística é convincente por que exatamente ela está errada.

AdamO
fonte
Não entendo por que você diria que o artigo citado tem pouca influência sobre o problema em questão. Ele contém uma seção de títulos chamada "Uma análise mais detalhada da flexibilidade no tamanho da amostra", que trata de paradas opcionais. Dê outra olhada.
Michael Lew - restabelece Monica
@MichaelLew para resumir a resposta: interromper regras tem a ver com ensaios clínicos, recrutamento e acompanhamento, mas testar uma única hipótese pré-especificada, é uma prática aceitável na pesquisa de dispositivos e agentes terapêuticos da FDA. O artigo de Simmons aborda a ética em pesquisa, critérios e p-hacking em pesquisas e acadêmicos de medicina social. Você pode descrever mais precisamente como vê a relação? Talvez você possa editar sua postagem para definir termos e fornecer referências a outra literatura, especificamente sobre "regras de interrupção" que o AFAIK não existe fora dos ensaios clínicos.
21717 AdamOf:
Também não acho que a sua caracterização "outros campos da ciência tenham perpetuado a ética ruim na pesquisa" seja justa ou útil. O ponto da minha pergunta original é que parece não haver razão para que os usuários de estatísticas em tempo parcial estejam cientes dos possíveis problemas decorrentes de análises interinas não declaradas. É injusto chamar a ignorância de antiética.
Michael Lew - restabelece Monica
@ MichaelLew, o que você está definindo como uma "análise intermediária"?
AdamO
Adam, eu não acho que você esteja correto ao dizer que "regras de interrupção não existem fora dos ensaios clínicos". Eles podem não ser mencionados frequentemente fora dos ensaios clínicos (veja minha pergunta original), mas existem para todos os experimentos. Mesmo um estudo de tamanho de amostra fixo tem a regra de parada 'continue até que o tamanho da amostra seja atingido'.
Michael Lew - restabelece Monica