As regras de parada afetam o relacionamento entre os valores P e as taxas de erro associadas às decisões. Um artigo recente de Simmons et al. 2011 cunha o termo graus de liberdade dos pesquisadores para descrever uma coleção de comportamentos que eles consideram responsáveis por muitos dos relatórios da literatura sobre psicologia que foram considerados não reprodutíveis.
Desses comportamentos, regras opcionais de parada ou análises intermediárias não declaradas são as que mais me interessam. Descrevo seus efeitos sobre as taxas de erro para meus alunos, mas eles não parecem ser descritos nos livros didáticos que meus alunos usam (ou não usar!). Na livraria principal da minha universidade, há quatorze livros de estatística destinados a estudantes de nível introdutório em várias disciplinas, como biociências, negócios, engenharia, etc. Apenas um desses textos continha um item de índice "teste sequencial" e nenhum tinha um item de índice " regra de parada ".
Existe um livro de estatística de nível introdutório que explique a questão das regras de parada opcionais?
Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: flexibilidade não revelada na coleta e análise de dados permite apresentar qualquer coisa como significativa . Psychological Science, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632
fonte
Respostas:
Você não pode ter uma regra de parada sem ter uma idéia da sua distribuição e tamanho do seu efeito - o que você não conhece a priori.
Além disso, sim, precisamos nos concentrar no tamanho do efeito - e nunca foi considerado correto considerar apenas valores-p, e certamente não devemos mostrar tabelas ou gráficos que mostram valores-p ou valores -F em vez do tamanho do efeito.
Existem problemas com os testes tradicionais de inferência de hipóteses estatísticas (que Cohen diz serem dignos de seu acrônimo, e Fisher e Pearson se revirariam nos túmulos se vissem tudo o que está sendo feito em seus nomes violentamente opostos hoje).
Para determinar N, você já deve ter determinado uma significância alvo e um limite de poder, além de fazer muitas suposições sobre distribuição, e, em particular, também deve ter determinado o tamanho do efeito que deseja estabelecer. A indolering está exatamente certa de que este deve ser o ponto de partida - qual tamanho mínimo de efeito seria rentável!
As "Novas estatísticas" estão defendendo a exibição dos tamanhos dos efeitos (como diferença emparelhada quando apropriado), juntamente com os desvios ou variações padrão associados (porque precisamos entender a distribuição) e os desvios padrão ou intervalos de confiança (mas o último já está bloqueando um valor-p e uma decisão sobre se você está prevendo uma direção ou uma aposta de mão dupla). Mas definir um efeito mínimo de sinal especificado com uma previsão científica, deixa isso claro - embora o padrão pré-científico seja tentar e errar e apenas procurar diferenças. Mas, novamente, você fez suposições sobre a normalidade se seguir por esse caminho.
Outra abordagem é usar gráficos de caixa como uma abordagem não paramétrica, mas as convenções sobre bigodes e outliers variam amplamente e, mesmo assim, elas se originam em suposições de distribuição.
O problema de parada não é, de fato, um problema de um pesquisador individual ou não de N, mas que temos uma comunidade inteira de milhares de pesquisadores, onde 1000 é muito mais que 1 / alfa no nível tradicional de 0,05. Atualmente, a resposta é proposta para fornecer as estatísticas resumidas (média, stddev, stderr - ou "versões não paramétricas correspondentes - mediana etc. como no boxplot) para facilitar a meta-análise e apresentar resultados combinados de todos os experimentos, se eles ocorrerem ter atingido um nível alfa específico ou não.
Intimamente relacionado é o problema de múltiplos testes, que é tão cheio de dificuldades, e onde os experimentos são simplistas demais em nome da preservação de energia, enquanto metodologias complexas são propostas para analisar os resultados.
Acho que ainda não pode haver um capítulo de livro-texto que lide com isso, pois ainda temos pouca ideia do que estamos fazendo ...
No momento, a melhor abordagem é provavelmente continuar usando as estatísticas tradicionais mais apropriadas para o problema, combinadas com a exibição das estatísticas resumidas - o efeito e o erro padrão e N sendo o mais importante. O uso de intervalos de confiança é basicamente equivalente ao teste T correspondente, mas permite comparar novos resultados com os publicados com mais significado, além de permitir um ethos que incentiva a reprodutibilidade e a publicação de experimentos e meta-análises reproduzidas.
Em termos de abordagens teóricas da informação ou bayesianas, eles usam ferramentas diferentes e fazem suposições diferentes, mas ainda não têm todas as respostas e, no final, enfrentam os mesmos problemas, ou piores, porque a inferência bayesiana recua de forma definitiva. responder e apenas apresentar evidências relativas anteriores assumidos ou ausentes.
No final, o Machine Learning também tem resultados que precisam ser considerados - geralmente com ICs ou Teste-T, geralmente com gráficos, esperançosamente emparelhando em vez de apenas comparar e usando versões adequadamente compensadas quando as distribuições não coincidem. Ele também tem suas controvérsias sobre bootstrapping e validação cruzada, e preconceitos e variações. O pior de tudo é que ele tem a propensão de gerar e testar uma infinidade de modelos alternativos, parametrizando minuciosamente todos os algoritmos em uma das muitas caixas de ferramentas, aplicados aos conjuntos de dados cuidadosamente arquivados para permitir múltiplos testes não desenfreados. O pior é que ainda está na idade das trevas usando precisão, ou pior ainda, a medida F, para avaliação - em vez de métodos corretos ao acaso.
Eu li dezenas de artigos sobre essas questões, mas não consegui encontrar nada totalmente convincente - exceto os trabalhos de pesquisa negativa ou de meta-análise que parecem indicar que a maioria dos pesquisadores não manipula e interpreta as estatísticas adequadamente em relação a qualquer "padrão" ", antigo ou novo. Poder, testes múltiplos, dimensionamento e parada antecipada, interpretação de erros padrão e intervalos de confiança, ... estes são apenas alguns dos problemas.
Por favor, me derrube - eu gostaria de provar que estou errado! Na minha opinião, há muita água do banho, mas ainda não encontramos o bebê! Nesse estágio, nenhuma das visões extremas ou abordagens de marcas de nome parece promissora como resposta, e aquelas que querem jogar fora todo o resto provavelmente perderam o bebê.
fonte
Não acredito que "regras de parada" opcionais sejam um termo técnico em relação à parada ideal. No entanto, duvido que você encontre muita discussão aprofundada sobre o assunto nos livros de estatísticas de psicologia intro-nível.
A lógica cínica para isso é que todos os estudantes de ciências sociais têm habilidades matemáticas fracas. A melhor resposta, IMHO, é que testes t simples não são adequados para a maioria das experiências em ciências sociais. É preciso analisar a força do efeito e descobrir se isso resolve as diferenças entre os grupos. O primeiro pode indicar que o último é possível, mas é tudo o que pode fazer.
Medidas de gastos com assistência social, regulamentação estatal e urbanização têm todas relações estatisticamente significativas com medidas de comportamento religioso. No entanto, apenas declarar o valor p está enquadrando o teste em um relacionamento causal de tudo ou nada. Veja o seguinte:
Os resultados dos gastos com assistência social e da urbanização têm valores de p estatisticamente significativos, mas os gastos com assistência social estão muito mais fortemente correlacionados. Esse gasto com assistência social mostra uma relação tão forte com outras medidas de religiosidade ( taxa não religiosa e conforto na religião ) para as quais a urbanização nem sequer atinge um valor-p
< .10
, sugerindo que a urbanização não afeta as crenças religiosas gerais. Observe, no entanto, que mesmo os gastos com assistência social não explicam a Irlanda ou as Filipinas, mostrando que alguns outros efeitos são comparativamente mais fortes do que os gastos com assistência social .Confiar em "regras de interrupção" pode levar a falsos positivos, especialmente nas amostras pequenas de psicologia. A psicologia como campo está realmente sendo contida por esse tipo de travessia estatística. No entanto, colocar toda a nossa fé em um valor-p arbitrário também é bastante estúpido. Mesmo se todos tivéssemos enviado nossos tamanhos de amostra e declarações de hipóteses para um periódico antes de realizar o experimento, ainda encontraríamos falsos positivos, já que a academia está buscando coletivamente a significância estatística.
O certo a fazer não é interromper a mineração de dados, o correto é descrever os resultados em relação ao seu efeito . As teorias são julgadas não apenas pela precisão de suas previsões, mas também pela utilidade dessas previsões. Não importa o quão boa seja a metodologia de pesquisa, um medicamento que fornece uma melhoria de 1% nos sintomas do resfriado não vale o custo de ser embalado em uma cápsula.
Atualização Para ser claro, concordo totalmente que os cientistas sociais devem ter um padrão mais alto: precisamos melhorar a educação, fornecer ferramentas melhores aos cientistas sociais e elevar os níveis de significância para o 3-sigma. Estou tentando enfatizar um ponto sub-representado: a grande maioria dos estudos de psicologia é inútil porque o tamanho do efeito é muito pequeno.
Porém, com o Amazon Turk, posso compensar adequadamente a execução de 10 estudos paralelos e manter um nível de confiança> 3-sigma muito barato. Mas se a força do efeito for pequena, haverá ameaças significativas à validade externa. O efeito da manipulação pode ser devido a uma notícia ou a ordem das perguntas, ou ....
Não tenho tempo para um ensaio, mas os problemas de qualidade nas ciências sociais vão muito além dos métodos estatísticos ruins.
fonte
O artigo que você cita não menciona as regras de interrupção e parece ter pouca influência no problema em questão. Sua única e muito pequena relação é a de múltiplos testes, que é um conceito estatístico , não científico.
Na literatura de ensaios clínicos, você descobrirá que as regras de parada são rigorosas com informações explícitas sobre as condições em que um estudo "parecerá": com base no ano civil ou na inscrição pessoa / ano, na configuração de um nível alfa e também afeta os efeitos de tratamentos "eficazes" versus "prejudiciais". De fato, devemos considerar a conduta rigorosa de tais estudos como um exemplo de ciência bem- sucedida . O FDA chegará ao ponto de dizer que, após um achado significativo de eficácia que não seja o pré-especificado, um segundo estudo deve ser realizado para validar esses achados. Isso continua sendo um problema tanto que Thomas Flemming recomenda que todos os estudos clínicos precisemvalidado com um segundo ensaio confirmatório completamente independente , conduzido por entidades separadas. Tão ruim é o problema dos erros falso-positivos ao considerar a vida e os cuidados médicos.
Com uma supervisão aparentemente inócua, outros campos da ciência perpetuaram a ética ruim na pesquisa. De fato, as ciências sociais não afetam os tratamentos que as pessoas recebem, tratam de resumos e modelos conceituais que apenas melhoram nossa compreensão da interação entre teoria e observação. No entanto, qualquer consumidor de ciência social, leiga ou científica, é frequentemente apresentado com resultados conflitantes: chocolate é bom para você, chocolate é ruim para você (chocolate é bom para você, a propósito, açúcar e gordurachocolate é ruim para você), sexo é bom para você, casamento deixa você triste / casamento deixa você feliz. O campo é negligente com a ciência ruim. Até eu sou culpado de trabalhar em análises em que fiquei descontente com a linguagem fortemente causal, que estava ligada a fortes recomendações sobre políticas e apoio federal, totalmente injustificadas e, no entanto, foram publicadas.
O artigo de Simmons descreve efetivamente como a divulgação ajudaria a explicitar os tipos de "atalhos" que os pesquisadores fazem nos estudos sociais. Simmons fornece na Tabela 1 um exemplo de como a dragagem de dados aumenta drasticamente as taxas de erros positivos falsos, de uma maneira típica do cientista antiético "pescar descobertas". O resumo das descobertas na Tabela 2 descreve os aspectos freqüentemente omitidos dos artigos que serviriam para melhorar muito a compreensão de como possivelmente mais de uma análise foi conduzida.
Para resumir, as regras de parada somente seriam apropriadas com uma hipótese pré-especificada: elas são eticamente sólidas e requerem métodos estatísticos. O artigo de Simmons admite que grande parte da pesquisa nem sequer concede isso, e é eticamente doentio, mas a linguagem estatística é convincente por que exatamente ela está errada.
fonte