Sou estudante de psicologia e, à medida que estudo mais e mais independentemente em estatística, fico cada vez mais impressionado com a inadequação do meu treinamento formal. Tanto a experiência pessoal quanto a de segunda mão sugerem que a escassez de rigor estatístico na graduação e na pós-graduação é onipresente na psicologia. Como tal, pensei que seria útil para alunos independentes como eu criar uma lista de "pecados estatísticos", tabulando as práticas estatísticas ensinadas aos alunos de graduação como prática padrão que são de fato substituídas por superior (mais poderoso, flexível ou métodos robustos, etc.) modernos ou que demonstrem ser francamente inválidos. Antecipando que outros campos também podem ter um estado de coisas semelhante, proponho um wiki da comunidade onde podemos coletar uma lista de pecados estatísticos em todas as disciplinas.
227
Respostas:
Falha ao analisar (plotar) os dados.
fonte
A maioria das interpretações dos valores-p é pecaminosa! O uso convencional de valores-p é muito defeituoso; um fato que, na minha opinião, põe em questão as abordagens padrão para o ensino de testes de hipóteses e testes de significância.
Haller e Krause descobriram que os instrutores estatísticos são quase tão propensos quanto os alunos a interpretar mal os valores de p. (Faça o teste no trabalho deles e veja como você o faz.) Steve Goodman é um bom argumento para descartar o uso (incorreto) convencional do valor-p em favor das probabilidades. O artigo de Hubbard também merece uma olhada.
Haller e Krauss. Interpretações errôneas de significado: Um problema que os alunos compartilham com seus professores . Methods of Psychological Research (2002) vol. 7 (1) pp. 1-20 ( PDF )
Hubbard e Bayarri. Confusão sobre medidas de evidência (p's) versus erros (α's) em testes estatísticos clássicos . The American Statistician (2003) vol. 57 (3)
Bom homem. Em direção a estatísticas médicas baseadas em evidências. 1: Falácia do valor P. Ann Intern Med (1999) vol. 130 (12) pp. 995-1004 ( PDF )
Veja também:
Wagenmakers, EJ. Uma solução prática para os problemas difundidos dos valores de p. Psychonomic Bulletin & Review, 14 (5), 779-804.
para alguns casos claros em que mesmo a interpretação nominalmente "correta" de um valor-p foi incorreta devido às escolhas feitas pelo pesquisador.
Atualização (2016) : Em 2016, a American Statistical Association emitiu uma declaração sobre valores-p, veja aqui . De certa forma, essa foi uma resposta à "proibição de valores-p" emitida por uma revista de psicologia cerca de um ano antes.
fonte
A armadilha mais perigosa que encontrei ao trabalhar em um modelo preditivo não é reservar um conjunto de dados de teste desde o início, para dedicar à avaliação de desempenho "final".
É muito fácil superestimar a precisão preditiva do seu modelo se você tiver a chance de usar os dados de teste de alguma forma ao ajustar os parâmetros, selecionar o anterior, selecionar o critério de parada do algoritmo de aprendizagem ...
Para evitar esse problema, antes de iniciar seu trabalho em um novo conjunto de dados, você deve dividir seus dados como:
Em seguida, divida seu conjunto de desenvolvimento como um "conjunto de desenvolvimento de treinamento" e "conjunto de desenvolvimento de teste", em que você usa o conjunto de desenvolvimento de treinamento para treinar vários modelos com parâmetros diferentes e seleciona os melhores de acordo com o desempenho no conjunto de desenvolvimento de teste. Você também pode fazer uma pesquisa em grade com validação cruzada, mas apenas no conjunto de desenvolvimento. Nunca use o conjunto de avaliação enquanto a seleção do modelo não for 100% concluída.
Quando estiver confiante com a seleção e os parâmetros do modelo, execute uma validação cruzada de 10 dobras no conjunto de avaliação para ter uma idéia da precisão preditiva "real" do modelo selecionado.
Além disso, se seus dados forem temporais, é melhor escolher a divisão de desenvolvimento / avaliação em um código de tempo: "É difícil fazer previsões - especialmente sobre o futuro".
fonte
Relatar valores de p quando você pesquisava dados (descoberta de hipóteses) em vez de estatísticas (teste de hipóteses).
fonte
Testando as hipóteses versus H 1 : μ ≠ 0 (por exemplo, em uma configuração gaussiana)H0 0: μ = 0 H1 1: μ ≠ 0
para justificar que em um modelo (ou seja, misture " H 0 não é rejeitado" e " H 0 é verdadeiro").μ = 0 H0 0 H0 0
Um exemplo muito bom desse tipo de raciocínio (muito ruim) é quando você testa se as variações de dois gaussianos são iguais (ou não) antes de testar se a média delas é igual ou não com a suposição de variação igual.
Outro exemplo ocorre quando você testa a normalidade (versus não normalidade) para justificar a normalidade. Todo estatístico fez isso na vida? é baaad :) (e deve levar as pessoas a verificarem a robustez da não gaussianidade)
fonte
Alguns erros que me incomodam:
Assumindo que estimadores imparciais são sempre melhores que estimadores tendenciosos.
Supondo que um alto implica um bom modelo, baixo R 2 implica um modelo ruim.R2 R2
Interpretação / aplicação incorreta da correlação.
Estimativas de pontos de relatório sem erro padrão.
Usando métodos que assumem algum tipo de Normalidade Multivariada (como Análise Discriminante Linear) quando métodos mais robustos, com melhor desempenho e não / semiparamétricos estão disponíveis.
Usar o valor-p como uma medida de força entre um preditor e a resposta, e não como uma medida de quantas evidências existem de algum relacionamento.
fonte
Dicotomização de uma variável preditora contínua para "simplificar" a análise ou para resolver o "problema" da não linearidade no efeito do preditivo contínuo.
fonte
Não estou realmente respondendo à pergunta, mas há um livro inteiro sobre esse assunto:
Phillip I. Bom, James William Hardin (2003). Erros comuns nas estatísticas (e como evitá-los). Wiley. ISBN 9780471460688
fonte
interpretar
Probability(data | hypothesis)
comoProbability(hypothesis | data)
sem a aplicação do teorema de Bayes.fonte
Estatística ritualizada.
Esse "pecado" é quando você aplica qualquer coisa que lhe foi ensinada, independentemente de sua adequação, porque é assim que as coisas são feitas. São estatísticas por rotina, um nível acima, permitindo que a máquina escolha suas estatísticas para você.
Os exemplos são estudantes de nível introdutório a Estatística, que tentam ajustar tudo ao modesto teste t e ao kit de ferramentas ANOVA, ou sempre que alguém se pergunta "Ah, eu tenho dados categóricos, devo usar X" sem parar para olhar para o dados ou considere a pergunta que está sendo feita.
Uma variação desse pecado envolve o uso de código que você não entende para produzir uma saída que você apenas entende, mas conhece "a quinta coluna, cerca de 8 linhas abaixo" ou qualquer que seja a resposta que você deveria estar procurando.
fonte
Talvez regressão passo a passo e outras formas de teste após a seleção do modelo.
Selecionar variáveis independentes para modelagem sem ter uma hipótese a priori por trás dos relacionamentos existentes pode levar a falácias lógicas ou correlações espúrias, entre outros erros.
Referências úteis (de uma perspectiva biológica / bioestatística):
Kozak, M. & Azevedo, R. (2011). O uso da seleção de variáveis por etapas para criar modelos de análise de caminho seqüencial faz sentido? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x
Whittingham, MJ, Stephens, P., Bradbury, RB e Freckleton, RP (2006). Por que ainda usamos modelagem gradual em ecologia e comportamento? The Journal of animal ecology, 75 (5), 1182-11. doi: 10.1111 / j.1365-2656.2006.01141.x
Frank Harrell, Estratégias de Modelagem de Regressão , Springer 2001.
fonte
Algo que vejo uma quantidade surpreendente em jornais de conferências e até em jornais está fazendo múltiplas comparações (por exemplo, de correlações bivariadas) e depois relatando todos os p <0,05s como "significativos" (ignorando a exatidão ou a injustiça disso no momento).
Sei o que você quer dizer com graduados em psicologia - também terminei o doutorado em psicologia e ainda estou apenas aprendendo realmente. É muito ruim, acho que a psicologia precisa levar a análise quantitativa de dados mais a sério se quisermos usá-la (o que, claramente, deveríamos)
fonte
Sendo exploratório, mas fingindo ser confirmatório. Isso pode acontecer quando se está modificando a estratégia de análise (ajuste de modelo, seleção de variáveis e assim por diante) orientada por dados ou orientada a resultados, mas não afirmando isso abertamente e relatando apenas os "melhores" (ou seja, com menores valores de p) como se tinha sido a única análise. Isso também se aplica ao fato de vários testes feitos por Chris Beeley e resultar em uma alta taxa de falsos positivos em relatórios científicos.
fonte
O que eu vejo com frequência e sempre mói minhas engrenagens é a suposição de que um efeito principal estatisticamente significativo em um grupo e um efeito principal não estatisticamente significativo em outro grupo implica um efeito significativo x interação com o grupo.
fonte
Especialmente em epidemiologia e saúde pública - usando aritmética em vez de escala logarítmica ao reportar gráficos de medidas relativas de associação (taxa de risco, razão de chances ou razão de risco).
Mais informações aqui .
fonte
Correlação implica causalidade, que não é tão ruim quanto aceitar a hipótese nula.
fonte
A and B are correlated
normalmente só verA causes B
, mas nãoB causes A
... (e esquecerC
o que provocaA
eB
)Análise de dados de taxa (precisão, etc.) usando ANOVA, assumindo assim que os dados de taxa apresentam erro distribuído gaussiano quando na verdade é distribuído binomialmente. Dixon (2008) fornece uma discussão sobre as conseqüências desse pecado e a exploração de abordagens de análise mais apropriadas.
fonte
Um popular atual está plotando intervalos de confiança de 95% em torno dos valores brutos de desempenho em projetos de medidas repetidas quando eles se relacionam apenas à variação de um efeito. Por exemplo, um gráfico de tempos de reação em um design de medidas repetidas com intervalos de confiança em que o termo de erro é derivado do MSE de uma ANOVA de medidas repetidas. Esses intervalos de confiança não representam nada sensato. Eles certamente não representam nada sobre o tempo absoluto de reação. Você pode usar o termo de erro para gerar intervalos de confiança em torno do efeito, mas isso raramente é feito.
fonte
Embora eu possa me relacionar com muito do que Michael Lew diz, o abandono dos valores-p em favor da razão de verossimilhança ainda perde um problema mais geral - o de enfatizar demais os resultados probabilísticos sobre os tamanhos dos efeitos, necessários para dar um significado substantivo ao resultado. Esse tipo de erro ocorre em todas as formas e tamanhos e acho que é o erro estatístico mais insidioso. Com base em J. Cohen, M. Oakes e outros, escrevi um artigo sobre isso em http://integrativestatistics.com/insidious.htm .
fonte
Falha ao testar a suposição de que o erro é normalmente distribuído e tem variação constante entre os tratamentos. Essas suposições nem sempre são testadas; portanto, o ajuste do modelo de mínimos quadrados é provavelmente usado frequentemente quando na verdade é inapropriado.
fonte
Meu curso introdutório de psicometria na graduação passou pelo menos duas semanas ensinando como realizar uma regressão gradual. Existe alguma situação em que a regressão gradual seja uma boa ideia?
fonte
Meu antigo professor de estatísticas tinha uma "regra de ouro" para lidar com discrepâncias: se você encontrar uma discrepância no gráfico de dispersão, cubra-a com o polegar :)
fonte
Pode ser mais uma resposta de estatísticas pop do que o que você está procurando, mas:
Usando a média como um indicador de localização quando os dados estão altamente inclinados .
Isto não é necessariamente um problema, se você e seu público-alvo sabem do que estão falando, mas esse geralmente não é o caso, e a mediana geralmente oferece uma idéia melhor do que está acontecendo.
Meu exemplo favorito é o salário médio, que geralmente é relatado como "salário médio". Dependendo da desigualdade de renda / riqueza em um país, isso pode ser muito diferente do salário médio, o que fornece um indicador muito melhor de onde as pessoas estão na vida real. Por exemplo, na Austrália, onde temos uma desigualdade relativamente baixa, a mediana é 10 a 15% menor que a média . Nos EUA, a diferença é muito mais acentuada , a mediana é inferior a 70% da média e a diferença está aumentando.
Informar sobre o salário "médio" (médio) resulta em um quadro mais satisfatório do que o necessário, e também pode dar a um grande número de pessoas a falsa impressão de que não estão ganhando tanto quanto as pessoas "normais".
fonte
Que o valor de p é a probabilidade de que a hipótese nula seja verdadeira e (1-p) é a probabilidade de que a hipótese alternativa seja verdadeira, de que, ao não rejeitar a hipótese nula, a hipótese alternativa é falsa etc.
fonte
Do mesmo modo que @dirkan - O uso de valores-p como uma medida formal de evidência da hipótese nula é verdadeiro. Ele possui algumas boas características heurísticas e intuitivamente boas, mas é essencialmente uma medida incompleta de evidência, porque não faz referência à hipótese alternativa. Embora os dados possam ser improváveis sob nulo (levando a um pequeno valor p), os dados podem ser ainda mais improváveis sob a hipótese alternativa.
fonte
Usando gráficos de pizza para ilustrar frequências relativas. Mais aqui .
fonte
Usando estatística / probabilidade no teste de hipóteses para medir a "verdade absoluta". As estatísticas simplesmente não podem fazer isso, elas só podem ser úteis para decidir entre alternativas , que devem ser especificadas "de fora" do paradigma estatístico. Declarações como "a hipótese nula é verdadeira pelas estatísticas" estão incorretas; as estatísticas podem dizer apenas "a hipótese nula é favorecida pelos dados, em comparação com a hipótese alternativa". Se você assumir que a hipótese nula ou a alternativa deve ser verdadeira, você pode dizer "o nulo provou ser verdade", mas isso é apenas uma consequência trivial de sua suposição, e não algo demonstrado pelos dados.
fonte
E da mesma forma (ou quase o mesmo que) a resposta do @ ogrisel , realizando uma pesquisa em grade e relatando apenas o melhor resultado.
fonte
(Com um pouco de sorte, isso será controverso.)
Usando uma abordagem de Neyman-Pearson para análise estatística de experimentos científicos. Ou, pior, usando um híbrido mal definido de Neyman-Pearson e Fisher.
fonte
Solicitando e talvez obtendo o fluxograma : aquela coisa gráfica em que você diz qual é o nível de suas variáveis e que tipo de relacionamento está procurando, e segue as setas para baixo para obter um teste de marca ou uma estatística de marca . Às vezes, é oferecido com caminhos 'paramétricos' e 'não paramétricos' misteriosos.
fonte