Resumindo , quanto mais aprendo sobre estatística, menos confio em artigos publicados em meu campo; Simplesmente acredito que os pesquisadores não estão fazendo suas estatísticas suficientemente bem.
Sou leigo, por assim dizer. Sou formado em biologia, mas não tenho educação formal em estatística ou matemática. Gosto de R e frequentemente faço um esforço para ler (e entender ...) alguns dos fundamentos teóricos dos métodos que aplico ao fazer pesquisas. Não me surpreenderia se a maioria das pessoas que hoje faz análises não é formalmente treinada. Eu publiquei cerca de 20 artigos originais, alguns dos quais foram aceitos por periódicos e estatísticos reconhecidos frequentemente envolvidos no processo de revisão. Minhas análises geralmente incluem análise de sobrevivência, regressão linear, regressão logística, modelos mistos. Nunca um revisor perguntou sobre premissas, adequação ou avaliação do modelo.
Portanto, nunca me preocupei muito com suposições, ajuste e avaliação do modelo. Começo com uma hipótese, executo a regressão e depois apresento os resultados. Em alguns casos, fiz um esforço para avaliar essas coisas, mas sempre acabava com " bem, não cumpria todas as suposições, mas confio nos resultados (" conhecimento do assunto ") e eles são plausíveis, então tudo bem " e ao consultar um estatístico, eles sempre pareciam concordar.
Agora, conversei com outros estatísticos e não estatísticos (químicos, médicos e biólogos) que realizam análises eles mesmos; parece que as pessoas realmente não se preocupam muito com todas essas suposições e avaliações formais. Mas aqui no CV, há uma abundância de pessoas perguntando sobre resíduos, ajuste do modelo, maneiras de avaliá-lo, autovalores, vetores e a lista continua. Deixe-me colocar desta maneira, quando o lme4 avisa sobre grandes valores próprios, duvido muito que muitos de seus usuários se importem em resolver isso ...
Vale a pena o esforço extra? Não é provável que a maioria de todos os resultados publicados não respeite essas suposições e talvez nem sequer as tenha avaliado? Provavelmente, esse é um problema crescente, uma vez que os bancos de dados aumentam a cada dia e existe a noção de que quanto maiores os dados, menos importantes são as suposições e avaliações.
Eu poderia estar absolutamente errado, mas é assim que eu percebi isso.
Atualização: Citação emprestada do StasK (abaixo): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509
fonte
Respostas:
Sou treinado como estatístico, não como biólogo ou médico. Mas faço bastante pesquisa médica (trabalhando com biólogos e médicos). Como parte da minha pesquisa, aprendi bastante sobre o tratamento de várias doenças diferentes. Isso significa que, se um amigo me perguntar sobre uma doença que eu pesquisei, posso escrever uma receita para um medicamento que eu sei que é comumente usado para essa doença em particular? Se eu fizesse isso (não faço), em muitos casos, provavelmente funcionaria bem (já que um médico apenas prescreveria o mesmo medicamento), mas sempre há a possibilidade de que eles tenham alergia / medicamento interação / outra que um médico saberia perguntar, que eu não faço e acabo causando muito mais mal do que bem.
Se você está fazendo estatística sem entender o que está assumindo e o que pode dar errado (ou consultando um estatístico ao longo do caminho que procurará essas coisas), então está praticando a negligência estatística. Na maioria das vezes, provavelmente tudo ficará bem, mas e a ocasião em que uma suposição importante não se mantém, mas você a ignora?
Eu trabalho com alguns médicos que são razoavelmente competentes estatisticamente e podem fazer muitas de suas próprias análises, mas eles ainda passam por mim. Freqüentemente, confirmo que eles fizeram a coisa correta e que eles mesmos podem fazer a análise (e geralmente são gratos pela confirmação), mas ocasionalmente farão algo mais complexo e, quando mencionei uma abordagem melhor, eles geralmente reverterão a análise. para mim ou minha equipe, ou pelo menos me traga para um papel mais ativo.
Portanto, minha resposta à sua pergunta do título é "Não", não estamos exagerando, pelo contrário, devemos enfatizar algumas coisas mais para que os leigos tenham maior probabilidade de, pelo menos, verificar novamente seus procedimentos / resultados com um estatístico.
Editar
Esta é uma adição baseada no comentário de Adam abaixo (será um pouco longo para outro comentário).
Adam, obrigado pelo seu comentário. A resposta curta é "eu não sei". Penso que estão sendo feitos progressos na melhoria da qualidade estatística dos artigos, mas as coisas mudaram tão rapidamente de muitas maneiras diferentes que levará um tempo para recuperar o atraso e garantir a qualidade. Parte da solução está focada nas suposições e nas consequências das violações nos cursos de introdução às estatísticas. É mais provável que isso aconteça quando as aulas são ministradas por estatísticos, mas precisa acontecer em todas as aulas.
Algumas revistas estão se saindo melhor, mas eu gostaria que um revisor estatístico específico se tornasse o padrão. Houve um artigo alguns anos atrás (desculpe, não tenha a referência à mão, mas foi no JAMA ou no New England Journal of Medicine) que mostrou uma maior probabilidade de ser publicado (embora não seja tão grande a diferença quanto deveria ser) no JAMA ou NEJM se um bioestatístico ou epidemiologista foi um dos co-autores.
Um artigo interessante publicado recentemente é: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412, que discute alguns dos mesmos problemas.
fonte
Bem, sim, as suposições importam - se elas não importassem, não precisaríamos fazê-las, não é?
A questão é o quanto eles importam - isso varia de acordo com procedimentos e suposições e o que você deseja reivindicar sobre seus resultados (e também quão tolerante é o seu público em relação à aproximação - até imprecisão - de tais alegações).
Portanto, para um exemplo de situação em que uma suposição é crítica, considere a suposição de normalidade em um teste F de variações; mesmo mudanças bastante modestas na distribuição podem ter efeitos bastante dramáticos nas propriedades (nível de significância e poder reais) do procedimento. Se você afirma que está realizando um teste no nível de 5% quando realmente está no nível de 28%, está fazendo, de certa forma, o mesmo tipo de mentira sobre como você conduziu seus experimentos. Se você não acha que essas questões estatísticas são importantes, faça argumentos que não confiam nelas. Por outro lado, se você quiser usar as informações estatísticas como suporte, não poderá deturpar esse suporte.
Em outros casos, determinadas suposições podem ser muito menos críticas. Se você está estimando o coeficiente em uma regressão linear e não se importa se é estatisticamente significativo e não se preocupa com eficiência, bem, isso não importa necessariamente se a suposição de homosquasticidade é válida. Mas se você quiser dizer que é estatisticamente significativo ou mostrar um intervalo de confiança, sim, isso certamente pode importar.
fonte
Enquanto Glen_b deu uma ótima resposta , gostaria de acrescentar alguns centavos a isso.
Uma consideração é se você realmente deseja obter a verdade científica, o que exigiria polir seus resultados e descobrir todos os detalhes sobre se sua abordagem é defensável, em comparação com a publicação no "ah, bem, ninguém verifica esses valores próprios na minha disciplina de qualquer maneira" modo. Em outras palavras, você teria que perguntar à sua consciência profissional interior se está fazendo o melhor trabalho possível. Referir-se à baixa alfabetização estatística e às práticas estatísticas laxistas em sua disciplina não é um argumento convincente. Os revisores costumam ser, na melhor das hipóteses, meio úteis se vierem da mesma disciplina com esses padrões negligentes, embora algumas empresas de ponta tenham iniciativas explícitas para trazer conhecimento estatístico ao processo de revisão.
Mas mesmo se você é um fatiador de salame cínico "publique ou pereça", a outra consideração é basicamente a segurança da reputação da sua pesquisa. Se o seu modelo falhar e você não o conhecer, estará se expondo ao risco de refutação por aqueles que podem vir e enfiar o machado nas fendas das verificações do modelo com instrumentos mais refinados. É verdade que a possibilidade disso parece baixa, pois a comunidade científica, apesar dos requisitos filosóficos nominais de reputação e reprodutibilidade, raramente se engaja nas tentativas de reproduzir a pesquisa de outra pessoa. (Eu estava envolvido em escrever alguns artigos que basicamente começaram com "oh meu Deus, eles realmenteescreva isso? ", e ofereceu uma crítica e um aprimoramento de uma abordagem semi-estatística publicada por pares.) No entanto, as falhas nas análises estatísticas, quando expostas , geralmente produzem salpicos grandes e desagradáveis.
fonte
A natureza das violações de suposições pode ser uma pista importante para pesquisas futuras. Por exemplo, uma violação do pressuposto de riscos proporcionais na análise de sobrevivência de Cox pode ser devida a uma variável com um grande efeito na sobrevivência a curto prazo, mas pouco efeito no longo prazo. Esse é o tipo de informação inesperada, mas potencialmente importante que você pode obter examinando a validade de suas suposições em um teste estatístico.
Então você faz a si mesmo, não apenas a literatura, um possível desserviço se não testar as suposições subjacentes. Quando os periódicos de alta qualidade começarem a exigir uma revisão estatística mais sofisticada, você será chamado com mais frequência a fazê-lo. Você não quer estar em uma posição em que um teste exigido por um revisor estatístico mina o que você pensou ter sido um ponto-chave do seu trabalho.
fonte
Vou responder de uma perspectiva intermediária. Não sou estatístico, sou químico. No entanto, passei os últimos 10 anos me especializando em quimiometria = análise de dados estatísticos para dados relacionados à química.
Provavelmente é esse o caso.
Versão curta:
Agora sobre as suposições. IMHO a situação aqui é muito heterogênea para lidar com isso em uma declaração. A compreensão de para que exatamente a suposição é necessária e de que maneira é provável que ela seja violada pelo aplicativo é necessária para julgar se a violação é inofensiva ou crítica. E isso precisa tanto das estatísticas quanto do conhecimento do aplicativo.
Como praticante que enfrenta suposições inatingíveis, no entanto, também preciso de outra coisa: eu gostaria de ter uma "segunda linha de defesa" que, por exemplo, me permita julgar se a violação está realmente causando problemas ou se é inofensiva.
Versão longa:
Do ponto de vista prático, algumas suposições típicas quase nunca são atendidas. Às vezes, posso formular suposições sensatas sobre os dados, mas muitas vezes os problemas se tornam tão complicados do ponto de vista estatístico que as soluções ainda não são conhecidas. A essa altura, acredito que fazer ciência significa que você atingirá as fronteiras do que é conhecido provavelmente não apenas em sua disciplina específica, mas talvez também em outras disciplinas (aqui: estatística aplicada).
Existem outras situações em que certas violações costumam ser inofensivas - por exemplo, a normalidade multivariada com covariância igual para o LDA é necessária para mostrar que o LDA é ideal, mas é sabido que a projeção segue uma heurística que geralmente também apresenta bom desempenho se a suposição não é cumprida. E quais violações provavelmente causarão problemas: também se sabe que caudas pesadas na distribuição levam a problemas com a LDA na prática.
Infelizmente, esse conhecimento raramente faz parte da escrita condensada de um artigo, de modo que o leitor não tem idéia se os autores decidiram por seu modelo depois de considerarem bem as propriedades da aplicação e do modelo ou se apenas escolheram qualquer modelo eles se depararam.
Às vezes, abordagens práticas (heurísticas) evoluem que acabam sendo muito úteis do ponto de vista prático, mesmo que demore décadas até que suas propriedades estatísticas sejam entendidas (estou pensando em PLS).
A outra coisa que acontece (e deve acontecer mais) é que as possíveis consequências da violação possam ser monitoradas (medidas), o que permite decidir se há um problema ou não. Para o aplicativo, talvez eu não me importe se meu modelo é ótimo, desde que seja suficientemente bom.
Em quimiometria, temos um foco bastante forte na previsão. E isso oferece uma boa fuga caso as suposições da modelagem não sejam atendidas: independentemente dessas suposições, podemos medir se o modelo funciona bem. Do ponto de vista de um praticante, eu diria que você pode fazer o que quiser durante a modelagem, se fizer e reportar uma validação honesta do estado da arte.
Para análise quimiométrica de dados espectroscópicos, chegamos a um ponto em que não observamos resíduos, porque sabemos que os modelos são facilmente super adequados. Em vez disso, analisamos o desempenho dos dados de teste (e possivelmente a diferença em treinar o desempenho preditivo de dados).
Existem outras situações em que, embora não possamos predizer com precisão quanta violação de qual suposição leva a um colapso do modelo, podemos medir as conseqüências de violações graves da suposição diretamente.
Próximo exemplo: os dados do estudo com os quais eu lida normalmente são ordens de magnitude abaixo do tamanho da amostra que as regras práticas recomendam para casos por variável (a fim de garantir estimativas estáveis). Mas os livros de estatística normalmente não se importam muito com o que fazer na prática se essa suposição não puder ser atendida. Nem como medir se você realmente está com problemas a esse respeito. Mas: essas questões são tratadas nas disciplinas mais aplicadas. Acontece que muitas vezes é muito fácil medir diretamente a estabilidade do modelo ou pelo menos se suas previsões são instáveis (leia aqui no CV sobre validação de reamostragem e estabilidade do modelo). E existem maneiras de estabilizar modelos instáveis (por exemplo, ensacamento).
Como exemplo da "segunda linha de defesa", considere a validação de reamostragem. A suposição usual e mais forte é que todos os modelos substitutos são equivalentes a um modelo treinado em todo o conjunto de dados. Se essa suposição for violada, obtemos o conhecido viés pessimista. A segunda linha é que pelo menos os modelos substitutos são equivalentes entre si, para que possamos reunir os resultados do teste.
Por último, mas não menos importante, gostaria de incentivar os "cientistas clientes" e os estatísticos a falarem mais uns com os outros . A análise estatística dos dados IMHO não é algo que pode ser feito de maneira unidirecional. Em algum momento, cada lado precisará adquirir algum conhecimento do outro lado. Às vezes ajudo a "traduzir" entre estatísticos, químicos e biólogos. Um estatístico pode saber que o modelo precisa de regularização. Mas para escolher, digamos, entre o LASSO e uma cordilheira, eles precisam conhecer as propriedades dos dados que somente o químico, o físico ou o biólogo podem conhecer.
fonte
Dado que o currículo é preenchido por estatísticos e pessoas curiosas, se não competentes, sobre estatísticas, não me surpreendo com todas as respostas que enfatizam a necessidade de entender as suposições. Eu também concordo com essas respostas em princípio.
No entanto, ao considerar a pressão para publicar e o baixo padrão de integridade estatística atualmente, devo dizer que essas respostas são bastante ingênuas. Podemos dizer às pessoas o que elas devem fazer o dia todo (por exemplo, verifique sua suposição), mas o que elas farão depende apenas dos incentivos institucionais. O próprio OP afirma que ele consegue publicar 20 artigos sem entender a suposição do modelo. Dada a minha própria experiência, não acho difícil de acreditar.
Assim, eu quero bancar o advogado do diabo, respondendo diretamente à pergunta do OP. Essa não é de forma alguma uma resposta que promova "boas práticas", mas é uma que reflete como as coisas são praticadas com uma pitada de sátira.
Não, se o objetivo é publicar, não vale a pena gastar todo o tempo compreendendo o modelo. Basta seguir o modelo predominante na literatura. Dessa forma, 1) seu trabalho passará por revisões com mais facilidade e 2) o risco de ser exposto à "incompetência estatística" é pequeno, porque expor você significa expor todo o campo, incluindo muitas pessoas idosas.
Sim, é provável que a maioria dos resultados publicados não seja verdadeira. Quanto mais envolvido estou em pesquisas reais, mais acho provável.
fonte
A resposta curta é não." Os métodos estatísticos foram desenvolvidos sob conjuntos de suposições que devem ser atendidas para que os resultados sejam válidos. É lógico, então, que, se as suposições não forem atendidas, os resultados poderão não ser válidos. Obviamente, algumas estimativas ainda podem ser robustas, apesar das violações das premissas do modelo. Por exemplo, o logit multinomial parece ter um bom desempenho, apesar das violações da premissa do IIA (consulte a dissertação de Kropko [2011] na referência abaixo).
Como cientistas, temos a obrigação de garantir que os resultados apresentados sejam válidos, mesmo que as pessoas no campo não se importem se as suposições foram cumpridas. Isso ocorre porque a ciência se baseia no pressuposto de que os cientistas farão as coisas da maneira certa em sua busca pelos fatos. Confiamos em nossos colegas para verificar seu trabalho antes de enviá-lo para os periódicos. Nós confiar em que os árbitros de rever competentemente um manuscrito antes que ele seja publicado. Nós assumimosque os pesquisadores e os árbitros saibam o que estão fazendo, para que os resultados de trabalhos publicados em revistas especializadas sejam confiáveis. Sabemos que isso nem sempre é verdade no mundo real, com base na enorme quantidade de artigos na literatura em que você acaba balançando a cabeça e revirando os olhos para os resultados obviamente escolhidos pela cereja em periódicos respeitáveis (" Jama publicou este artigo ?! ").
Portanto, não, a importância não pode ser exagerada, especialmente porque as pessoas confiam em você - o especialista - para fazer sua diligência. O mínimo que você pode fazer é falar sobre essas violações na seção "limitações" do seu artigo para ajudar as pessoas a interpretar a validade dos seus resultados.
Referência
Kropko, J. 2011. Novas abordagens para a escolha discreta e a metodologia de seção transversal de séries temporais para pesquisa política (dissertação). UNC-Chapel Hill, Chapel Hill, NC.
fonte
Se você precisa de estatísticas muito avançadas, é mais provável que seus dados estejam uma bagunça, como é o caso da maioria das ciências sociais, sem mencionar a psicologia. Nos campos em que você tem bons dados, você precisa de muito poucas estatísticas. A física é um exemplo muito bom.
Considere esta citação de Galileu em seu famoso experimento de aceleração gravitacional:
Observe o texto destacado por mim. É isso que são bons dados. Vem de um experimento bem planejado, baseado em uma boa teoria. Você não precisa de estatísticas para extrair o que lhe interessa. Não havia estatísticas naquele momento, nem computadores. O resultado? Uma relação bastante fundamental, que ainda se mantém, e pode ser testada em casa por um aluno da 6ª série.
Eu roubei a citação desta página incrível .
fonte
Esta questão parece ser um caso de integridade profissional.
O problema parece ser que: (a) não há avaliação crítica suficiente da análise estatística por leigos ou (b) um caso de conhecimento comum é insuficiente para identificar erro estatístico (como um erro do Tipo 2)?
Sei o suficiente sobre minha área de especialização para solicitar uma contribuição de especialistas quando estou próximo dos limites dessa especialização. Vi pessoas usarem coisas como o teste F (e o quadrado R no Excel) sem conhecimento suficiente.
Na minha experiência, os sistemas educacionais, em nosso desejo de promover estatísticas, simplificaram demais as ferramentas e subestimaram os riscos / limites. Esse é um tema comum que outros já experimentaram e explicaria a situação?
fonte