Quais são alguns documentos estatísticos aplicados interessantes e bem escritos?

28

Quais são alguns bons artigos descrevendo aplicações de estatísticas que seriam divertidas e informativas de ler? Só para esclarecer, não estou procurando artigos que descrevam novos métodos estatísticos (por exemplo, um artigo sobre regressão de menor ângulo), mas artigos que descrevem como resolver problemas do mundo real.

Por exemplo, um artigo que se encaixa no que eu estou procurando é o artigo sobre clima do segundo Clube de Revistas Validadas por Cruzamentos . Estou meio que procurando mais artigos estatísticos, em vez de trabalhos de aprendizado de máquina, mas acho que é meio que uma distinção vaga (eu classificaria os trabalhos do Prêmio Netflix como um pouco limitados, e um trabalho sobre análise de sentimentos como algo estou não está procurando).

Estou perguntando, porque a maioria das aplicações estatísticas que eu vi são os pequenos trechos que você viu nos livros didáticos ou coisas relacionadas ao meu próprio trabalho, então eu gostaria de me ramificar um pouco.

raegtin
fonte
4
Você tem algum interesse geral que gostaria de listar? Isso pode ajudar a orientar sugestões. Aplicações de estatística tornaram-se bastante difundidas em uma variedade notavelmente ampla de campos.
cardeal
1
@ cardinal, não, nenhum interesse em particular - o objetivo era se ramificar das coisas que eu normalmente leio, então estou tentando não limitar nenhuma resposta. (Isso talvez fazer a pergunta um pouco demasiado ampla, mas eu acho que eu estou procurando pessoais "best of" listas das pessoas.)
raegtin
1
Uma leitura obrigatória clássica, especialmente porque todos os modelos de probabilidade introduzidos são motivados pelo raciocínio "físico" sobre o problema, em vez de retirados de um chapéu, é: F. Mosteller, DL Wallace (1963): Inferência em um problema de autoria: Um estudo comparativo dos métodos de discriminação aplicados à autoria dos controversos artigos federalistas , J. Am. Stat. Assoc. 58 (302), pp. 275–309. Também neste link .
pglpm

Respostas:

12

É um pouco difícil para mim ver qual artigo pode ser interessante para você, então deixe-me tentar sugerir os seguintes, na literatura psicométrica:

Borsboom, D. (2006). O ataque dos psicometristas . Psychometrika , 71 , 425-440.

para vestir a cena (por que precisamos usar modelos estatísticos que reflitam melhor as hipóteses subjacentes comumente encontradas na pesquisa psicológica?) e

Borsboom, D. (2008). Perspectivas psicométricas em sistemas de diagnóstico . Journal of Clinical Psychology , 64 , 1089-1108.

para uma perspectiva aplicada à medicina diagnóstica (transição da avaliação sim / não conforme usada no DSM-IV para a abordagem "dimensional" destinada ao DSM-V). Uma revisão maior dos modelos de variáveis ​​latentes nas pesquisas biomédicas que eu gosto é:

Rabe-Hesketh, S. e Skrondal, A. (2008). Modelos variáveis ​​latentes clássicos para pesquisa médica . Métodos Estatísticos em Pesquisa Médica , 17 (1) , 5-32.

chl
fonte
@ Chl (+1) esses papéis Borsboom foram maravilhoso, eles realmente ampliou meu pensamento sobre a medição
richiemorrisroe
+1, eu gosto do Borsboom também. Para os interessados ​​no artigo The Attack, acho que também estariam interessados ​​em "The Concept of Validity", rhowell.ba.ttu.edu/borsboomValidity2004.pdf . Embora seja um pouco mais detalhado, não é tão fácil de acompanhar quanto o artigo Attack.
Andy W
10

Aqui estão cinco artigos altamente citados dos últimos 40 anos do Journal of the Royal Statistical Society, Série C: Estatística Aplicada, com uma aplicação clara no título que chamou minha atenção durante a varredura nos resultados de pesquisa da Web of Knowledge:

parada
fonte
9

Em um nível mais amplo, eu recomendaria o artigo ["Statistical Modeling: The Two Cultures"] [1] de Leo Breiman em 2001 (citado 515). Sei que ele foi coberto recentemente pelo clube de revistas e achei realmente interessante. Eu copiei o resumo.

Abstrato. Existem duas culturas no uso da modelagem estatística para tirar conclusões dos dados. Supõe-se que os dados sejam gerados por um determinado modelo de dados estocástico. O outro usa modelos algorítmicos e trata o mecanismo de dados como desconhecido. A comunidade estatística se comprometeu com o uso quase exclusivo de modelos de dados. Esse compromisso levou à teoria irrelevante, conclusões questionáveis ​​e impediu que os estatísticos trabalhassem em uma ampla gama de problemas atuais interessantes. A modelagem algorítmica, tanto na teoria quanto na prática, desenvolveu-se rapidamente em campos fora da estatística. Ele pode ser usado em grandes conjuntos de dados complexos e como uma alternativa mais precisa e informativa à modelagem de dados em conjuntos de dados menores. Se nosso objetivo como campo é usar dados para resolver problemas,

[1]: https://doi.org/10.1214/ss/1009213726 (acesso aberto)

Parbury
fonte
8

Do ponto de vista da epidemiologia genética, eu recomendaria a seguinte série de artigos sobre estudos de associação em todo o genoma :

  1. Cordell, HJ e Clayton, DG (2005). Estudos de associação genética .Lancet 366, 1121-1131.
  2. Cantor, RM, Lange, K. e Sinsheimer, JS (2010). Priorizando os resultados do GWAS: Uma revisão dos métodos estatísticos e recomendações para sua aplicação . The American Journal of Human Genetics 86, 6–22.
  3. Ioannidis, JPA, Thomas, G., Daly, MJ (2009). Validando, aumentando e refinando os sinais de associação em todo o genoma . Nature Reviews Genetics 10, 318-329.
  4. Balding, DJ (2006). Um tutorial sobre métodos estatísticos para estudos de associação populacional . Nature Reviews Genetics 7, 781-791.
  5. Green, AE et al. (2008). Usando dados genéticos na neurociência cognitiva: de dores crescentes a percepções genuínas . Nature Reviews Neuroscience 9, 710-720.
  6. McCarthy, MI et al. (2008). Estudos de associação em todo o genoma para características complexas: consenso, incerteza e desafios . Nature Reviews Genetics 9, 356-369.
  7. Comitê de Coordenação do Consórcio Psiquiátrico GWAS (2009). Genomewide Association Studies: História, justificativa e perspectivas de transtornos psiquiátricos .American Journal of Psychiatry 166 (5), 540-556.
  8. Sebastiani, P. et ai. (2009). Estudos de associação em todo o genoma e dissecção genética de características complexas .American Journal of Hematology 84 (8), 504-15.
  9. O Wellcome Trust Case Control Consortium (2007). Estudo de associação em todo o genoma de 14.000 casos de sete doenças comuns e 3.000 controles compartilhados .Nature 447, 661-678.
  10. O Wellcome Trust Case Control Consortium (2010). Estudo de associação de CNVs em todo o genoma em 16.000 casos de oito doenças comuns e 3.000 controles compartilhados . Nature 464, 713-720.
chl
fonte
2

Artigo com impacto inicial em pesquisas estatísticas de bioinformática:

Jelizarow et al . Super otimismo em bioinformática: uma ilustração . Bioinformática, 2010

Faz uma discussão interessante sobre fontes de preconceito, super adaptação e busca de significado.

Borlaug
fonte