A inspiração para esta pergunta vem do conhecido artigo de Leo-Breiman, Statistical Modeling: The Two Cultures (acesso aberto disponível). O autor compara o que vê como duas abordagens díspares para analisar dados, abordando idéias-chave em estatística clássica e aprendizado de máquina. No entanto, o artigo é inteligível para um grande público - sem dúvida para quem trabalha com dados, independentemente de ter pesquisado estatísticas no nível de doutorado ou ter feito apenas um curso introdutório. Além disso, o artigo é estimulante . Ou seja, gera prontamente discussões (como é evidenciado pela série de comentários animados publicados na mesma edição).
Estou curioso para descobrir mais artigos com essas qualidades. Ou seja, artigos que:
- Toque em conceitos fundamentais em estatística / análise de dados
- Pode ser entendido por um amplo público em termos de variação no foco da pesquisa e no treinamento estatístico formal
- Estimule a discussão, seja através de discernimento ou controvérsia
references
Richard Border
fonte
fonte
Respostas:
Shmueli, Galit. "Para explicar ou prever?" Statistical science (2010): 289-310.
Eu acredito que combina com seus três pontos de bala.
Ele fala sobre modelagem explicativa versus modelagem preditiva (os termos devem ser autoexplicativos) e observa que as diferenças entre eles geralmente não são reconhecidas.
Isso indica que, dependendo do objetivo da modelagem (explicativo vs. preditivo), diferentes estratégias de construção de modelo podem ser usadas e diferentes modelos podem ser selecionados como "o melhor".
É um artigo bastante abrangente e uma leitura agradável. Uma discussão sobre isso está resumida na postagem do blog de Rob J. Hyndman . Uma discussão relacionada ao Cross Validated está neste tópico (com muitos votos positivos). Outra pergunta (sem resposta) sobre o mesmo tópico é essa .
fonte
Não se sabe a muitos, mas quando os gigantes da profissão ainda estavam entre nós, eles não se davam bem. O debate sobre os fundamentos do teste de hipóteses especificamente, seja indutivo ou dedutivo, viu alguns insultos bastante sérios voando entre Fisher, por um lado, e Neyman-Pearson, por outro. E o problema nunca foi resolvido durante a vida deles.
Muito tempo depois de terem passado, Lehmann tenta preencher a lacuna e, na minha opinião, faz um bom trabalho, pois mostra que as abordagens são complementares e não mutuamente exclusivas. É isso que os alunos aprendem hoje em dia, a propósito. Você precisa conhecer algumas coisas básicas sobre o teste de hipóteses, mas poderá seguir o artigo sem problemas.
fonte
Wilk, MB e Gnanadesikan, R. 1968. Métodos de plotagem de probabilidade para a análise de dados. Biometrika 55: 1-17. Link Jstor se você tiver acesso
Este artigo tem quase 50 anos, mas ainda parece novo e inovador. Usando uma rica variedade de exemplos interessantes e substanciais, os autores unificam e ampliam uma variedade de idéias para plotar e comparar distribuições usando a estrutura de gráficos QQ (quantil-quantile) e PP (probabilidade-probabilidade). As distribuições aqui significam amplamente qualquer conjunto de dados ou números (resíduos, contrastes, etc., etc.) que surjam em suas análises.
Versões particulares desses gráficos remontam a várias décadas, obviamente com probabilidade normal ou gráficos de pontuação normais. que são nesses termos gráficos quantil-quantil, ou seja, gráficos de quantis observados versus quantis esperados ou teóricos de uma amostra do mesmo tamanho de uma distribuição normal (gaussiana). Mas os autores mostram, de maneira modesta e confiante, que as mesmas idéias podem ser estendidas facilmente - e praticamente com a computação moderna - para examinar outros tipos de quantis e plotar os resultados automaticamente.
Os autores, então ambos no Bell Telephone Laboratories, desfrutavam de instalações de computação de ponta, e mesmo muitas universidades e instituições de pesquisa levaram uma década ou mais para se atualizar. Mesmo agora, as idéias neste artigo merecem uma aplicação mais ampla do que recebem. É um texto ou curso introdutório raro que inclui qualquer uma dessas idéias além da trama normal de QQ. Histogramas e gráficos de caixas (cada um com muita utilidade, mas, apesar disso, cada um é estranho e limitado de várias maneiras) continuam a ser os principais grampos quando são introduzidos gráficos de distribuições.
No nível pessoal, mesmo que as principais idéias deste artigo tenham sido familiares durante a maior parte da minha carreira, gosto de relê-lo a cada dois anos ou mais. Uma boa razão é o prazer pela maneira como os autores produzem idéias simples, mas poderosas, com bons exemplos com exemplos sérios. Outra boa razão é a maneira como o artigo, que é escrito de maneira concisa, sem o menor traço de bombardeio, sugere extensões das idéias principais. Mais de uma vez, redescobri reviravoltas nas idéias principais abordadas explicitamente em dicas e comentários adicionais.
Este não é apenas um artigo para aqueles especialmente interessados em gráficos estatísticos, embora, a meu ver, deva incluir todos os interessados em qualquer tipo de estatística. Promove maneiras de pensar sobre distribuições que são praticamente úteis no desenvolvimento de habilidades e idéias estatísticas de qualquer pessoa.
fonte
Ioannidis, John PA "Por que a maioria das descobertas de pesquisas publicadas é falsa". Medicina PLoS (2005)
Ioannidis, John PA "Como tornar mais verdadeira a pesquisa publicada". Medicina PLoS (2014)
Deve ler para todo pesquisador / estatístico / analista que deseja evitar os perigos de usar e interpretar estatísticas incorretamente na pesquisa. O artigo de 2005 foi o mais acessado na história da Biblioteca Pública de Ciências e estimulou muita controvérsia e discussão.
fonte
Tukey, JW (1960) Conclusões vs Decisões Tecnométricas 2 (4): 423-433
Este artigo é baseado em uma palestra após o jantar de Tukey e há um comentário de que "uma discussão considerável se seguiu", para que corresponda a pelo menos o terço de seus pontos pontuais.
Li este artigo pela primeira vez quando estava concluindo um doutorado em engenharia e apreciei sua exploração dos aspectos práticos da análise de dados.
fonte
Efron e Morris, 1977, Stein's Paradox in Statistics .
Efron e Morris escreveram uma série de artigos técnicos sobre o estimador de James-Stein na década de 1970, enquadrando o "paradoxo" de Stein no contexto empírico de Bayes. O artigo de 1977 é popular, publicado na Scientific American .
É uma ótima leitura.
fonte
Bem, apesar do maior interesse no modelo de Roy estar entre os economistas (mas posso estar errado), seu artigo original "Some Thoughts on the Distribution of Earnings" de 1951, é uma discussão perspicaz e não técnica sobre o problema de auto-seleção. Este artigo serviu de inspiração para os modelos de seleção desenvolvidos pelo prêmio Nobel James Heckman. Embora velho, acho que combina com seus três pontos de bala.
fonte