Ainda me lembro do artigo dos Annals of Statistics sobre Boosting, de Friedman-Hastie-Tibshirani, e dos comentários sobre os mesmos assuntos de outros autores (incluindo Freund e Schapire). Naquela época, claramente o Boosting era visto como um avanço em muitos aspectos: computacionalmente viável, um método de conjunto, com desempenho excelente, porém misterioso. Na mesma época, o SVM atingiu a maioridade, oferecendo uma estrutura sustentada por teoria sólida e com muitas variantes e aplicações.
Isso foi nos maravilhosos anos 90. Nos últimos 15 anos, parece-me que muitas estatísticas foram uma operação de limpeza e detalhamento, mas com poucas visualizações realmente novas.
Então, eu vou fazer duas perguntas:
- Perdi algum papel revolucionário / seminal?
- Caso contrário, existem novas abordagens que você acha que têm o potencial de mudar o ponto de vista da inferência estatística?
Regras:
- Uma resposta por post;
- Referências ou links são bem-vindos.
PS: Eu tenho alguns candidatos a avanços promissores. Vou publicá-los mais tarde.
Respostas:
A resposta é tão simples que eu tenho que escrever toda essa bobagem para fazer o CV, deixe-me publicá-la: R
fonte
Não tenho certeza se você chamaria isso de "avanço", mas a publicação da Teoria das Probabilidades: A Lógica da Ciência por Edwin Jaynes e Larry Bretthorst pode ser digna de nota. Algumas das coisas que eles fazem aqui são:
1) mostram equivalência entre alguns esquemas iterativos de "ajuste sazonal" e integração bayesiana de "parâmetro de incômodo".
2) resolveu o chamado "Paradoxo da Marginalização" - considerado a "morte do bayesianismo" por alguns, e a "morte de priores impróprios" por outros.
3) a idéia de que probabilidade descreve um estado de conhecimento sobre uma proposição ser verdadeira ou falsa, em vez de descrever uma propriedade física do mundo .
Os três primeiros capítulos deste livro estão disponíveis gratuitamente aqui .
fonte
Como estatístico aplicado e autor ocasional de software secundário, eu diria:
WinBUGS (lançado em 1997)
É baseado no BUGS, lançado há mais de 15 anos (1989), mas foi o WinBUGS que tornou a análise bayesiana de modelos realisticamente complexos disponível para uma base de usuários muito mais ampla. Ver, por exemplo , Lunn, Spiegelhalter, Thomas & Best (2009) (e a discussão sobre ele em Statistics in Medicine vol. 28, edição 25 ).
fonte
Stan
saiu?fonte
A introdução da função de perda "discrepância intrínseca" e outras funções de perda "sem parametrização" na teoria da decisão. Tem muitas outras propriedades "agradáveis", mas acho que a melhor é a seguinte:
Eu acho isso muito legal! (por exemplo, a melhor estimativa das probabilidades de log é log (p / (1-p)), a melhor estimativa de variância é o quadrado do desvio padrão, etc. etc.)
A pegada? a discrepância intrínseca pode ser bastante difícil de resolver! (envolve min () funcion, uma razão de verossimilhança e integrais!)
A "contra-captura"? você pode "reorganizar" o problema para facilitar o cálculo!
O "contador-contra-captura"? descobrir como "reorganizar" o problema pode ser difícil!
Aqui estão algumas referências que eu sei que usam essa função de perda. Embora eu goste muito das partes de "estimativa intrínseca" desses documentos / slides, tenho algumas reservas sobre a abordagem "referência anterior", que também é descrita.
Teste de Hipótese Bayesiana: Uma Abordagem de Referência
Estimação intrínseca
Comparando médias normais: novos métodos para um problema antigo
Estimativa bayesiana objetiva integrada e teste de hipóteses
fonte
Apenas dentro da janela de 15 anos, acredito, estão os algoritmos para controlar a taxa de descoberta falsa . Eu gosto da abordagem 'valor-q'.
fonte
Adicionando meus próprios 5 centavos, acredito que o avanço mais significativo dos últimos 15 anos foi o Compressed Sensing. LARS, LASSO e uma série de outros algoritmos se enquadram nesse domínio, pois o Compressed Sensing explica por que eles funcionam e os estende a outros domínios.
fonte
Algo que tem muito pouco a ver com as próprias estatísticas, mas tem sido extremamente benéfico: o crescente poder de fogo dos computadores, tornando mais acessíveis conjuntos de dados maiores e análises estatísticas mais complexas, especialmente em campos aplicados.
fonte
O algoritmo de propagação de expectativas para a inferência bayesiana, especialmente na classificação do processo gaussiano, foi sem dúvida um avanço significativo, pois fornece um método de aproximação analítica eficiente que funciona quase tão bem quanto abordagens baseadas em amostragem computacionalmente caras (ao contrário da aproximação usual de Laplace). Veja o trabalho de Thomas Minka e outros no roteiro do PE
fonte
Penso que a 'Inferência Bayesiana Aproximada para Modelos Gaussianos Latentes Utilizando Aproximações de Laplace Nested Integradas' de H. Rue et. al (2009) é um candidato em potencial.
fonte
Na minha opinião, tudo o que permite executar novos modelos em larga escala é um avanço. A interpolação de kernel para processos gaussianos estruturados escalonáveis (KISS-GP) pode ser um candidato (embora a idéia seja nova e não tenha havido muitas implementações da idéia apresentada).
fonte
Embora um pouco mais geral que as estatísticas, acho que houve importantes avanços nos métodos de pesquisa reproduzível (RR) . Por exemplo, o desenvolvimento de R
knittr
eSweave
pacotes e notebooks "R Markdown", as melhorias no LyX e no LaTeX contribuíram significativamente para o compartilhamento de dados, colaboração, verificação / validação e até mesmo o avanço estatístico adicional. Os artigos publicados em periódicos estatísticos, médicos e epidemiológicos raramente permitem reproduzir resultados facilmente antes do surgimento desses métodos / tecnologias de pesquisa reproduzíveis. Agora, vários periódicos exigem pesquisa reproduzível e muitos estatísticos estão usando RR e postando código, seus resultados e fontes de dados na web. Isso também ajudou a promover disciplinas de ciência de dados e tornou o aprendizado estatístico mais acessível.fonte
Na minha opinião, artigo publicado em 2011 na revista Science. Os autores propõem medidas de associação muito interessantes entre pares de variáveis aleatórias que funcionam bem em muitas situações em que medidas semelhantes falham (Pearson, Spearman, Kendall). Papel muito bom. Aqui está.
fonte