Quais são os avanços nas estatísticas dos últimos 15 anos?

56

Ainda me lembro do artigo dos Annals of Statistics sobre Boosting, de Friedman-Hastie-Tibshirani, e dos comentários sobre os mesmos assuntos de outros autores (incluindo Freund e Schapire). Naquela época, claramente o Boosting era visto como um avanço em muitos aspectos: computacionalmente viável, um método de conjunto, com desempenho excelente, porém misterioso. Na mesma época, o SVM atingiu a maioridade, oferecendo uma estrutura sustentada por teoria sólida e com muitas variantes e aplicações.

Isso foi nos maravilhosos anos 90. Nos últimos 15 anos, parece-me que muitas estatísticas foram uma operação de limpeza e detalhamento, mas com poucas visualizações realmente novas.

Então, eu vou fazer duas perguntas:

  1. Perdi algum papel revolucionário / seminal?
  2. Caso contrário, existem novas abordagens que você acha que têm o potencial de mudar o ponto de vista da inferência estatística?

Regras:

  1. Uma resposta por post;
  2. Referências ou links são bem-vindos.

PS: Eu tenho alguns candidatos a avanços promissores. Vou publicá-los mais tarde.

gappy
fonte
5
Veja stats.stackexchange.com/q/1883/159 para uma pergunta semelhante (que foi fechada como subjetiva e argumentativa).
Rob Hyndman
11
Eu estava prestes a trazer a mesma discussão. Cheira como uma duplicata.
Dirk Eddelbuettel
11
É subjetivo, claro, mas ainda não está bom para a CW?
Christopher Aden
11
Isso foi em uma escala de tempo mais longa. Eu não acho que é uma duplicata. Quanto à argumentação, cabe aos participantes. Não estou tentando atribuir um troféu aqui, apenas para acompanhar os trabalhos seminais que eu e outros podemos ter perdido. Como não há resposta certa, sou a favor de uma CW. Acho interessante que até agora todas as respostas estejam sobre inovações bayesianas.
gappy
2
Parece um post que pode ser adquirido. Eu acho que isso pode ficar aberto.
gung - Restabelece Monica

Respostas:

43

A resposta é tão simples que eu tenho que escrever toda essa bobagem para fazer o CV, deixe-me publicá-la: R

hans0l0
fonte
14

Não tenho certeza se você chamaria isso de "avanço", mas a publicação da Teoria das Probabilidades: A Lógica da Ciência por Edwin Jaynes e Larry Bretthorst pode ser digna de nota. Algumas das coisas que eles fazem aqui são:

1) mostram equivalência entre alguns esquemas iterativos de "ajuste sazonal" e integração bayesiana de "parâmetro de incômodo".

2) resolveu o chamado "Paradoxo da Marginalização" - considerado a "morte do bayesianismo" por alguns, e a "morte de priores impróprios" por outros.

3) a idéia de que probabilidade descreve um estado de conhecimento sobre uma proposição ser verdadeira ou falsa, em vez de descrever uma propriedade física do mundo .

Os três primeiros capítulos deste livro estão disponíveis gratuitamente aqui .

probabilityislogic
fonte
2
Infelizmente, a resolução de Jaynes sobre o paradoxo da marginalização foi falha. Veja as notas de Kevin Van Horn sobre o tratamento de Jaynes do paradoxo da marginalização , disponível aqui .
Ciano
11
@yan - Observe que, embora sua resolução tenha sido falha em algumas áreas, seus princípios subjacentes a resolveram. A regra geral dos priores próprios e seus limites convergentes significa que o mp não pode surgir. A falha é provavelmente devido ao livro estar inacabado na maior parte da parte dois. Eu gosto da resolução [aqui] ( arxiv.org/abs/math/0310006 ) melhor que a versão ksvh. mais curto e mais geral.
probabilityislogic
14

Como estatístico aplicado e autor ocasional de software secundário, eu diria:

WinBUGS (lançado em 1997)

É baseado no BUGS, lançado há mais de 15 anos (1989), mas foi o WinBUGS que tornou a análise bayesiana de modelos realisticamente complexos disponível para uma base de usuários muito mais ampla. Ver, por exemplo , Lunn, Spiegelhalter, Thomas & Best (2009) (e a discussão sobre ele em Statistics in Medicine vol. 28, edição 25 ).

parada
fonte
2
Como isso muda agora que Stansaiu?
Ari B. Friedman
13

kEuEu

shabbychef
fonte
Você já usou o LARS? Estou perguntando, porque nunca ouvi falar disso antes e parece realmente interessante. O artigo original é um pouco longo (93 páginas), então gostaria de ter uma opinião antes de aprofundar.
Tomek Tarczynski
@Tomek Tarczynski: usei uma pequena quantidade. Existe um pacote no Matlab (tenho certeza de que existe um ou mais no R), que usei. Ele também fornece um PCA esparso, no qual eu estava mais interessado. Admito que apenas passei o papel no papel. ;)
shabbychef
11

A introdução da função de perda "discrepância intrínseca" e outras funções de perda "sem parametrização" na teoria da decisão. Tem muitas outras propriedades "agradáveis", mas acho que a melhor é a seguinte:

θθeθg(θ)g(θe)

Eu acho isso muito legal! (por exemplo, a melhor estimativa das probabilidades de log é log (p / (1-p)), a melhor estimativa de variância é o quadrado do desvio padrão, etc. etc.)

A pegada? a discrepância intrínseca pode ser bastante difícil de resolver! (envolve min () funcion, uma razão de verossimilhança e integrais!)

A "contra-captura"? você pode "reorganizar" o problema para facilitar o cálculo!

O "contador-contra-captura"? descobrir como "reorganizar" o problema pode ser difícil!

Aqui estão algumas referências que eu sei que usam essa função de perda. Embora eu goste muito das partes de "estimativa intrínseca" desses documentos / slides, tenho algumas reservas sobre a abordagem "referência anterior", que também é descrita.

Teste de Hipótese Bayesiana: Uma Abordagem de Referência

Estimação intrínseca

Comparando médias normais: novos métodos para um problema antigo

Estimativa bayesiana objetiva integrada e teste de hipóteses

probabilityislogic
fonte
11

Apenas dentro da janela de 15 anos, acredito, estão os algoritmos para controlar a taxa de descoberta falsa . Eu gosto da abordagem 'valor-q'.

shabbychef
fonte
11
q
9

Adicionando meus próprios 5 centavos, acredito que o avanço mais significativo dos últimos 15 anos foi o Compressed Sensing. LARS, LASSO e uma série de outros algoritmos se enquadram nesse domínio, pois o Compressed Sensing explica por que eles funcionam e os estende a outros domínios.

gappy
fonte
11
Eu observei o Compressed Sensing e, como não estatístico, fico me perguntando: "Isso não é apenas projeção aleatória inversa?". Eu sei que "apenas" é uma palavra fácil de se expressar, mas parece que as pessoas estão deixando de fora o que parecem conexões óbvias entre projeção aleatória (por volta de 2000) e sensor comprimido (por volta de 2004).
Wayne
9

Algo que tem muito pouco a ver com as próprias estatísticas, mas tem sido extremamente benéfico: o crescente poder de fogo dos computadores, tornando mais acessíveis conjuntos de dados maiores e análises estatísticas mais complexas, especialmente em campos aplicados.

Fomite
fonte
8

O algoritmo de propagação de expectativas para a inferência bayesiana, especialmente na classificação do processo gaussiano, foi sem dúvida um avanço significativo, pois fornece um método de aproximação analítica eficiente que funciona quase tão bem quanto abordagens baseadas em amostragem computacionalmente caras (ao contrário da aproximação usual de Laplace). Veja o trabalho de Thomas Minka e outros no roteiro do PE

Dikran Marsupial
fonte
O EP parece legal (embora ainda machuque minha cabeça). Ainda falta garantias gerais de convergência?
conjugateprior
2

Embora um pouco mais geral que as estatísticas, acho que houve importantes avanços nos métodos de pesquisa reproduzível (RR) . Por exemplo, o desenvolvimento de R knittreSweavepacotes e notebooks "R Markdown", as melhorias no LyX e no LaTeX contribuíram significativamente para o compartilhamento de dados, colaboração, verificação / validação e até mesmo o avanço estatístico adicional. Os artigos publicados em periódicos estatísticos, médicos e epidemiológicos raramente permitem reproduzir resultados facilmente antes do surgimento desses métodos / tecnologias de pesquisa reproduzíveis. Agora, vários periódicos exigem pesquisa reproduzível e muitos estatísticos estão usando RR e postando código, seus resultados e fontes de dados na web. Isso também ajudou a promover disciplinas de ciência de dados e tornou o aprendizado estatístico mais acessível.

Estatísticas
fonte
1

Na minha opinião, artigo publicado em 2011 na revista Science. Os autores propõem medidas de associação muito interessantes entre pares de variáveis ​​aleatórias que funcionam bem em muitas situações em que medidas semelhantes falham (Pearson, Spearman, Kendall). Papel muito bom. Aqui está.

Miroslav Sabo
fonte
O link parece estar quebrado.
dsaxton
Pode ser encontrado também aqui: ncbi.nlm.nih.gov/pmc/articles/PMC3325791/pdf/nihms358982.pdf
Miroslav Sabo