Quais são os 'grandes problemas' nas estatísticas?

77

A matemática tem seus famosos problemas do milênio (e, historicamente, os 23 de Hilbert ), questões que ajudaram a moldar a direção do campo.

Tenho pouca ideia, no entanto, quais seriam as hipóteses de Riemann e P vs. NP de estatística.

Então, quais são as questões abertas abrangentes nas estatísticas?

Editado para adicionar: Como um exemplo do espírito geral (se não bastante específico) da resposta que estou procurando, encontrei uma palestra inspirada em "Hilbert's 23", de David Donoho, em uma conferência "Desafios matemáticos do século XXI": Análise de dados em alta dimensão: as maldições e bênçãos da dimensionalidade

Portanto, uma resposta em potencial poderia falar sobre big data e por que é importante, os tipos de desafios estatísticos que os dados de alta dimensão apresentam e os métodos que precisam ser desenvolvidos ou as perguntas que precisam ser respondidas para ajudar a resolver o problema.

raegtin
fonte
5
Obrigado por postar isso. É uma discussão importante (e potencialmente inspiradora) para se ter.
whuber

Respostas:

48

Uma grande questão deve envolver questões-chave da metodologia estatística ou, como a estatística é inteiramente sobre aplicativos, deve se preocupar como a estatística é usada com problemas importantes para a sociedade.

Essa caracterização sugere que o seguinte deve ser incluído em qualquer consideração de grandes problemas:

  • Qual a melhor forma de realizar ensaios com drogas . Atualmente, o teste clássico de hipóteses requer muitas fases formais de estudo. Nas fases posteriores (confirmatórias), as questões econômicas e éticas se aproximam. Podemos fazer melhor? Temos que colocar centenas ou milhares de pessoas doentes em grupos de controle e mantê-las lá até o final de um estudo, por exemplo, ou podemos encontrar melhores maneiras de identificar tratamentos que realmente funcionam e entregá-los aos membros do estudo (e outros) mais cedo?

  • Lidar com o viés de publicação científica . Os resultados negativos são publicados muito menos simplesmente porque eles simplesmente não atingem um valor p mágico. Todos os ramos da ciência precisam encontrar melhores maneiras de trazer à luz resultados cientificamente importantes, e não apenas estatisticamente significativos . (O problema de múltiplas comparações e o enfrentamento de dados de alta dimensão são subcategorias desse problema.)

  • Sondar os limites dos métodos estatísticos e suas interfaces com o aprendizado de máquina e a cognição de máquina . Inevitáveis ​​avanços na tecnologia da computação tornarão a IA verdadeira acessível em nossas vidas. Como vamos programar cérebros artificiais? Qual o papel do pensamento estatístico e do aprendizado estatístico na criação desses avanços? Como os estatísticos podem ajudar a pensar sobre cognição artificial, aprendizado artificial, explorar suas limitações e avançar?

  • Desenvolvendo melhores maneiras de analisar dados geoespaciais . Alega-se frequentemente que a maioria, ou grande maioria, dos bancos de dados contém referências de localização. Em breve, muitas pessoas e dispositivos serão localizados em tempo real com tecnologias de GPS e telefone celular. Os métodos estatísticos para analisar e explorar dados espaciais estão realmente na sua infância (e parecem relegados ao GIS e ao software espacial, que normalmente é usado por não estatísticos).

whuber
fonte
1
Quais são as maneiras pelas quais as pessoas estão tentando resolver esses problemas?
raegtin
3
@grautur: São quatro excelentes perguntas (e muitas mais, porque sua resposta se aplica a todas as respostas neste tópico). Todos eles merecem respostas elaboradas, mas obviamente não há espaço para isso aqui: uma pergunta de cada vez, por favor!
whuber
3
Com relação à primeira bala (testes com drogas): mesmo pessoas que, de outra forma, não estariam interessadas em experimentação médica, deveriam ler o artigo do New York Times New Drugs Stir Debate on Rules Basic of Clinical Trials ( nytimes.com/2010/09/19/health/research/ ... ) O leitor estatisticamente alfabetizado verá imediatamente as implicações não declaradas relativas ao projeto experimental e ao uso de valores-p para a tomada de decisão. Há uma resolução estatística, em algum lugar, do enigma da vida ou morte descrito neste artigo.
whuber
26

Michael Jordan tem um pequeno artigo chamado Quais são os problemas em aberto nas estatísticas bayesianas? , em que ele pesquisou um monte de estatísticos por suas opiniões sobre os problemas em aberto nas estatísticas. Resumirei (ou seja, copie e cole) um pouco aqui, mas provavelmente é melhor apenas ler o original.

Não paramétricos e semiparamétricos

  • Para que problemas os não paramétricos bayesianos são úteis e valem a pena?
  • David Dunson: "Os modelos não paramétricos de Bayes envolvem infinitos parâmetros e os anteriores são geralmente escolhidos por conveniência, com hiperparâmetros definidos em valores aparentemente razoáveis, sem objetivo ou justificativa subjetiva apropriados".
  • "Foi observado por várias pessoas que uma das aplicações atraentes dos não paramétricos freqüentistas é a inferência semiparamétrica, onde o componente não paramétrico do modelo é um parâmetro incômodo. Essas pessoas achavam que seria desejável aprofundar a teoria (freqüentista) de Semiparametria bayesiana ".

Priores

  • "A elicitação continua sendo uma importante fonte de problemas em aberto".
  • "Aad van der Vaart virou de cabeça para baixo o objetivo Bayes e apontou a falta de teoria para" situações em que se quer que o anterior aconteça no posterior ", em vez de" apenas fornecer uma abordagem bayesiana para suavizar ".

Relações bayesianas / freqüentistas

  • "Muitos entrevistados expressaram o desejo de aprofundar ainda mais as relações bayesianas / freqüentistas. Isso foi mais comumente evidenciado no contexto de modelos e dados de alta dimensão, onde não são apenas as abordagens subjetivas para a especificação de antecedentes difíceis de implementar, mas também os práticos de conveniência. (altamente) enganosa ".
  • Alguns entrevistados pediram a teoria não assintótica que possa revelar mais plenamente as vantagens putativas dos métodos bayesianos; por exemplo, David Dunson: "Muitas vezes, a taxa ótima freqüentista é obtida por procedimentos que claramente se saem muito pior em amostras finitas do que as abordagens bayesianas".

Computação e estatística

  • Alan Gelfand: "Se o MCMC não é mais viável para os problemas que as pessoas querem resolver, qual é o papel do INLA, de métodos variacionais, das abordagens ABC?"
  • "Vários entrevistados pediram uma integração mais completa da ciência da computação e da estatística, observando que o conjunto de inferências que se pode alcançar em qualquer situação é em conjunto uma função do modelo, do anterior, dos dados e dos recursos computacionais, e desejando para um gerenciamento mais explícito das compensações entre essas quantidades. De fato, Rob Kass levantou a possibilidade de uma noção de "solvabilidade inferencial", na qual alguns problemas são considerados além da esperança (por exemplo,seleção de modelo em regressão onde “para quantidades modestas de dados sujeitos a ruído não trivial é impossível obter intervalos de confiança úteis sobre os coeficientes de regressão quando há um grande número de variáveis ​​cuja presença ou ausência no modelo não é especificada a priori”) e onde existem outros problemas ("certos funcionais para os quais existem intervalos úteis de confiança") para os quais há esperança ".
  • "Vários entrevistados, enquanto pediam desculpas por uma certa imprecisão, expressaram a sensação de que uma grande quantidade de dados não implica necessariamente uma grande quantidade de computação; em vez disso, que de alguma forma a força inferencial presente em grandes dados deve ser transferida para o algoritmo e tornar possível se contentar com menos etapas computacionais para alcançar uma solução inferencial satisfatória (aproximada) ".

Seleção de Modelo e Teste de Hipóteses

  • George Casella: "Agora fazemos a seleção de modelos, mas os bayesianos não parecem se preocupar com as propriedades de basear inferência no modelo selecionado. E se estiver errado? Quais são as consequências de configurar regiões credíveis para um determinado parâmetro quando você selecionou o modelo errado? Podemos ter procedimentos com algum tipo de garantia? "β1
  • Necessidade de mais trabalho sobre fundamentos teóricos da decisão na seleção de modelos.
  • David Spiegelhalter: "Qual a melhor forma de tornar as verificações de conflitos anteriores / de dados parte integrante da análise bayesiana?"
  • Andrew Gelman: "Para a verificação de modelos, um dos principais problemas em aberto é o desenvolvimento de ferramentas gráficas para entender e comparar modelos. Os gráficos não são apenas dados brutos; modelos Bayesianos complexos oferecem oportunidade para uma análise exploratória de dados melhor e mais eficaz".
raegtin
fonte
13

Não tenho certeza do tamanho deles, mas há uma página da Wikipedia para problemas não resolvidos nas estatísticas. Sua lista inclui:

Inferência e teste

  • Erros sistemáticos
  • Admissibilidade do estimador Graybill – Deal
  • Combinando valores-p dependentes na meta-análise
  • Problema de Behrens – Fisher
  • Comparações múltiplas
  • Problemas em aberto nas estatísticas bayesianas

Design experimental

  • Problemas em quadrados latinos

Problemas de natureza mais filosófica

  • Problema de amostragem de espécies
  • Argumento do dia do julgamento final
  • Paradoxo da troca
gung
fonte
6

Como exemplo do espírito geral (se não bastante específico) da resposta que estou procurando, encontrei uma palestra inspirada em "Hilbert's 23", de David Donoho, em uma conferência "Desafios matemáticos do século XXI":

Análise de dados em alta dimensão: as maldições e bênçãos da dimensionalidade

raegtin
fonte
2
Posso sugerir que você edite sua pergunta principal para incluir essas informações?
russellpierce
4

O Mathoverflow tem uma pergunta semelhante sobre grandes problemas na teoria das probabilidades .

Parece que nessa página as perguntas mais importantes têm a ver com evitar auto-passeios e percolações aleatórias.

Robby McKilliam
fonte
1
Acho que a estatística é uma área separada da teoria das probabilidades.
raegtin
3
@raegtin - Não acho que a teoria das probabilidades seja separada da estatística, mas sim a teoria. "Estatística" é a aplicação da teoria da probabilidade a problemas inferenciais (isto é, a prática).
probabilityislogic
4

Você pode conferir o colóquio "Hard Problems in the Social Sciences" de Harvard, realizado no início deste ano. Várias dessas palestras oferecem questões sobre o uso da estatística e modelagem nas ciências sociais.

Charlie
fonte
3

Minha resposta seria a luta entre estatísticas freqüentistas e bayesianas. Quando as pessoas perguntam em que você "acredita", isso não é bom! Especialmente para uma disciplina científica.

pmgjones
fonte
2
Não há nada errado com um cientista "acreditando" em algo, especialmente porque uma probabilidade bayesiana representa o grau de crença ou conhecimento sobre a verdade de alguma proposição.
Dikran Marsupial
2
... O problema surge apenas quando um cientista não pode distinguir entre uma crença e um fato. Não há nada anticientífico na crença de que as estatísticas bayesianas ou freqüentistas sejam superiores, pois não há teste objetivo que possa decidir a resposta (AFAIK); portanto, a escolha é amplamente subjetiva e / ou é uma questão de "cavalos para percursos".
Dikran Marsupial
@propofol - Concordo que a palavra "acreditar" não é uma noção apropriada para usar nas estatísticas - ela carrega o tipo errado de conotação. Informação é uma palavra muito mais apropriada, eu acho (ou seja, "que informação você possui?"). Não altera os teoremas da matemática ou da otimalidade da análise bayesiana, mas dá a eles o significado adequado em termos de como eles são realmente usados. por exemplo, o conhecimento de uma teoria física ou mecanismo causal é informação, e não crença.
probabilityislogic