Em geral, fazer inferência é mais difícil do que fazer previsões?

13

Minha pergunta vem do seguinte fato. Eu tenho lido posts, blogs, palestras e livros sobre aprendizado de máquina. Minha impressão é que os profissionais de aprendizado de máquina parecem indiferentes a muitas coisas com as quais os estatísticos / econométricos se preocupam. Em particular, os profissionais de aprendizado de máquina enfatizam a precisão das previsões sobre a inferência.

Um exemplo ocorreu quando eu estava usando o Machine Learning de Andrew Ng no Coursera. Quando ele discute o Modelo Linear Simples, ele não mencionou nada sobre a propriedade AZUL dos estimadores ou sobre como a heterocedasticidade "invalidaria" o intervalo de confiança. Em vez disso, ele se concentra na implementação de descidas de gradiente e no conceito de validação cruzada / curva ROC. Esses tópicos não foram abordados nas minhas aulas de econometria / estatística.

Outro exemplo ocorreu quando participei das competições do Kaggle. Eu estava lendo o código e os pensamentos de outras pessoas. Uma grande parte dos participantes simplesmente joga tudo no SVM / random forest / XGBoost.

Ainda outro exemplo é sobre a seleção gradual de modelos. Essa técnica é amplamente usada, pelo menos online e no Kaggle. Muitos livros clássicos de aprendizado de máquina também o abordam, como Introdução ao aprendizado estatístico. No entanto, de acordo com esta resposta (que é bastante convincente), a seleção gradual de modelos enfrenta muitos problemas, especialmente quando se trata de "descobrir o verdadeiro modelo". Parece que existem apenas duas possibilidades: os profissionais de aprendizado de máquina não conhecem o problema passo a passo, ou sabem, mas não se importam.

Então, aqui estão as minhas questões:

  1. É verdade que (em geral) os profissionais de aprendizado de máquina se concentram na previsão e, portanto, não se preocupam com muitas coisas com as quais os estatísticos / economistas se preocupam?
  2. Se é verdade, qual é a razão por trás disso? É porque a inferência é mais difícil em algum sentido?
  3. Há toneladas de materiais on-line sobre aprendizado de máquina (ou previsão). Se estou interessado em aprender sobre a inferência, no entanto, quais são os recursos on-line que posso consultar?

Atualização : Acabei de perceber que a palavra "inferência" pode significar muitas coisas. O que eu quis dizer com "inferência" refere-se a perguntas como

  1. Será que causa ou causada ? Ou, de maneira mais geral, quais são as relações causais entre ?Y Y X X 1 , X 2 , , X nXYYXX1,X2,,Xn

  2. Como "todos os modelos estão errados", quão "errado" é o nosso modelo do modelo verdadeiro?

  3. Dadas as informações de uma amostra, o que podemos dizer sobre a população e quão confiantes podemos dizer isso?

Devido ao meu conhecimento estatístico muito limitado, nem tenho certeza se essas questões se enquadram no domínio da estatística ou não. Mas esses são os tipos de perguntas com as quais os profissionais de aprendizado de máquina parecem não se importar. Talvez os estatísticos também não se importem? Eu não sei.

3x89g2
fonte
2
Brian D Ripley é citado em useR! 2004 com "Parafraseando provocativamente, o aprendizado de máquina é estatística menos qualquer verificação de modelos e suposições". A frase tornou-se parte do fortunespacote no CRAN. Isso apenas para dizer que você não está sozinho com a Impressão, que o rigor matemático nem sempre é a principal preocupação no aprendizado de máquina.
Bernhard
Leo Breiman aborda exatamente essa questão em seu artigo de 2001 "Modelagem Estatística: as duas culturas" , que é uma ótima leitura.
skd

Respostas:

6

Primeiro, eu teria uma perspectiva diferente para o aprendizado de máquina. O que você mencionou, a palestra Coursera de Andrew Ng e a competição Kaggle não são 100% de aprendizado de máquina, mas alguns ramos voltados para aplicações práticas. A pesquisa real de aprendizado de máquina deve ser o trabalho que inventa o modelo aleatório de floresta / SVM / aumento de gradiente, que é bastante próximo de estatística / matemática.

Concordo que os profissionais de aprendizado de máquina se concentrem mais na precisão em comparação com estatísticos / economistas. Existem razões pelas quais as pessoas interessadas em obter melhor precisão, em vez de "inferência sobre a verdadeira distribuição". O principal motivo é a maneira como coletamos dados e usamos os dados alterados nas últimas décadas.

As estatísticas foram estabelecidas há cem anos, mas, no passado, ninguém pensava em você ter bilhões de dados para treinamento e outros bilhões de dados para teste. (Por exemplo, número de imagens na Internet). Portanto, com uma quantidade relativamente pequena de dados, são necessárias suposições do conhecimento do domínio para fazer o trabalho. Ou você pode pensar em "regularizar" o modelo. Uma vez feitas as suposições, há problemas de inferências sobre a distribuição "verdadeira".

No entanto, se pensarmos cuidadosamente, podemos garantir que essas suposições sejam verdadeiras e as inferências válidas? Gostaria de citar George Box:

Todos os modelos estão errados, mas alguns são úteis

Agora, voltemos a pensar na abordagem prática para colocar mais ênfase na precisão do que suposição / inferência. É uma boa abordagem, quando temos uma quantidade enorme de dados.

Suponha que estamos construindo um modelo para todas as imagens que contenham rostos humanos no nível de pixels. Primeiro, é muito difícil propor as suposições no nível de pixel para bilhões de imagens: ninguém possui esse conhecimento de domínio. Segundo, podemos pensar em todas as formas possíveis de ajustar os dados e, como os dados são enormes, todos os modelos que temos podem não ser suficientes (quase impossível de ajustar demais).

É também por isso que a "aprendizagem profunda / rede neural" tornou-se popular novamente. Sob a condição de big data, podemos escolher um modelo realmente complexo e encaixá-lo da melhor forma possível, e ainda podemos dar certo, porque nossos recursos computacionais são limitados, comparando com todos os dados reais da palavra.

Finalmente, se o modelo que construímos for bom em um grande conjunto de dados de teste, ele será bom e valioso, embora possamos não conhecer a suposição sublinhada ou a verdadeira distribuição.


Quero ressaltar que a palavra "inferência" tem significados diferentes em diferentes comunidades.

  • Na comunidade de estatísticas, geralmente significa obter informações da verdadeira distribuição de maneira paramétrica ou não paramétrica.
  • Na comunidade de aprendizado de máquina, geralmente significa calcular certas probabilidades de uma determinada distribuição. Consulte o Tutorial de modelos gráficos de Murphy para obter exemplos.
  • No aprendizado de máquina, as pessoas usam a palavra "aprendizado" para representar "obter os parâmetros da verdadeira distribuição", que é semelhante à "inferência" na comunidade de estatísticas.

Então, você pode ver, essencialmente, que muitas pessoas no aprendizado de máquina também estão fazendo "inferência".

Além disso, você também pode pensar sobre as pessoas na academia que gostam de "renomear seu trabalho e revender": criar novos termos pode ser útil para mostrar a novidade da pesquisa. De fato, existem muitas sobreposições entre inteligência artificial, mineração de dados e aprendizado de máquina. E eles estão intimamente relacionados à estatística e ao design de algoritmos. Novamente, não há limites claros para fazer "inferência" ou não.

Haitao Du
fonte
3
Eu posso ver de onde você vem. Uma abordagem alternativa pode ser: previsão = foco nas variáveis ​​observadas, inferência = foco nas variáveis ​​ocultas. Então, em certo sentido, a inferência está tentando produzir novos tipos de medidas, enquanto a previsão é mais sobre novas realizações de medidas que, em princípio, poderiam ser observadas? (Este é compatível com a sua resposta, é claro)
GeoMatt22