Qual é a idéia "fundamental" do aprendizado de máquina para estimar parâmetros?

19

A idéia "fundamental" das estatísticas para estimar parâmetros é a máxima probabilidade . Gostaria de saber qual é a ideia correspondente no aprendizado de máquina.

Qn 1. Seria justo dizer que a idéia 'fundamental' no aprendizado de máquina para estimar parâmetros é: 'Funções de Perda'

[Nota: Tenho a impressão de que os algoritmos de aprendizado de máquina geralmente otimizam uma função de perda e, portanto, a pergunta acima.]

Qn 2: Existe alguma literatura que tente preencher a lacuna entre estatística e aprendizado de máquina?

[Nota: Talvez, por meio da relação entre as funções de perda e a probabilidade máxima. (por exemplo, OLS é equivalente à probabilidade máxima de erros normalmente distribuídos, etc.)]

kjetil b halvorsen
fonte
3
Não vejo o interesse dessas perguntas em tentar preencher uma lacuna fictícia. qual é o objetivo de tudo isso? Além disso, existem muitas outras idéias que são fundamentais na estatística ... e a função de perda tem pelo menos 100 anos de idade. você pode reduzir estatísticas assim? talvez sua pergunta seja sobre o conceito fundamental de datamining / estatística / aprendizado de máquina, como você chama ... Então a pergunta já existe e é muito ampla stats.stackexchange.com/questions/372/… .
Robin girard
Bem, eu não sei muito sobre aprendizado de máquina ou suas conexões com estatísticas. De qualquer forma, observe esta pergunta: stats.stackexchange.com/questions/6/…, que sugere que, no mínimo, as abordagens para responder às mesmas perguntas são diferentes. É "antinatural" se perguntar se existe algum tipo de vínculo entre eles? Sim, eu concordo que há muitas idéias nas estatísticas. É por isso que sou fundamental em aspas e restringi o escopo à estimativa de parâmetros de interesse.
@Srikant link entre o que? note que eu realmente gosto de pesquisar links entre objetos bem definidos, acho realmente natural.
Robin girard
6
Como, indiscutivelmente, um aprendiz de máquina, estou aqui para lhe dizer que maximizamos as probabilidades. O tempo todo. Um monte de documentos de aprendizado de máquina começam com "olhe para a minha probabilidade, veja como ela se fatoriza, observe-me maximizar". Eu sugeriria que é perigoso reivindicar uma base fundamental de qualquer disciplina em termos de técnicas de inferência. É mais sobre a qual conferência você vai!
Mike Dewar
6
Eu não acho que os bayesianos concordariam com a máxima probabilidade de ser a idéia fundamental da estatística.
Marc Claesen

Respostas:

17

Se a estatística é sobre maximizar a probabilidade, o aprendizado de máquina é sobre como minimizar as perdas. Como você não sabe a perda em que incorrerá em dados futuros, você minimiza uma aproximação, ou seja, perda empírica.

Por exemplo, se você tiver uma tarefa de previsão e for avaliado pelo número de classificações incorretas, poderá treinar parâmetros para que o modelo resultante produz o menor número de classificações incorretas nos dados de treinamento. "Número de erros de classificação" (ou seja, perda de 0-1) é uma função de perda difícil de se trabalhar, porque não é diferenciável; portanto, você a aproxima com um "substituto" suave. Por exemplo, a perda de log é um limite superior à perda de 0-1; portanto, você pode minimizá-la, e isso será o mesmo que maximizar a probabilidade condicional dos dados. Com o modelo paramétrico, essa abordagem se torna equivalente à regressão logística.

Em uma tarefa de modelagem estruturada e na aproximação de perda de log de perda de 0-1, você obtém algo diferente da probabilidade condicional máxima; em vez disso, você maximiza o produto de probabilidades marginais (condicionais).

Para obter uma melhor aproximação da perda, as pessoas perceberam que o modelo de treinamento para minimizar a perda e usá-la como uma estimativa de perda futura é uma estimativa excessivamente otimista. Portanto, para uma minimização mais precisa (verdadeira perda futura), eles adicionam um termo de correção de viés à perda empírica e minimizam isso, conhecido como minimização de risco estruturada.

Na prática, descobrir o termo correto de correção de viés pode ser muito difícil, então você adiciona uma expressão "no espírito" do termo de correção de viés, por exemplo, soma dos quadrados dos parâmetros. No final, quase todas as abordagens de classificação supervisionada do aprendizado de máquina paramétrico acabam treinando o modelo para minimizar os seguintes

iL(m(xi,w),yi)+P(w)

onde é seu modelo parametrizado pelo vetor w , i é tomado sobre todos os pontos de dados { x i , y i } , L é uma aproximação computacionalmente agradável de sua perda real e P ( w ) é um termo de correção / regularização de polarizaçãomwi{xi,yi}LP(w)

Por exemplo, se seu , y { - 1 , 1 } , uma abordagem típica seria deixar m ( x ) = assinar ( w x ) , L ( m ( x ) , y ) = - log ( y × ( x w ) ) , w )x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw)) e escolha q por validação cruzadaP(w)=q×(ww)q

Yaroslav Bulatov
fonte
3
Eu adoraria ver esta perda minimizando em clustering, kNN ou samambaias aleatórios ...
Bem, para uma caracterização da função de perda do vizinho mais próximo de k-means, consulte a subseção relevante (2.5) deste artigo: hpl.hp.com/conferences/icml2003/papers/21.pdf
John L. Taylor
@ John Ainda assim, isso é misturar objetivos com razões. Em grande medida, você pode explicar cada algoritmo em termos de minimizar algo e chamar isso de "perda". O kNN não foi inventado dessa maneira: Pessoal, pensei em perdas como essa, vamos otimizar e ver o que vai acontecer !; Em vez disso, pessoal, digamos que a decisão seja menos contínua no espaço de recursos, se tivermos uma boa medida de similaridade ... e assim por diante.
2
"Se a estatística é para maximizar a probabilidade, o aprendizado de máquina é para minimizar a perda", eu discordo de sua premissa - fortemente e em sua totalidade. Talvez fosse uma estatística verdadeira em 1920, mas certamente não é hoje.
JMS
19

Vou dar uma resposta detalhada. Pode fornecer mais citações sob demanda, embora isso não seja realmente controverso.

  • A estatística não se resume a maximizar a probabilidade (log). Isso é um anátema para os bayesianos de princípios que apenas atualizam seus posteriores ou propagam suas crenças através de um modelo apropriado.
  • Muitas estatísticas são sobre minimização de perdas. E assim é muito aprendizado de máquina. A minimização empírica da perda tem um significado diferente no ML. Para uma visão clara e narrativa, confira "A natureza da aprendizagem estatística" do Vapnik.
  • O Machine Learning não se resume à minimização de perdas. Primeiro, porque existem muitos bayesianos no ML; segundo, porque várias aplicações no ML estão relacionadas ao aprendizado temporal e ao DP aproximado. Certamente, existe uma função objetiva, mas ela tem um significado muito diferente do que na aprendizagem "estatística".

Não acho que exista uma lacuna entre os campos, apenas muitas abordagens diferentes, todas sobrepostas até certo ponto. Não sinto necessidade de transformá-los em disciplinas sistemáticas com diferenças e semelhanças bem definidas, e dada a velocidade com que evoluem, acho que é uma empresa condenada de qualquer maneira.

gappy
fonte
8

Não posso postar um comentário (o local apropriado para esse comentário), pois não tenho reputação suficiente, mas a resposta aceita como a melhor resposta pelo proprietário da pergunta não é verdadeira.

"Se a estatística é para maximizar a probabilidade, o aprendizado de máquina é para minimizar a perda".

A probabilidade é uma função de perda. Maximizar a probabilidade é o mesmo que minimizar uma função de perda: o desvio, que é apenas -2 vezes a função de probabilidade de log. Da mesma forma, encontrar uma solução de mínimos quadrados é minimizar a função de perda que descreve a soma residual dos quadrados.

ML e estatísticas usam algoritmos para otimizar o ajuste de alguma função (nos termos mais amplos) aos dados. A otimização envolve necessariamente minimizar algumas funções de perda.

Thylacoleo
fonte
1
Bom ponto, ainda as principais diferenças estão em outro lugar; primeiro, a estatística refere-se à adaptação de um modelo aos dados que possui; ML refere-se à adaptação de um modelo aos dados que possuirá; segundo, as estatísticas ASSUMEM que um processo que se observa é totalmente dirigido por algum modelo "oculto" embaraçosamente trivial que eles desejam escavar, enquanto o ML TRIES para tornar complexo o suficiente para ser um modelo independente de problemas se comporta como a realidade.
@mbq. Essa é uma caricatura bastante dura das estatísticas. Eu trabalhei em cinco departamentos de estatística da universidade e acho que não conheci alguém que pensaria em estatística assim.
Rob Hyndman
1
@Rob Caricature? Eu acho que é isso que torna as estatísticas bonitas! Você assume todos esses gaussianos e linearidades e simplesmente funciona - e há uma razão para isso chamada expansão de Taylor. O mundo é um inferno de um complexo, mas em aprox. Linear. (que geralmente é 90% da complexidade) embaraçosamente trivial. O ML (e as estatísticas não paramétricas) aparecem nesses poucos por cento das situações em que é necessária uma abordagem mais sutil. Isso não é almoço grátis - se você quiser teoremas, precisará de suposições; se você não quiser suposições, precisará de métodos aproximados.
@mbq. Justo. Devo ter interpretado mal o seu comentário.
Rob Hyndman
4

Há uma resposta trivial - não há estimativa de parâmetros no aprendizado de máquina! Não assumimos que nossos modelos sejam equivalentes a alguns modelos de segundo plano ocultos; tratamos a realidade e o modelo como caixas-pretas e tentamos sacudir a caixa do modelo (treinar na terminologia oficial) para que sua saída seja semelhante à da caixa da realidade.

O conceito de não apenas probabilidade, mas toda a seleção do modelo com base nos dados de treinamento é substituído pela otimização da precisão (o que for definido; em princípio, a bondade no uso desejado) nos dados não vistos; isso permite otimizar a precisão e o recall de maneira acoplada. Isso leva ao conceito de uma capacidade de generalização, que é alcançada de diferentes maneiras, dependendo do tipo de aluno.

A resposta para a pergunta dois depende muito das definições; ainda acho que a estatística não paramétrica é algo que liga os dois.


fonte
Não tenho certeza de que isso esteja totalmente correto. Em que sentido os métodos de aprendizado de máquina funcionam sem estimativa de parâmetros (dentro de um conjunto de modelos paramétricos ou sem distribuição)?
31710 John L. Taylor
1
Você está estimando / calculando algo (o termo exato pode ser diferente). Por exemplo, considere uma rede neural. Você não está calculando os pesos para a rede quando está tentando prever algo? Além disso, quando você diz que treina para combinar a saída com a realidade, parece estar implicitamente falando sobre algum tipo de função de perda.
@John, @Srikant Os alunos têm parâmetros, mas esses não são os parâmetros no sentido estatístico. Considere regressão linear y = a x (sem termo livre para simp.). a é um parâmetro em que os métodos estatísticos se ajustam, alimentando-se da suposição de que y = a x. O aprendizado de máquina apenas tentará produzir um x quando for solicitado x dentro da faixa de trem (isso faz sentido, pois não está assumindo y = a x); pode caber centenas de parâmetros para fazer isso.
3
[citação necessária]. Em outras palavras, resposta intrigante, apesar de não corresponder (pelo menos) a muita literatura sobre ML.
gappy
1
O clássico é "Modelagem Estatística: As Duas Culturas" de Breiman.
2

Eu não acho que exista uma idéia fundamental em torno da estimativa de parâmetros no Machine Learning. A multidão de ML maximizará felizmente a probabilidade ou a posterior, desde que os algoritmos sejam eficientes e prevejam "com precisão". O foco está na computação e os resultados das estatísticas são amplamente utilizados.

Se você procura idéias fundamentais em geral, na teoria da aprendizagem computacional, o PAC é central; na teoria estatística da aprendizagem, miniminização estrutural de riscos ; e há outras áreas (por exemplo, consulte o post da Prediction Science de John Langford).

Nas estatísticas de ponte / ML, a divisão parece exagerada. Gostei da resposta de gappy à pergunta "Duas culturas".

ars
fonte
A multidão estatística está clicando aleatoriamente no SPSS até que o valor-p desejado apareça ...
1

Você pode reescrever um problema de maximização de probabilidade como um problema de minimização de perda, definindo a perda como a probabilidade de log negativa. Se a probabilidade for um produto de probabilidades independentes ou densidades de probabilidade, a perda será uma soma de termos independentes, que podem ser calculados com eficiência. Além disso, se as variáveis ​​estocásticas são normalmente distribuídas, o problema correspondente de minimização de perdas será um problema de mínimos quadrados.

Se for possível criar um problema de minimização de perdas reescrevendo uma maximização de probabilidade, isso deve ser o de preferir criar um problema de minimização de perda do zero, pois isso dará origem a um problema de minimização de perda que é (espero) mais teoricamente fundado e menos ad hoc. Por exemplo, pesos, como nos mínimos quadrados ponderados, para os quais você geralmente precisa adivinhar valores estimados, simplesmente emergirão do processo de reescrever o problema original de maximização de probabilidade e já possuem (espero) valores ideais.

Olá adeus
fonte