A idéia "fundamental" das estatísticas para estimar parâmetros é a máxima probabilidade . Gostaria de saber qual é a ideia correspondente no aprendizado de máquina.
Qn 1. Seria justo dizer que a idéia 'fundamental' no aprendizado de máquina para estimar parâmetros é: 'Funções de Perda'
[Nota: Tenho a impressão de que os algoritmos de aprendizado de máquina geralmente otimizam uma função de perda e, portanto, a pergunta acima.]
Qn 2: Existe alguma literatura que tente preencher a lacuna entre estatística e aprendizado de máquina?
[Nota: Talvez, por meio da relação entre as funções de perda e a probabilidade máxima. (por exemplo, OLS é equivalente à probabilidade máxima de erros normalmente distribuídos, etc.)]
machine-learning
maximum-likelihood
loss-functions
pac-learning
kjetil b halvorsen
fonte
fonte
Respostas:
Se a estatística é sobre maximizar a probabilidade, o aprendizado de máquina é sobre como minimizar as perdas. Como você não sabe a perda em que incorrerá em dados futuros, você minimiza uma aproximação, ou seja, perda empírica.
Por exemplo, se você tiver uma tarefa de previsão e for avaliado pelo número de classificações incorretas, poderá treinar parâmetros para que o modelo resultante produz o menor número de classificações incorretas nos dados de treinamento. "Número de erros de classificação" (ou seja, perda de 0-1) é uma função de perda difícil de se trabalhar, porque não é diferenciável; portanto, você a aproxima com um "substituto" suave. Por exemplo, a perda de log é um limite superior à perda de 0-1; portanto, você pode minimizá-la, e isso será o mesmo que maximizar a probabilidade condicional dos dados. Com o modelo paramétrico, essa abordagem se torna equivalente à regressão logística.
Em uma tarefa de modelagem estruturada e na aproximação de perda de log de perda de 0-1, você obtém algo diferente da probabilidade condicional máxima; em vez disso, você maximiza o produto de probabilidades marginais (condicionais).
Para obter uma melhor aproximação da perda, as pessoas perceberam que o modelo de treinamento para minimizar a perda e usá-la como uma estimativa de perda futura é uma estimativa excessivamente otimista. Portanto, para uma minimização mais precisa (verdadeira perda futura), eles adicionam um termo de correção de viés à perda empírica e minimizam isso, conhecido como minimização de risco estruturada.
Na prática, descobrir o termo correto de correção de viés pode ser muito difícil, então você adiciona uma expressão "no espírito" do termo de correção de viés, por exemplo, soma dos quadrados dos parâmetros. No final, quase todas as abordagens de classificação supervisionada do aprendizado de máquina paramétrico acabam treinando o modelo para minimizar os seguintes
onde é seu modelo parametrizado pelo vetor w , i é tomado sobre todos os pontos de dados { x i , y i } , L é uma aproximação computacionalmente agradável de sua perda real e P ( w ) é um termo de correção / regularização de polarizaçãom w i {xi,yi} L P(w)
Por exemplo, se seu , y ∈ { - 1 , 1 } , uma abordagem típica seria deixar m ( x ) = assinar ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , w )x∈{−1,1}d y∈{−1,1} m(x)=sign(w⋅x) L(m(x),y)=−log(y×(x⋅w)) e escolha q por validação cruzadaP(w)=q×(w⋅w) q
fonte
Vou dar uma resposta detalhada. Pode fornecer mais citações sob demanda, embora isso não seja realmente controverso.
Não acho que exista uma lacuna entre os campos, apenas muitas abordagens diferentes, todas sobrepostas até certo ponto. Não sinto necessidade de transformá-los em disciplinas sistemáticas com diferenças e semelhanças bem definidas, e dada a velocidade com que evoluem, acho que é uma empresa condenada de qualquer maneira.
fonte
Não posso postar um comentário (o local apropriado para esse comentário), pois não tenho reputação suficiente, mas a resposta aceita como a melhor resposta pelo proprietário da pergunta não é verdadeira.
"Se a estatística é para maximizar a probabilidade, o aprendizado de máquina é para minimizar a perda".
A probabilidade é uma função de perda. Maximizar a probabilidade é o mesmo que minimizar uma função de perda: o desvio, que é apenas -2 vezes a função de probabilidade de log. Da mesma forma, encontrar uma solução de mínimos quadrados é minimizar a função de perda que descreve a soma residual dos quadrados.
ML e estatísticas usam algoritmos para otimizar o ajuste de alguma função (nos termos mais amplos) aos dados. A otimização envolve necessariamente minimizar algumas funções de perda.
fonte
Há uma resposta trivial - não há estimativa de parâmetros no aprendizado de máquina! Não assumimos que nossos modelos sejam equivalentes a alguns modelos de segundo plano ocultos; tratamos a realidade e o modelo como caixas-pretas e tentamos sacudir a caixa do modelo (treinar na terminologia oficial) para que sua saída seja semelhante à da caixa da realidade.
O conceito de não apenas probabilidade, mas toda a seleção do modelo com base nos dados de treinamento é substituído pela otimização da precisão (o que for definido; em princípio, a bondade no uso desejado) nos dados não vistos; isso permite otimizar a precisão e o recall de maneira acoplada. Isso leva ao conceito de uma capacidade de generalização, que é alcançada de diferentes maneiras, dependendo do tipo de aluno.
A resposta para a pergunta dois depende muito das definições; ainda acho que a estatística não paramétrica é algo que liga os dois.
fonte
Eu não acho que exista uma idéia fundamental em torno da estimativa de parâmetros no Machine Learning. A multidão de ML maximizará felizmente a probabilidade ou a posterior, desde que os algoritmos sejam eficientes e prevejam "com precisão". O foco está na computação e os resultados das estatísticas são amplamente utilizados.
Se você procura idéias fundamentais em geral, na teoria da aprendizagem computacional, o PAC é central; na teoria estatística da aprendizagem, miniminização estrutural de riscos ; e há outras áreas (por exemplo, consulte o post da Prediction Science de John Langford).
Nas estatísticas de ponte / ML, a divisão parece exagerada. Gostei da resposta de gappy à pergunta "Duas culturas".
fonte
Você pode reescrever um problema de maximização de probabilidade como um problema de minimização de perda, definindo a perda como a probabilidade de log negativa. Se a probabilidade for um produto de probabilidades independentes ou densidades de probabilidade, a perda será uma soma de termos independentes, que podem ser calculados com eficiência. Além disso, se as variáveis estocásticas são normalmente distribuídas, o problema correspondente de minimização de perdas será um problema de mínimos quadrados.
Se for possível criar um problema de minimização de perdas reescrevendo uma maximização de probabilidade, isso deve ser o de preferir criar um problema de minimização de perda do zero, pois isso dará origem a um problema de minimização de perda que é (espero) mais teoricamente fundado e menos ad hoc. Por exemplo, pesos, como nos mínimos quadrados ponderados, para os quais você geralmente precisa adivinhar valores estimados, simplesmente emergirão do processo de reescrever o problema original de maximização de probabilidade e já possuem (espero) valores ideais.
fonte