Os documentos de pesquisa de aprendizado de máquina geralmente tratam o aprendizado e a inferência como duas tarefas separadas, mas não está claro para mim qual é a distinção. Em este livro , por exemplo, eles usam estatística Bayesiana para ambos os tipos de tarefas, mas não fornecem uma motivação para essa distinção. Tenho várias idéias vagas sobre o que poderia ser, mas gostaria de ver uma definição sólida e talvez também refutações ou extensões de minhas idéias:
- A diferença entre inferir os valores de variáveis latentes para um determinado ponto de dados e aprender um modelo adequado para os dados.
- A diferença entre extrair variações (inferência) e aprender as invariâncias, de modo a poder extrair variações (aprendendo a dinâmica do espaço / processo / mundo de entrada).
- A analogia neurocientífica pode ser potenciação / depressão a curto prazo (traços de memória) vs potenciação / depressão a longo prazo.
machine-learning
terminology
Lenar Hoyt
fonte
fonte
Respostas:
Concordo com a resposta de Neil G, mas talvez esse fraseado alternativo também ajude:
Considere a configuração de um modelo simples de mistura gaussiana. Aqui, podemos pensar nos parâmetros do modelo como o conjunto de componentes gaussianos do modelo de mistura (cada uma de suas médias e variações e o peso de cada um na mistura).
Dado um conjunto de parâmetros do modelo, a inferência é o problema de identificar qual componente provavelmente gerou um único exemplo, geralmente na forma de uma "responsabilidade" para cada componente. Aqui, as variáveis latentes são apenas o identificador único para qual componente gerou o vetor determinado, e estamos deduzindo qual componente provavelmente foi. (Nesse caso, a inferência é simples, embora em modelos mais complexos ela se torne bastante complicada.)
O aprendizado é o processo de, dado um conjunto de amostras do modelo, identificar os parâmetros do modelo (ou uma distribuição sobre os parâmetros do modelo) que melhor se ajustam aos dados fornecidos: escolha dos meios, variações e ponderações dos gaussianos.
O algoritmo de aprendizado Expectativa-Maximização pode ser considerado como a realização de inferência para o conjunto de treinamento, aprendendo os melhores parâmetros, dada essa inferência, e depois repetindo. A inferência é frequentemente usada no processo de aprendizado dessa maneira, mas também é de interesse independente, por exemplo, escolher qual componente gerou um dado ponto de dados em um modelo de mistura gaussiano, para decidir sobre o estado oculto mais provável em um modelo de Markov oculto, imputar valores ausentes em um modelo gráfico mais geral, ....
fonte
Inferência é escolher uma configuração com base em uma única entrada. Aprender é escolher parâmetros com base em alguns exemplos de treinamento.
Na estrutura do modelo baseado em energia (uma maneira de observar quase todas as arquiteturas de aprendizado de máquina), a inferência escolhe uma configuração para minimizar uma função de energia enquanto mantém os parâmetros fixos; o aprendizado escolhe os parâmetros para minimizar a função de perda .
Como aponta o conjugado anterior, outras pessoas usam terminologia diferente para a mesma coisa. Por exemplo, Bishop, usa "inferência" e "decisão" para significar aprendizado e inferência, respectivamente. Inferência causal significa aprendizado. Mas, independentemente dos termos que você escolher, esses dois conceitos serão distintos.
A analogia neurológica é um padrão de disparo de neurônios é uma configuração; um conjunto de pontos fortes do link são os parâmetros.
fonte
Parece confusão clássica de linguagem interdisciplinar. O PO parece estar usando terminologia semelhante à neurociência, onde os dois termos em questão podem ter conotações diferentes. Mas como o Cross Validated geralmente lida com estatísticas e aprendizado de usinagem, tentarei responder à pergunta com base no uso comum desses termos nesses campos.
Na estatística clássica, a inferência é simplesmente o ato de pegar o que você sabe sobre uma amostra e fazer uma declaração matemática sobre a população da qual ela é (esperançosamente) representativa. Do livro-texto canônico de Casella e Berger (2002): "O assunto da teoria das probabilidades é a base sobre a qual todas as estatísticas são construídas ... através desses modelos, os estatísticos são capazes de extrair inferências sobre populações, inferências baseadas no exame de apenas uma parte do todo ". Portanto, na estatística, a inferência está especificamente relacionada a valores-p, estatísticas de teste e distribuições de amostras, etc.
Quanto ao aprendizado, acho que essa tabela do All of Statistics (2003) de Wasserman pode ser útil:
fonte
É estranho que ninguém mais tenha mencionado isso, mas você pode deduzir apenas nos casos em que você tem uma distribuição de probabilidade. Aqui para citar o Wiki, que cita o dicionário Oxford:
Inferência estatística é o processo de usar a análise de dados para deduzir propriedades de uma distribuição de probabilidade subjacente (Oxford Dictionary of Statistics)
https://en.wikipedia.org/wiki/Statistical_inference
No caso de redes neurais tradicionais, k-NN ou SVMs de baunilha, você não tem densidade de probabilidade para estimar, nem suposições sobre qualquer densidade; portanto, não há inferência estatística lá. Apenas treinamento / aprendizado. No entanto, para a maioria dos procedimentos estatísticos (todos?), Você pode usar tanto a inferência quanto o aprendizado, uma vez que esses procedimentos possuem algumas suposições sobre a distribuição da população em questão.
fonte