Aprendizado supervisionado
- 1) Um humano constrói um classificador com base na entrada e saída de dados
- 2) Esse classificador é treinado com um conjunto de dados de treinamento
- 3) Esse classificador é testado com um conjunto de dados de teste
- 4) Implantação se a saída for satisfatória
Para ser usado quando: "Eu sei como classificar esses dados, só preciso que você (o classificador) os classifique".
Ponto do método: Classificar rótulos ou produzir números reais
Aprendizagem não supervisionada
- 1) Um humano constrói um algoritmo com base nos dados de entrada
- 2) Esse algoritmo é testado com um conjunto de dados de teste (no qual o algoritmo cria o classificador)
- 3) Implantação se o classificador for satisfatório
Para ser usado quando "Não faço ideia de como classificar esses dados, você (o algoritmo) pode criar um classificador para mim?"
Ponto do método: classificar rótulos ou prever (PDF)
Aprendizagem por reforço
- 1) Um humano constrói um algoritmo com base nos dados de entrada
- 2) Esse algoritmo apresenta um estado dependente dos dados de entrada nos quais um usuário recompensa ou pune o algoritmo através da ação que o algoritmo executou, isso continua ao longo do tempo
- 3) Esse algoritmo aprende com a recompensa / punição e se atualiza, isso continua
- 4) Está sempre em produção, precisa aprender dados reais para poder apresentar ações dos estados
Para ser usado quando: "Eu não tenho idéia de como classificar esses dados, você pode classificá-los e eu darei uma recompensa se estiver correta ou punirei você se não estiver".
É esse o tipo de fluxo dessas práticas, ouço muito sobre o que elas fazem, mas as informações práticas e exemplares são terrivelmente pequenas!
machine-learning
unsupervised-learning
supervised-learning
reinforcement-learning
Karl Morrison
fonte
fonte
Respostas:
Esta é uma introdução compacta muito agradável às idéias básicas!
Aprendizagem por Reforço
Acho que a descrição de seu caso de uso do aprendizado por reforço não está exatamente correta. O termo classificação não é apropriado. Uma descrição melhor seria:
Em outras palavras, o objetivo é antes controlar algo bem, do que classificar algo bem.
Entrada
Algoritmo
Saída
fonte
Isenção de responsabilidade: não sou especialista e nunca fiz nada com o aprendizado por reforço (ainda), portanto qualquer feedback será bem-vindo ...
Aqui está uma resposta que adiciona pequenas notas matemáticas à sua lista e alguns pensamentos diferentes sobre quando usar o quê. Espero que a enumeração seja auto-explicativa o suficiente:
Supervisionado
Configuração para classificação e regressão
Não supervisionado
Configuração para clustering, redução de dimensionalidade, localização de fatores ocultos, modelos generativos etc.
Reforço
Isso parece especialmente útil para tarefas de decisão sequenciais.
Referências:
Si, J., Barto, A., Powell, W. e Wunsch, D. (2004) Aprendizagem por reforço e sua relação com a aprendizagem supervisionada, no Manual de aprendizagem e programação dinâmica aproximada, John Wiley & Sons, Inc., Hoboken, NJ, EUA. doi: 10.1002 / 9780470544785.ch2
fonte