Atualmente, dentro do campo de desenvolvimento de IA, o foco principal parece estar no reconhecimento de padrões e no aprendizado de máquina. Aprender significa ajustar variáveis internas com base em um loop de feedback.
A hierarquia de necessidades de Maslow é uma teoria da psicologia proposta por Abraham Maslow que afirma que as necessidades mais básicas dos indivíduos devem ser atendidas antes que elas se motivem a alcançar necessidades de nível superior.
O que poderia motivar uma máquina a agir? Uma máquina deve ter algum tipo de estrutura semelhante ao DNA que descreva sua hierarquia de necessidades (semelhante à teoria de Maslow)? Quais poderiam ser as necessidades fundamentais de uma máquina?
philosophy
strong-ai
rewards
Aleksei Maide
fonte
fonte
Respostas:
O método atual para implementar a motivação é algum tipo de recompensa artificial. O DQN do Deepmind, por exemplo, é impulsionado pela pontuação do jogo. Quanto maior a pontuação, melhor. A IA aprende a ajustar suas ações para obter o máximo de pontos e, portanto, a maior recompensa. Isso é chamado de reforço de reforço . A recompensa motiva a IA a adaptar suas ações, por assim dizer.
Em um termo mais técnico, a IA deseja maximizar a utilidade, que depende da função de utilidade implementada . No caso do DQN, isso maximizaria a pontuação no jogo.
O cérebro humano funciona de maneira semelhante, embora um pouco mais complexo e muitas vezes não tão direto. Nós, como seres humanos, geralmente tentamos ajustar nossas ações para produzir uma alta produção de dopamina e serotonina . Isso é semelhante à recompensa usada para controlar as IAs durante o aprendizado por reforço. O cérebro humano aprende quais ações produzem a maior quantidade dessas substâncias e encontra estratégias para maximizar a produção. Obviamente, isso é uma simplificação desse processo complexo, mas você entendeu.
Quando você fala sobre motivação, por favor, não confunda com consciência ou qualia . Isso não é necessário para motivação. Se você quer discutir consciência e qualia na IA, esse é um jogo totalmente diferente.
Uma criança não é curiosa por curiosidade. Obtém reforço positivo ao explorar porque a função de utilidade do cérebro da criança recompensa a exploração liberando neurotransmissores recompensadores. Então o mecanismo é o mesmo. Aplicar isso à IA significa definir uma função de utilitário que recompensa novas experiências. Não existe impulso interior sem algum tipo de recompensa reforçadora.
fonte
Esta é uma pergunta interessante, na verdade.
Há uma idéia bastante realista sobre "de onde a curiosidade pode se originar" no livro "On intelligence", escrito por Jeff Hawkins e Sandra Blakeslee.
É baseado em tais declarações:
A mente cria seu próprio modelo de mundo em que existe.
Faz previsões sobre tudo o tempo todo (na verdade, Jeff Hawkins afirma que essa é a principal característica da inteligência).
Quando a previsão sobre algo não foi seguida pelo comportamento apropriado do mundo, isso se torna muito interessante para a mente (o modelo está errado e deve ser corrigido) e precisa de mais atenção.
Por exemplo, quando você olha para o olho humano esquerdo, seu cérebro prediz que é um rosto humano e deve haver um segundo olho à direita. Você olha para a direita e vê um nariz. Que surpresa! Agora você precisa de toda a sua atenção e você tem essa motivação para fazer mais observações sobre algo tão estranho que não se encaixava no seu modelo.
Então, eu diria que a IA pode fazer algo certo de acordo com seu modelo ou se comportar aleatoriamente, enquanto as previsões que está fazendo sobre o mundo são verdadeiras. Mas, uma vez quebrada alguma previsão, a IA se motiva a corrigir o erro em seu modelo.
Em um caso simples, uma máquina inicia com uma aleatoriedade total, fazendo tudo o que pode com sua saída. Embora não tenha modelo ou modelo aleatório ao detectar algum tipo de ordem ou padrões repetidos, está ficando "interessado" e o adiciona ao modelo. Depois de um tempo, o modelo se torna mais sofisticado, fazendo previsões mais complexas e detectando erros de nível superior em um modelo. Lentamente, ele fica sabendo o que fazer para observar algo interessante, em vez de apenas se lembrar de tudo.
fonte
Fiz uma pergunta semelhante ao professor Richard Sutton , na primeira aula do curso de aprendizado por reforço. Parece que existem diferentes maneiras de motivar a máquina. De fato, a motivação da máquina me parece um campo de pesquisa dedicado.
Normalmente, as máquinas são motivadas pelo que chamamos de função objetivo ou de custo ou de perda . Estes são nomes diferentes para o mesmo conceito. Às vezes, eles são denotados por
O objetivo da máquina é resolver um problema de minimização,minumaL ( a ) , ou um problema de maximização, maxumaL ( a ) , dependendo da definição de eu .
fonte
Passei algum tempo pensando sobre isso no contexto de jogos.
O problema com as funções de recompensa é que elas geralmente envolvem nós de ponderação, o que é útil, mas, em última análise, materialmente sem sentido.
Aqui estão duas recompensas materialmente significativas:
RECURSOS COMPUTACIONAIS
Considere um jogo em que uma IA esteja competindo não por pontos, mas por tempo e memória do processador.
Quanto melhor o algoritmo executa no jogo, mais memória e processamento ele tem acesso. Isso tem um efeito prático - quanto mais recursos disponíveis para os autômatos, mais fortes são seus recursos. (ou seja, sua racionalidade é menos limitada em termos de tempo e espaço para tomar uma decisão.) Assim, o algoritmo seria "motivado" a prevalecer em tal disputa.
ENERGIA
Qualquer autômato com um grau suficiente de "autoconsciência", aqui referindo-se especificamente ao conhecimento de que requer energia para processar, seria motivado a otimizar seu próprio código para eliminar inversões desnecessárias de bits (consumo de energia desnecessário).
Esse algoritmo também seria motivado para garantir sua fonte de alimentação para que ele possa continuar funcionando.
fonte