Na verdade, temos muitas coisas nessa linha; a captura de movimento para filmes em 3D vem à mente quase imediatamente. O problema, se eu pensar que é menos uma situação em observar outro ator, os computadores são bons em fazer isso já com a quantidade de software de reconhecimento de imagem que temos; é um problema de entender se uma ação produziu um bom resultado como um net, algo que os computadores não podem fazer, pois não é um problema de rede de nó único. Por exemplo, já programamos um computador para entender a linguagem humana (Watson, sem dúvida), mas mesmo Watson não entendeu o conceito de que dizer "f ***" é ruim. (Veja bem, é uma história engraçada).
Mas o ponto é que algoritmos de aprendizado não são aprendizado verdadeiro em certo sentido, já que um computador atualmente não tem senso de "um bom resultado"; portanto, nesse estágio, o aprendizado por observação é muito limitado em um sentido a "ver macaco, ver macaco".
Talvez a coisa mais próxima que eu já tenha lido sobre isso tenha sido os bots de busca e resgate de combate a incêndios que estavam em uma rede e seriam transmitidos um ao outro quando um deles fosse destruído, pois os bots saberiam que a área era algo que eles tinham que evitar.
Caso contrário, acho que esse é o problema do aprendizado observacional. Uma pessoa pode observar que dar um soco em alguém geralmente leva você a ser revidado, um computador observa e papagaia a ação, boa ou ruim.