Qual é a relação entre correlação e causalidade no aprendizado de máquina?

13

É um fato bem conhecido que "Correlação não é igual a causalidade", mas o aprendizado de máquina parece ser quase inteiramente baseado em correlação. Estou trabalhando em um sistema para estimar o desempenho dos alunos em perguntas com base em seus desempenhos anteriores. Ao contrário de outras tarefas, como a pesquisa no Google, esse não parece ser o tipo de sistema que pode ser facilmente utilizado - portanto, a causa não é realmente relevante nesse sentido.

Claramente, se queremos fazer experimentos para otimizar o sistema, teremos que nos preocupar com a distinção de correlação / causalidade. Mas, do ponto de vista de apenas construir um sistema para escolher perguntas que provavelmente apresentem o nível de dificuldade apropriado, essa distinção tem alguma importância?

Casebash
fonte
Por favor, defina ou pelo menos se referir ao que você quer dizer com a causação de correlação em "correlação não iguala a causa"
seteropere

Respostas:

11

Nem toda a IA trabalha com correlação, as Redes Bayesian de Crenças são construídas em torno da probabilidade de que A cause B.

Estou trabalhando em um sistema para estimar o desempenho dos alunos em perguntas com base em seus desempenhos anteriores.

Eu não acho que você precise de causalidade para isso. Um desempenho passado não causa um desempenho atual. Responder a uma pergunta inicial não causa resposta a uma pergunta posterior.

Mas, do ponto de vista de apenas construir um sistema para escolher perguntas que provavelmente apresentem o nível de dificuldade apropriado - essa distinção tem alguma importância?

Não, não para o seu exemplo. Eu acho que a correlação (ou mesmo extrapolação simples) resolveria o seu problema muito bem. Atribua uma pontuação de dificuldade a cada uma das perguntas e, em seguida, alimente as perguntas aos alunos em níveis cada vez mais difíceis (que é como a maioria dos exames funciona) e, quando o aluno começar a errá-las, você poderá diminuir a dificuldade. Esse é um algoritmo de feedback semelhante à minimização de erros realizada em um neurônio em um perceptron de várias camadas. A parte não trivial dos espaços de entrada como este está decidindo o que é uma pergunta difícil!

Um exemplo melhor de causalidade na IA seria:

Meu carro está desacelerando. Meu acelerador está no chão. Não há muito barulho. Há luzes no painel. Qual é a probabilidade de eu ficar sem combustível?

Nesse caso, ficar sem combustível fez com que o carro desacelerasse. Este é precisamente o tipo de problema que a Bayesian Belief Networks resolve.

Dr. Rob Lang
fonte
"Não acho que você precise de causalidade para isso. Um desempenho passado não causa um desempenho atual. Responder a uma pergunta inicial não causa uma resposta a uma pergunta posterior." - bem, o fato de um aluno ter concluído um exercício pode fazer com que ele tenha um desempenho melhor em outro exercício (fornecemos dicas, etc.).
Casebash
Mas suponho que você esteja certo, não se trata tanto de correlação versus causalidade, mas se ela está correlacionada com uma causalidade (ou seja, alunos de uma turma em particular se saindo bem em tópicos de geometria porque o professor a cobriu com mais detalhes, versus alunos que completou os temas mais difíceis tendem a ter desempenhos elevados, porque eles são os únicos que se levantar para ele)
Casebash
Ah! Isso é interessante: concluir um exercício e conhecer o resultado é a causa de ser melhor nas perguntas. Mas isso não é observável aqui. A única coisa que você está observando são as perguntas do exame, que são correlacionadas. A correlação não é suja, é bom dizer que dois processos estatísticos têm um relacionamento.
Dr Rob Lang
A causa B é uma interpretação de uma rede de crenças.
Seteropere
6

o aprendizado de máquina parece ser quase inteiramente baseado na correlação

Acho que não, pelo menos em geral. Por exemplo, a principal suposição para os algoritmos de ML em termos de análise de PAC e análise de dimensão de VC é que os dados de treinamento / teste vêm da mesma distribuição que os dados futuros.

Portanto, em seu sistema, você teria que assumir que cada aluno impõe algum tipo de distribuição de probabilidade condicional que gera respostas para tipos específicos de perguntas sobre tópicos específicos. Outra suposição mais problemática que você precisa fazer é que essa distribuição não muda (ou não muda rapidamente).

BartoszKP
fonte
2

Eu concordo com as respostas anteriores.

Se, no entanto, você estiver interessado em analisar a correlação / causação em geral, dois itens que você pode querer considerar são:


fonte
2

Além das outras respostas, há um tópico interessante - se você estiver selecionando recursos manualmente, convém pensar em 'correlação coincidente' para reduzir o excesso de ajustes, ou seja, evitar recursos que de alguma forma estejam correlacionados em seus dados de treinamento, mas não Não deve ser correlacionado no caso geral - que não existe nenhuma relação causal.

Como um exemplo, suponha que você faça uma tabela de dados dos resultados do exame histórico e tente prever critérios de reprovação / aprovação; você simplesmente inclui todos os campos de dados disponíveis como recursos e a tabela também comemora o aniversário dos alunos. Agora, pode haver uma correlação válida nos dados de treinamento que os alunos nascidos em 12 de fevereiro quase sempre passam e os alunos nascidos em 13 de fevereiro quase sempre falham ... mas, como não há relação causal, isso deve ser excluído.

Na vida real, é um pouco mais sutil, mas ajuda a distinguir correlações que ajustam seus dados a sinais válidos que devem ser aprendidos; e correlações que são simplesmente padrões causados ​​por ruído aleatório no seu conjunto de treinamento.

Peter é
fonte