Qual é a diferença prática entre regras de associação e árvores de decisão na mineração de dados?

19

Existe uma descrição realmente simples das diferenças práticas entre essas duas técnicas?

  • Ambos parecem ser usados ​​para aprendizado supervisionado (embora as regras de associação também possam lidar com supervisão).

  • Ambos podem ser usados ​​para previsão

O mais próximo que encontrei de uma descrição 'boa' é do livro de texto Statsoft . Eles dizem que as Regras de Associação são usadas para:

... detectar relacionamentos ou associações entre valores específicos de variáveis ​​categóricas em grandes conjuntos de dados.

Embora os classificadores da Árvore de Decisão sejam descritos como sendo usados ​​para:

... prever a associação de casos ou objetos nas classes de uma variável dependente categórica a partir de suas medições em uma ou mais variáveis ​​preditoras.

No entanto, na R Data Mining, eles fornecem um exemplo de Regras de Associação sendo usadas com um campo de destino .

Portanto, ambos podem ser usados ​​para prever a associação ao grupo. A principal diferença é que as árvores de decisão podem lidar com dados de entrada não categóricos, enquanto as regras de associação não podem? Ou há algo mais fundamental? Um site ( sqlserverdatamining.com ) diz que a principal diferença é:

As regras das árvores de decisão são baseadas no ganho de informações, enquanto as regras de associação são baseadas na popularidade e / ou confiança.

Portanto, (possivelmente respondendo minha própria pergunta), isso significa que as regras de associação são avaliadas exclusivamente com a frequência com que aparecem no conjunto de dados (e com que frequência são "verdadeiras"), enquanto as árvores de decisão estão realmente tentando minimizar a variação?

Se alguém souber de uma boa descrição, estaria disposto a me indicar, então seria ótimo.

Tumbledown
fonte

Respostas:

14

F=F1,...,FmCFCF

t1={Eu1,Eu2}t2={Eu1,Eu3,Eu4,Eu5}t3={Eu2,Eu3,Eu4,Eu5}tn={Eu2,Eu3,Eu4,Eu5}
{Eu3,Eu5}{Eu4}

Acontece que você pode usar a análise de associação para algumas tarefas específicas de classificação, por exemplo, quando todos os seus recursos são categóricos. Você precisa apenas ver itens como recursos, mas não foi para isso que nasceu a análise de associação.

Simone
fonte
3
  • "As regras de associação visam encontrar todas as regras acima dos limites fornecidos, envolvendo subconjuntos de registros sobrepostos, enquanto as árvores de decisão encontram regiões no espaço em que a maioria dos registros pertence à mesma classe. Por outro lado, as árvores de decisão podem perder muitas regras preditivas encontradas pelas regras de associação. porque eles partem sucessivamente em subconjuntos menores. Quando uma regra encontrada por uma árvore de decisão não é encontrada por regras de associação, é porque uma restrição removeu o espaço de pesquisa ou porque o suporte ou a confiança eram muito altos ".

  • "Os algoritmos de regras de associação podem ser lentos, apesar de muitas otimizações propostas na literatura, porque trabalham em um espaço combinatório, enquanto as árvores de decisão podem ser comparativamente muito mais rápidas porque cada divisão obtém subconjuntos sucessivamente menores de registros".

  • Outra questão é que as árvores de decisão podem repetir o mesmo atributo várias vezes para a mesma regra, porque esse atributo é um bom discriminador. Esse não é um grande problema, pois as regras são conjunções e, portanto, a regra pode ser simplificada para um intervalo para o atributo, mas esse intervalo será geralmente pequeno e a regra muito específica ".

Trechos de:

Ordonez, C., & Zhao, K. (2011). Avaliando regras de associação e árvores de decisão para prever vários atributos de destino. Análise Inteligente de Dados, 15 (2), 173–192.

Um bom artigo abordando esse tópico, definitivamente vale a pena ler.

Roy van der Valk
fonte
2

Podemos argumentar que as regras de associação e as árvores de decisão sugerem um conjunto de regras para o usuário e, portanto, ambas são semelhantes, mas devemos entender a diferença teórica entre as árvores de decisão e as regras de associação e, além disso, como as regras sugeridas por ambas são diferentes em significado ou significado. em uso.

Em primeiro lugar, a árvore de decisão é uma abordagem supervisionada em que o algoritmo tenta prever um "resultado". Um exemplo típico de um "resultado" em situações da vida real pode ser, por exemplo, rotatividade, fraude, resposta a uma campanha, etc. Portanto, as regras da árvore de decisão são usadas para prever um resultado.

O aprendizado de regras de associação é uma abordagem não supervisionada, na qual o algoritmo tenta encontrar associações entre itens, geralmente em grandes bancos de dados comerciais. Um exemplo típico de um grande banco de dados comercial é aquele que contém transações de varejistas, como o histórico de compras do cliente em um site de comércio eletrônico. Os itens podem ser produtos comprados em lojas ou filmes assistidos em uma plataforma de streaming online. O aprendizado de regras de associação é sobre como a compra de um produto está induzindo a compra de outro produto.

Em segundo lugar, as árvores de decisão são construídas com base em algumas métricas de impureza / incerteza, por exemplo, ganho de informação, coeficiente de Gini ou entropia, enquanto as regras de associação são derivadas com base no suporte, confiança e elevação.

Terceiro, como a árvore de decisão é uma abordagem "supervisionada", sua precisão é mensurável, enquanto o aprendizado de regras de associação é uma abordagem "não supervisionada" e, portanto, sua precisão é subjetiva.

Jyotsna
fonte