Eu sempre li o termo interação no contexto de regressão. Também devemos considerar interações com diferentes modelos, por exemplo, knn ou svm?
Se houver , ou mais recursos e, digamos, observações, qual é a maneira usual de encontrar interações úteis? Tente todas as combinações? Ou use apenas combinações que façam sentido?
Respostas:
As interações são necessárias explicitamente nos modelos de regressão porque a fórmula não inclui nenhuma interação por si só. Mais precisamente, um modelo de regressão sempre será linear em sua entrada, enquanto uma interação é uma combinação não-linear dos recursos.Xi∗Xj
A maneira mais simples de ver isso é através do Problema XOR, um modelo de regressão sem interações não pode resolver isso, pois requer uma combinação não linear.
KNNs e SVMs, por outro lado (e muitos outros modelos também) são aproximadores de funções universais. Isso significa que eles não podem apenas combinar suas entradas de maneira linear, mas também de qualquer maneira não linear possível. Com camadas suficientes ou um kernel adequado, eles podem basicamente "criar" suas próprias interações, exatamente como elas precisam. Porém, se você sabe ou espera que interações específicas sejam importantes, ainda pode usá-las como uma entrada para orientar os modelos na direção certa.
Da mesma forma, os modelos baseados em árvore podem ser interpretados como consistindo apenas de interações. Basicamente, uma divisão em um modelo baseado em árvore cria uma interação específica com todas as variáveis anteriores.
Portanto, para decidir quais interações usar, para modelos suficientemente "de alta potência" (isto é, aqueles que são aproximadores de funções universais), você não precisa deles e pode deixar o modelo fazer sua própria mágica. Para outros modelos, isso depende. Existem algumas técnicas disponíveis para orientar a decisão, como CHAID ou regressão passo a passo. O CHAID também trabalha com um grande número de recursos; para regressão passo a passo, ele pode se perder no número de possíveis interações. Dado que, se você tiver recursos, existem interações possíveis (contando não apenas as interações bidirecionais, mas também as de ordem superior).N 2N
fonte
Não.
De fato, você pode pensar que o SVM com o kernel polinomial está adicionando todas as interações (de alta ordem) entre todos os recursos. Por exemplo, se tivermos dois recursos , o SVM com polinômio de segunda ordem está funcionando .(x1,x2) (x21,x22,x1x2)
O SVM é chamado de Kernel Trick, porque está implicitamente fazendo expansão de base polinomial com muito menos complexidade computacional. Pense na expansão polinomial de 10ª ordem em 10 recursos; a expansão manual terá colunas. Mas, usando o truque do kernel, podemos fazer isso facilmente.1010
Portanto, não apenas a interação tem sido amplamente utilizada em outros modelos. Além da interação, outros modelos tentam mais com a engenharia de recursos. Em vez da multiplicação de duas colunas, recursos mais complicados são derivados.
fonte
Interações que melhoram o quadrado R ajustado, BIC para regressão de probabilidade (alternativamente AICc e outros), VIF e a estatística F da ANOVA, esta última sem parâmetros individuais que são julgados não contributivos usando suas probabilidades parciais.
Também muito importante, mas não questionado, é que a reparameterização pode melhorar significativamente o efeito de variáveis individuais e suas interações. No entanto, o BIC, o AIC e outras medidas de qualidade de probabilidade não são válidas para comparar repareterizações diferentes, deixando o quadrado R ajustado, VIF e a estatística F da ANOVA para esses fins.
fonte