As interações são úteis apenas no contexto da regressão?

11

Eu sempre li o termo interação no contexto de regressão. Também devemos considerar interações com diferentes modelos, por exemplo, knn ou svm?

Se houver , ou mais recursos e, digamos, observações, qual é a maneira usual de encontrar interações úteis? Tente todas as combinações? Ou use apenas combinações que façam sentido?501001000

DerTom
fonte
Uma resposta é que as interações que reduzem o VIF podem ser úteis.
226 Carl Carl
(+1) Para fazer perguntas úteis.
2024 Carl

Respostas:

1

As interações são necessárias explicitamente nos modelos de regressão porque a fórmula não inclui nenhuma interação por si só. Mais precisamente, um modelo de regressão sempre será linear em sua entrada, enquanto uma interação é uma combinação não-linear dos recursos.XiXj

A maneira mais simples de ver isso é através do Problema XOR, um modelo de regressão sem interações não pode resolver isso, pois requer uma combinação não linear.

KNNs e SVMs, por outro lado (e muitos outros modelos também) são aproximadores de funções universais. Isso significa que eles não podem apenas combinar suas entradas de maneira linear, mas também de qualquer maneira não linear possível. Com camadas suficientes ou um kernel adequado, eles podem basicamente "criar" suas próprias interações, exatamente como elas precisam. Porém, se você sabe ou espera que interações específicas sejam importantes, ainda pode usá-las como uma entrada para orientar os modelos na direção certa.

Da mesma forma, os modelos baseados em árvore podem ser interpretados como consistindo apenas de interações. Basicamente, uma divisão em um modelo baseado em árvore cria uma interação específica com todas as variáveis ​​anteriores.

Portanto, para decidir quais interações usar, para modelos suficientemente "de alta potência" (isto é, aqueles que são aproximadores de funções universais), você não precisa deles e pode deixar o modelo fazer sua própria mágica. Para outros modelos, isso depende. Existem algumas técnicas disponíveis para orientar a decisão, como CHAID ou regressão passo a passo. O CHAID também trabalha com um grande número de recursos; para regressão passo a passo, ele pode se perder no número de possíveis interações. Dado que, se você tiver recursos, existem interações possíveis (contando não apenas as interações bidirecionais, mas também as de ordem superior).N2N

LiKao
fonte
1

Não.

De fato, você pode pensar que o SVM com o kernel polinomial está adicionando todas as interações (de alta ordem) entre todos os recursos. Por exemplo, se tivermos dois recursos , o SVM com polinômio de segunda ordem está funcionando .(x1,x2)(x12,x22,x1x2)

O SVM é chamado de Kernel Trick, porque está implicitamente fazendo expansão de base polinomial com muito menos complexidade computacional. Pense na expansão polinomial de 10ª ordem em 10 recursos; a expansão manual terá colunas. Mas, usando o truque do kernel, podemos fazer isso facilmente.1010

Portanto, não apenas a interação tem sido amplamente utilizada em outros modelos. Além da interação, outros modelos tentam mais com a engenharia de recursos. Em vez da multiplicação de duas colunas, recursos mais complicados são derivados.

Haitao Du
fonte
0

Interações que melhoram o quadrado R ajustado, BIC para regressão de probabilidade (alternativamente AICc e outros), VIF e a estatística F da ANOVA, esta última sem parâmetros individuais que são julgados não contributivos usando suas probabilidades parciais.

Também muito importante, mas não questionado, é que a reparameterização pode melhorar significativamente o efeito de variáveis ​​individuais e suas interações. No entanto, o BIC, o AIC e outras medidas de qualidade de probabilidade não são válidas para comparar repareterizações diferentes, deixando o quadrado R ajustado, VIF e a estatística F da ANOVA para esses fins.

Carl
fonte