Os dados linearmente não separáveis podem ser aprendidos usando recursos polinomiais com regressão logística?

Eu sei que é Polynomial Logistic Regressionpossível aprender facilmente dados típicos como a seguinte imagem: Fiquei pensando se os dois dados a seguir também podem ser aprendidos usando ou não.

Polynomial Logistic Regression

Acho que tenho que adicionar mais explicações. Assuma a primeira forma. Se adicionarmos recursos polinomiais extras para esta entrada 2D (como x1 ^ 2 ...), podemos tomar um limite de decisão que pode separar os dados. Suponha que eu escolha X1 ^ 2 + X2 ^ 2 = b. Isso pode separar os dados. Se eu adicionar recursos extras, obterá uma forma ondulada (talvez um círculo ondulado ou reticências onduladas), mas ele ainda não pode separar os dados do segundo gráfico, pode?

machine-learning classification meios de comunicação
fonte

Talvez seja um deslize, mas você está pedindo implicitamente sobre a classificação, não regressão ...

Emre

@Emre na verdade eu estou perguntando sobre regressão logística polinomial, você está certo :)

Mídia

Onde você leu sobre isso? Você quis dizer regressão logística multinomial ?

Emre

Não sei sobre estática , mas nunca ouvi falar em regressão logística polinomial em estatística . Eu acho que você deve examinar a regressão logística do kernel se estiver interessado em limites de classes não lineares.

Emre

Não há referência à regressão logística polinomial lá. Ou qualquer outro tipo de regressão logística.

Emre

Sim, em teoria, a extensão polinomial da regressão logística pode aproximar-se de qualquer limite arbitrário de classificação. Isso ocorre porque um polinômio pode aproximar qualquer função (pelo menos dos tipos úteis para problemas de classificação), e isso é comprovado pelo teorema de Stone-Weierstrass .

Se essa aproximação é prática para todas as formas de contorno é outra questão. Você pode procurar melhor outras funções básicas (por exemplo, séries de Fourier ou distância radial de pontos de exemplo) ou outras abordagens inteiramente (por exemplo, SVM) quando suspeitar de uma forma complexa de limite no espaço de recursos. O problema com o uso de polinômios de alta ordem é que o número de recursos polinomiais que você precisa usar aumenta exponencialmente com o grau do polinômio e o número de recursos originais.

Você pode criar um polinômio para classificar o XOR. $5 - 10 xy$ pode ser um começo se você usar $-1$ e $1$ como entradas binárias, isso mapeia a entrada $(x,y)$ para produzir da seguinte maneira:

(- 1, - 1) : - 5 (- 1, 1) : 5 (1, - 1) : 5 (1, 1) : - 5

$(-1,-1): -5 \qquad (-1,1): 5 \qquad (1,-1): 5 \qquad(1, 1): -5$

Passar isso para a função logística deve fornecer valores próximos o suficiente para 0 e 1.

Semelhante às suas duas áreas circulares, há uma curva simples de oito:

uma (x^{2} - y^{2} - b x^{4} + c)

$a(x^2 - y^2 - bx^4 + c)$

Onde $a, b$ e $c$ são constantes. Você pode obter duas áreas fechadas separadas definidas no seu classificador - em lados opostos do $y$ eixo, escolhendo $a, b$ e $c$ adequadamente. Por exemplo, tente $a=1,b=0.05,c=-1$ para obter uma função que se separa claramente em dois picos ao redor $x=-3$ e $x=3$ :

O enredo mostrado é de uma ferramenta on-line no academo.org e é para $x^2 - y^2 - 0.05x^4 -1>0$ - a classe positiva mostrada como valor 1 no gráfico acima e normalmente é onde $\frac{1}{1+e^{-z}} > 0.5$ em regressão logística ou apenas $z>0$

Um otimizador encontrará os melhores valores, você só precisará usar $1, x^2, y^2, x^4$ como seus termos de expansão (embora observe que esses termos específicos se limitam a corresponder à mesma forma básica refletida em todo o $y$ eixo - na prática, você deseja ter vários termos até o polinômio de quarto grau para encontrar grupos disjuntos mais arbitrários em um classificador).

De fato, qualquer problema que você possa resolver com uma rede neural profunda - de qualquer profundidade - poderá resolver com uma estrutura plana usando regressão linear (para problemas de regressão) ou regressão logística (para problemas de classificação). É "apenas" uma questão de encontrar a expansão correta dos recursos. A diferença é que as redes neurais tentarão descobrir diretamente uma expansão de recursos em funcionamento, enquanto a engenharia de recursos usando polinômios ou qualquer outro esquema é um trabalho árduo e nem sempre é óbvio como começar: considere, por exemplo, como você pode criar aproximações polinomiais para quais sistemas neurais convolucionais redes fazem para imagens? Parece impossível. É provável que seja extremamente impraticável também. Mas existe.

Neil Slater
fonte

você tem certeza do primeiro parágrafo? formas não convexas podem realmente ser aprendidas usando polinômios?

Meios

@NeilSlater Eu resolvi o círculo acima. O XOR também é fácil: basta adicionar um termo para "xy".

Emre

@ Emre: Obrigado. Eu acho que ser purista, porém, |x|não é permitido, pois é uma não linearidade diferente.

Neil Slater

Por que parar em polinômios? Não é como se pegássemos as derivadas das entradas, então use qualquer função que desejar.

Emre

@ Emre Sim, eu já sugiro na pergunta que outras funções podem ser úteis. No entanto, acho que o objetivo do OP usando o termo "Regressão logística polinomial" é que ele se destina a usar apenas polinômios. Eu acho que existem algumas bibliotecas que farão a expansão polinomial automática de recursos para uso com otimizadores lineares.

Neil Slater

Os dados linearmente não separáveis ​​podem ser aprendidos usando recursos polinomiais com regressão logística?

Respostas:

Os dados linearmente não separáveis podem ser aprendidos usando recursos polinomiais com regressão logística?