Máquina de aprendizagem extrema: o que é isso tudo?

Estou pensando, implementando e usando o paradigma Extreme Learning Machine (ELM) há mais de um ano, e quanto mais tempo durar, mais duvido que seja realmente uma coisa boa. Minha opinião, no entanto, parece estar em contraste com a comunidade científica, onde - ao usar citações e novas publicações como medida - parece ser um tópico quente.

O ELM foi introduzido por Huang et. al. por volta de 2003. A idéia subjacente é bastante simples: comece com uma rede neural artificial de duas camadas e atribua aleatoriamente os coeficientes na primeira camada. Isso transforma o problema de otimização não linear, que geralmente é tratado por retropropagação, em um problema de regressão linear simples. Mais detalhado, para , o modelo é $\mathbf x \in \mathbb R^D$

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

Agora, apenas o é ajustado (a fim de minimizar a perda de erro ao quadrado), enquanto os são todos escolhidos aleatoriamente. Como compensação pela perda de graus de liberdade, a sugestão usual é usar um número bastante grande de nós ocultos (isto é, parâmetros livres ). $w_i$ $v_{ik}$ $w_i$

De outra perspectiva (não a geralmente promovida na literatura, que vem do lado da rede neural), todo o procedimento é simplesmente regressão linear, mas uma onde você escolhe suas funções aleatoriamente, por exemplo $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(Muitas outras opções além do sigmóide são possíveis para as funções aleatórias. Por exemplo, o mesmo princípio também foi aplicado usando funções de base radial.)

Desse ponto de vista, todo o método se torna quase simplista demais, e é também nesse ponto que começo a duvidar que o método seja realmente bom (... enquanto o seu marketing científico certamente é). Então, aqui estão as minhas questões:

A ideia de varrer o espaço de entrada usando funções de base aleatória é, na minha opinião, boa para dimensões baixas. Em dimensões elevadas, acho que não é possível encontrar uma boa escolha usando seleção aleatória com um número razoável de funções básicas. Portanto, o ELM se degrada em grandes dimensões (devido à maldição da dimensionalidade)?
Você conhece resultados experimentais que apoiam / contradizem essa opinião? No artigo vinculado, há apenas um conjunto de dados de regressão de 27 dimensões (PYRIM), em que o método tem desempenho semelhante aos SVMs (enquanto eu gostaria de ver uma comparação com uma RNA de retropropagação)
De uma maneira mais geral, gostaria de comentar aqui sobre o método ELM.

regression davidhigh
fonte

Veja aqui a história completa: theanonymousemailmail.com/view/?msg=ZHEZJ1AJ

davidhigh

Respostas:

Sua intuição sobre o uso do ELM para problemas de alta dimensão está correta, tenho alguns resultados sobre isso, que estou preparando para publicação. Para muitos problemas práticos, os dados não são muito não lineares e o ELM se sai razoavelmente bem, mas sempre haverá conjuntos de dados em que a maldição da dimensionalidade significa que a chance de encontrar uma boa base funciona com curvatura exatamente onde você precisa se torna bastante pequeno, mesmo com muitos vetores básicos.

Eu pessoalmente usaria algo como uma máquina de vetores de suporte de mínimos quadrados (ou uma rede de funções de base radial) e tentaria escolher os vetores de base daqueles no conjunto de treinamento de maneira gananciosa (veja, por exemplo, meu artigo , mas havia outros / melhores abordagens que foram publicadas na mesma época, por exemplo, no muito bom livro de Scholkopf e Smola sobre "Learning with Kernels"). Eu acho que é melhor calcular uma solução aproximada para o problema exato, em vez de uma solução exata para um problema aproximado, e as máquinas do kernel têm uma base teórica melhor (para um kernel fixo; o).

Dikran Marsupial
fonte

+1. Eu nunca tinha ouvido falar sobre o ELM antes, mas pela descrição no OP soa um pouco como a máquina de estado líquido (LSM): conectividade de rede aleatória e otimização apenas dos pesos de leitura. No entanto, no LSM, o "reservatório" aleatório é recorrente, enquanto no ELM é antecipado. Essa é realmente a semelhança e a diferença?

Ameba diz Reinstate Monica

Obrigado pela boa resposta, atualize-a quando seu artigo for publicado. Em relação ao kernel: é claro que você também tem uma versão "kernel" do ELM. Apenas substitua o sigmóide acima por algum kernel (não necessariamente positivo positivo) e escolha vários aleatoriamente. O mesmo "truque" aqui do ELM original, o mesmo problema. Esses métodos que você mencionou para escolher os centros também têm importância direta aqui (mesmo que a função objetivo no ELM e no SVM seja diferente) ... isso provavelmente muda de um método "totalmente cego" para um "meio cego".

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

Davidhigh

@amoeba: Eu não conhecia a máquina de estado líquido, mas pelo que você diz, parece realmente muito semelhante ... e, claro, tecnicamente mais geral. Ainda assim, a recorrência apenas adiciona uma forma mais complexa de aleatoriedade ao problema, que na minha opinião não cura os problemas da maldição da dimensionalidade (... mas tudo bem, quem faz isso?). Esses pesos de recorrência são escolhidos com algum cuidado ou também completamente aleatórios?

Davidhigh

@davidhigh para um kernel RBF, os "teoremas do representador" mostram que não há solução melhor do que centralizar uma função básica em cada amostra de treinamento (fazendo algumas suposições razoáveis sobre a função de custo regularizado). Esse é um dos recursos interessantes dos métodos do kernel (e splines), portanto, não há necessidade de espalhá-los aleatoriamente. By the way, a construção de um modelo linear na saída de funções de base selecionadas aleatoriamente tem uma história muito longa, o meu favorito é a única camada procurar perceptron ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1, mas eu pode ser tendencioso!

Dikran Marsupial

@DikranMarsupial você publicou ou tem alguma pré-publicação disponível?

Tom Hale #

O ELM "aprende" com os dados, resolvendo analiticamente os pesos de saída. Assim, quanto maiores os dados que são alimentados na rede, produzirão melhores resultados. No entanto, isso também requer mais números de nós ocultos. Se o ELM for treinado com pouco ou nenhum erro, quando receber um novo conjunto de entradas, ele não poderá produzir a saída correta.

A principal vantagem do ELM sobre a rede neural tradicional, como uma propagação nas costas, é o rápido tempo de treinamento. A maior parte do tempo de computação é gasta na resolução do peso da camada de saída, conforme mencionado no artigo de Huang.

user62106
fonte