Estou pensando, implementando e usando o paradigma Extreme Learning Machine (ELM) há mais de um ano, e quanto mais tempo durar, mais duvido que seja realmente uma coisa boa. Minha opinião, no entanto, parece estar em contraste com a comunidade científica, onde - ao usar citações e novas publicações como medida - parece ser um tópico quente.
O ELM foi introduzido por Huang et. al. por volta de 2003. A idéia subjacente é bastante simples: comece com uma rede neural artificial de duas camadas e atribua aleatoriamente os coeficientes na primeira camada. Isso transforma o problema de otimização não linear, que geralmente é tratado por retropropagação, em um problema de regressão linear simples. Mais detalhado, para , o modelo é
Agora, apenas o é ajustado (a fim de minimizar a perda de erro ao quadrado), enquanto os são todos escolhidos aleatoriamente. Como compensação pela perda de graus de liberdade, a sugestão usual é usar um número bastante grande de nós ocultos (isto é, parâmetros livres ).v i k w i
De outra perspectiva (não a geralmente promovida na literatura, que vem do lado da rede neural), todo o procedimento é simplesmente regressão linear, mas uma onde você escolhe suas funções aleatoriamente, por exemplo
(Muitas outras opções além do sigmóide são possíveis para as funções aleatórias. Por exemplo, o mesmo princípio também foi aplicado usando funções de base radial.)
Desse ponto de vista, todo o método se torna quase simplista demais, e é também nesse ponto que começo a duvidar que o método seja realmente bom (... enquanto o seu marketing científico certamente é). Então, aqui estão as minhas questões:
A ideia de varrer o espaço de entrada usando funções de base aleatória é, na minha opinião, boa para dimensões baixas. Em dimensões elevadas, acho que não é possível encontrar uma boa escolha usando seleção aleatória com um número razoável de funções básicas. Portanto, o ELM se degrada em grandes dimensões (devido à maldição da dimensionalidade)?
Você conhece resultados experimentais que apoiam / contradizem essa opinião? No artigo vinculado, há apenas um conjunto de dados de regressão de 27 dimensões (PYRIM), em que o método tem desempenho semelhante aos SVMs (enquanto eu gostaria de ver uma comparação com uma RNA de retropropagação)
De uma maneira mais geral, gostaria de comentar aqui sobre o método ELM.
fonte
Respostas:
Sua intuição sobre o uso do ELM para problemas de alta dimensão está correta, tenho alguns resultados sobre isso, que estou preparando para publicação. Para muitos problemas práticos, os dados não são muito não lineares e o ELM se sai razoavelmente bem, mas sempre haverá conjuntos de dados em que a maldição da dimensionalidade significa que a chance de encontrar uma boa base funciona com curvatura exatamente onde você precisa se torna bastante pequeno, mesmo com muitos vetores básicos.
Eu pessoalmente usaria algo como uma máquina de vetores de suporte de mínimos quadrados (ou uma rede de funções de base radial) e tentaria escolher os vetores de base daqueles no conjunto de treinamento de maneira gananciosa (veja, por exemplo, meu artigo , mas havia outros / melhores abordagens que foram publicadas na mesma época, por exemplo, no muito bom livro de Scholkopf e Smola sobre "Learning with Kernels"). Eu acho que é melhor calcular uma solução aproximada para o problema exato, em vez de uma solução exata para um problema aproximado, e as máquinas do kernel têm uma base teórica melhor (para um kernel fixo; o).
fonte
O ELM "aprende" com os dados, resolvendo analiticamente os pesos de saída. Assim, quanto maiores os dados que são alimentados na rede, produzirão melhores resultados. No entanto, isso também requer mais números de nós ocultos. Se o ELM for treinado com pouco ou nenhum erro, quando receber um novo conjunto de entradas, ele não poderá produzir a saída correta.
A principal vantagem do ELM sobre a rede neural tradicional, como uma propagação nas costas, é o rápido tempo de treinamento. A maior parte do tempo de computação é gasta na resolução do peso da camada de saída, conforme mencionado no artigo de Huang.
fonte