Regressão do processo Gaussiano para conjuntos de dados de alta dimensão

10

Só queria ver se alguém tem alguma experiência em aplicar a regressão de processo Gaussiana (GPR) a conjuntos de dados de alta dimensão. Estou examinando alguns dos vários métodos GPR esparsos (por exemplo, pseudo-entradas GPR esparsas) para ver o que poderia funcionar para conjuntos de dados de alta dimensão, onde a seleção ideal de recursos faz parte do processo de seleção de parâmetros.

Qualquer sugestão sobre documentos / código / ou vários métodos para tentar é definitivamente apreciada.

Obrigado.

tomas
fonte
2
Como afirmado, essa pergunta é bastante vaga. Perguntas independentes, concretas e bem motivadas tendem a receber mais atenção e melhores respostas aqui. (Por exemplo, se você tem um problema específico que você está tentando resolver, considere fornecer detalhes suficientes para que os leitores possam entender o que você está tentando fazer.)
cardeal

Respostas:

13

Os modelos de processo gaussiano geralmente são bons com conjuntos de dados de alta dimensão (eu os usei com dados de microarranjos etc.). A chave está na escolha de bons valores para os hiperparâmetros (que efetivamente controlam a complexidade do modelo de maneira semelhante à regularização).

Métodos esparsos e métodos de pseudo-entrada são mais para conjuntos de dados com um grande número de amostras (> aproximadamente 4000 para o meu computador), em vez de um grande número de recursos. Se você possui um computador poderoso o suficiente para realizar uma decomposição de Cholesky da matriz de covariância (n por n, em que n é o número de amostras), provavelmente não precisará desses métodos.

Se você é um usuário do MATLAB, recomendo fortemente a caixa de ferramentas GPML e o livro de Rasmussen e Williams como bons lugares para começar.

No entanto, se você estiver interessado na seleção de recursos, evitaria os GPs. A abordagem padrão para a seleção de recursos com os GPs é usar um kernel de Determinação Automática de Relevância (por exemplo, covSEard no GPML) e, em seguida, obter a seleção de recursos ajustando os parâmetros do kernel para maximizar a probabilidade marginal. Infelizmente, é muito provável que isso acabe supervalorizando a probabilidade marginal e acabe com um modelo com desempenho (possivelmente muito) pior que um modelo com uma covariância simples de função de base radial esférica (covSEiso no GPML).

Atualmente, meu foco de pesquisa está na adaptação excessiva à seleção de modelos no momento e descobri que esse é um problema tanto para a maximização de evidências em GPs quanto para otimização baseada em validação cruzada de hiperparanômetros em modelos de kernel, para obter detalhes veja este artigo e este .

A seleção de recursos para modelos não lineares é muito complicada. Freqüentemente, você obtém melhor desempenho aderindo a um modelo linear e usando abordagens do tipo de regularização L1 (Lasso / LARS / Elastic net etc.) para obter métodos florestais esparsos ou aleatórios.

Dikran Marsupial
fonte
Obrigado Dikran. Eu tentei olhar glmnet em R para modelos lineares regularizados. Infelizmente, minhas previsões acabam sendo as mesmas (acho que a média do meu conjunto de treinamento). Os modelos lineares parecem ter dificuldade em extrair o sinal nos meus dados. É por isso que tenho procurado modelos não lineares que possam lidar com muitos recursos / possíveis interações de recursos. Eu tenho certeza que isso é pedir muito, no entanto. Alguma sugestão nessa frente? Não tenho um problema P >> N. Usando 150 recursos, 1000 exemplos.
tomas
Ei Dikran. Essa foi uma pergunta bastante vaga que pedi nos meus comentários, desculpe por isso. Eu coloquei uma pergunta mais específica nos quadros. Obrigado novamente por sua ajuda. stats.stackexchange.com/questions/30411/…
tomas
não tem problema, muitas vezes descobrir quais são as perguntas é mais difícil do que respondê-las! Vou procurar outras perguntas.
Dikran Marsupial
Obrigado por esta resposta. No caso de recursos de alta dimensão, mas não de um conjunto de dados tão grande (n ~ 10k d ~ 1k), é possível usar o ARD para acelerar a computação? Estou usando a caixa de ferramentas GPML. Poderíamos "sparsify" automaticamente a matriz de covariância para focar em características relevantes?
Emile
11
o link " r.csail.mit.edu/papers/v8/cawley07a.html " não está funcionando ... É este? jmlr.org/papers/v8/cawley07a.html . Talvez adicionar citações completas em vez de apenas links seria benéfico :-)
Curioso
4

30

100200

Alexey Zaytsev
fonte