Qual é a vantagem de reduzir a dimensionalidade dos preditores para fins de regressão?

11

Quais são as aplicações ou vantagens das técnicas de regressão de redução de dimensão (DRR) ou redução de dimensionalidade supervisionada (SDR) sobre as técnicas de regressão tradicionais (sem nenhuma redução de dimensionalidade)? Essa classe de técnicas encontra uma representação em baixa dimensão do conjunto de recursos para o problema de regressão. Exemplos de tais técnicas incluem Regressão Inversa Fatiada, Direções Principais do Hessian, Estimativa de Variação Média Fatiada, Regressão Inversa Fatiada do Kernel, Regressão dos Componentes Principais, etc.

  1. Em termos de RMSE com validação cruzada, se um algoritmo teve um desempenho melhor em uma tarefa de regressão sem redução de dimensionalidade, então qual é o uso real da redução de dimensionalidade para regressão? Eu não entendo essas técnicas.

  2. Por acaso, essas técnicas são usadas para reduzir a complexidade de espaço e tempo para a regressão? Se essa é a principal vantagem, alguns recursos sobre redução de complexidade para conjuntos de dados de alta dimensão quando essas técnicas são colocadas em uso seriam úteis. Discuto isso com o fato de que executar uma técnica de DRR ou SDR em si exige tempo e espaço. Essa regressão SDR / DRR + em um conjunto de dados de baixa intensidade é mais rápida do que apenas a regressão em um conjunto de dados de alta intensidade?

  3. Essa configuração foi estudada apenas por interesse abstrato e não possui uma boa aplicação prática?

Como um pensamento secundário: às vezes há suposições de que a distribuição conjunta dos recursos e a resposta encontra em uma variedade. Faz sentido aprender a variedade da amostra observada nesse contexto para resolver um problema de regressão.YXY

carro fúnebre
fonte
1
Você fala sobre aprendizado colector de modo a seguinte blogpost poderia ser de ajuda: normaldeviate.wordpress.com/2012/09/08/hunting-for-manifolds
b Kjetil Halvorsen

Respostas:

5

De acordo com a hipótese do coletor, supõe-se que os dados estejam em um coletor de baixa dimensão, implicando que o resíduo é ruído; portanto, se você fizer sua redução de dimensionalidade corretamente, deverá melhorar o desempenho modelando o sinal em vez do ruído. Não é apenas uma questão de espaço e complexidade.

Emre
fonte
mas não vejo técnicas como a SIR se saindo melhor após a redução da dimensionalidade em uma base robusta. Corrija-me se estiver errado ou se você conhece uma técnica SDR / DDR que pode encontrar melhor esse sinal - em uma configuração de regressão, deixe-me saber qual é a técnica (nome).
carro fúnebre
Obviamente, depende do algoritmo de regressão e da dimensionalidade intrínseca dos dados. Não posso falar pelo SIR em particular, mas aqui está um artigo que compara vários algoritmos de regressão no conjunto de dados MNIST, que é de baixa dimensão. Talvez você possa compartilhar alguns dados problemáticos para que as pessoas possam entender.
Emre
O que é "a hipótese múltipla"?
Ameba diz Reinstate Monica
Pergunto-me se este material é semelhante ao de redes neurais e escalonamento multidimensional não-linear na medida em que "soa como" deve ser grande em todos os lugares, mas na prática, faz bem em um conjunto mais limitado de casos
shadowtalker
6

O objetivo da redução da dimensionalidade na regressão é a regularização.

A maioria das técnicas listadas não é muito conhecida; Não ouvi falar de nenhum deles além da regressão de componentes principais (PCR). Então, responderei sobre a PCR, mas espero que o mesmo se aplique às outras técnicas também.

pn

p>ny100%

pn

p

Para ver um aumento de desempenho em comparação com a regressão padrão, você precisa de um conjunto de dados com muitos preditores e poucas amostras e definitivamente precisa usar a validação cruzada ou um conjunto de testes independente. Se você não viu nenhum aumento no desempenho, talvez o seu conjunto de dados não tivesse dimensões suficientes.

Tópicos relacionados com boas respostas:

ameba diz Restabelecer Monica
fonte
1
Dadas as suas publicações , é seguro assumir que ele sabe disso.
Emre
Obrigado, @Emre, eu não tinha ideia de quem era o OP. Talvez eu tenha entendido mal a pergunta, mas depois de relê-la agora, não vejo como interpretá-la de maneira diferente. Se alguém está perguntando qual é a vantagem prática da PCR, então a resposta é regularização; Na verdade, a PCR está intimamente relacionada à regressão de crista, que é um dos métodos mais comuns de regularização.
Ameba diz Reinstate Monica
p>n
@ssdecontrol: Eu concordo. Eu acho que o consenso é que a PCR é praticamente não competitiva e quase sempre existem abordagens melhores. Foi também o que escrevi na minha resposta (não foi?), Mas a pergunta era especificamente sobre a redução da dimensionalidade dos preditores e sobre qual poderia ser seu objetivo. Minha resposta é que o objetivo é a regularização.
Ameba diz Reinstate Monica
Entendido. Mas eu acho que nós podemos concordar que a questão é carregado especificamente para desafiar a sua utilidade uma vez que não é realmente a melhor maneira de regularizar apesar de seu apelo intuitivo
shadowtalker