Quais são as aplicações ou vantagens das técnicas de regressão de redução de dimensão (DRR) ou redução de dimensionalidade supervisionada (SDR) sobre as técnicas de regressão tradicionais (sem nenhuma redução de dimensionalidade)? Essa classe de técnicas encontra uma representação em baixa dimensão do conjunto de recursos para o problema de regressão. Exemplos de tais técnicas incluem Regressão Inversa Fatiada, Direções Principais do Hessian, Estimativa de Variação Média Fatiada, Regressão Inversa Fatiada do Kernel, Regressão dos Componentes Principais, etc.
Em termos de RMSE com validação cruzada, se um algoritmo teve um desempenho melhor em uma tarefa de regressão sem redução de dimensionalidade, então qual é o uso real da redução de dimensionalidade para regressão? Eu não entendo essas técnicas.
Por acaso, essas técnicas são usadas para reduzir a complexidade de espaço e tempo para a regressão? Se essa é a principal vantagem, alguns recursos sobre redução de complexidade para conjuntos de dados de alta dimensão quando essas técnicas são colocadas em uso seriam úteis. Discuto isso com o fato de que executar uma técnica de DRR ou SDR em si exige tempo e espaço. Essa regressão SDR / DRR + em um conjunto de dados de baixa intensidade é mais rápida do que apenas a regressão em um conjunto de dados de alta intensidade?
Essa configuração foi estudada apenas por interesse abstrato e não possui uma boa aplicação prática?
Como um pensamento secundário: às vezes há suposições de que a distribuição conjunta dos recursos e a resposta encontra em uma variedade. Faz sentido aprender a variedade da amostra observada nesse contexto para resolver um problema de regressão.Y
fonte
Respostas:
De acordo com a hipótese do coletor, supõe-se que os dados estejam em um coletor de baixa dimensão, implicando que o resíduo é ruído; portanto, se você fizer sua redução de dimensionalidade corretamente, deverá melhorar o desempenho modelando o sinal em vez do ruído. Não é apenas uma questão de espaço e complexidade.
fonte
O objetivo da redução da dimensionalidade na regressão é a regularização.
A maioria das técnicas listadas não é muito conhecida; Não ouvi falar de nenhum deles além da regressão de componentes principais (PCR). Então, responderei sobre a PCR, mas espero que o mesmo se aplique às outras técnicas também.
Para ver um aumento de desempenho em comparação com a regressão padrão, você precisa de um conjunto de dados com muitos preditores e poucas amostras e definitivamente precisa usar a validação cruzada ou um conjunto de testes independente. Se você não viu nenhum aumento no desempenho, talvez o seu conjunto de dados não tivesse dimensões suficientes.
Tópicos relacionados com boas respostas:
Regressão na configuração p ≫ Np ≫ N
Regressão na configuração p > np > n
fonte