A regressão de classificação reduzida e a regressão de componentes principais são apenas casos especiais de mínimos quadrados parciais?
Este tutorial (Página 6, "Comparação de objetivos") afirma que, quando fazemos mínimos quadrados parciais sem projetar X ou Y (ou seja, "não parcial"), ele se torna uma regressão de classificação reduzida ou uma regressão de componente principal, correspondentemente.
Uma declaração semelhante é feita nesta página de documentação do SAS , nas seções "Regressão de classificação reduzida" e "Relações entre métodos".
Uma questão de acompanhamento mais fundamental é se eles têm modelos probabilísticos subjacentes semelhantes.
Respostas:
Esses são três métodos diferentes, e nenhum deles pode ser visto como um caso especial de outro.
Formalmente, se e Y são conjuntos de dados preditores centralizados ( n × p ) e de resposta ( n × q ) e se procurarmos o primeiro par de eixos, w ∈ R p para X e v ∈ R qX Y n × p n × q w∈Rp X v∈Rq para , então esses métodos maximizar as seguintes quantidades:Y
(Adicionei análise de correlação canônica (CCA)) a esta lista.
Suspeito que a confusão possa ser porque no SAS todos os três métodos parecem ser implementados através da mesma função
PROC PLS
com parâmetros diferentes. Portanto, pode parecer que todos os três métodos são casos especiais de PLS, porque é assim que a função SAS é nomeada. Este é, no entanto, apenas um nome infeliz. Na realidade, PLS, RRR e PCR são três métodos diferentes que acabam de ser implementados no SAS em uma função que por algum motivo é chamadaPLS
.Os dois tutoriais aos quais você se vinculou são muito claros sobre isso. A página 6 do tutorial de apresentação indica os objetivos dos três métodos e não diz que o PLS "se torna" RRR ou PCR, ao contrário do que você reivindicou na sua pergunta. Da mesma forma, a documentação do SAS explica que três métodos são diferentes, fornecendo fórmulas e intuição:
Existe até uma figura na documentação do SAS mostrando um bom exemplo de brinquedo em que três métodos fornecem soluções diferentes. Neste exemplo de brinquedo, existem dois preditores e x 2 e uma variável de resposta y . A direção em X mais correlacionada com y é ortogonal à direção da variação máxima em Xx1 x2 y X y X . Portanto, PC1 é ortogonal ao primeiro eixo RRR e o eixo PLS está em algum lugar no meio.
Pode-se adicionar uma penalidade de crista à função perdida de RRR, obtendo regressão de classificação reduzida de crista, ou RRRR. Isso puxará o eixo de regressão na direção PC1, um pouco semelhante ao que o PLS está fazendo. No entanto, a função de custo para RRRR não pode ser gravada em um formulário PLS, portanto, elas permanecem diferentes.
Observe que, quando há apenas uma variável preditora , CCA = RRR = regressão usual.y
fonte