Por que todos os componentes do PLS juntos explicam apenas uma parte da variação dos dados originais?

Eu tenho um conjunto de dados composto por 10 variáveis. Executei mínimos quadrados parciais (PLS) para prever uma variável de resposta única por essas 10 variáveis, extraí 10 componentes do PLS e calculei a variação de cada componente. Nos dados originais, peguei a soma das variações de todas as variáveis que é 702.

Em seguida, dividi a variação de cada um dos componentes do PLS por essa soma para obter a porcentagem da variação explicada pelo PLS e, surpreendentemente, todos os componentes juntos explicam apenas 44% da variação original.

Qual a explicação disso? Não deveria ser 100%?

regression pca covariance-matrix partial-least-squares Ress
fonte

Como eu sei do lado da resposta (y), o que determina o número de componentes do PLS é o número mínimo da observação. Eu tenho 20 observações. Mas, por outro lado, só tenho 10 variáveis independentes, o que me limita a 10 PLS. Minha pergunta é qual é a fórmula geral para calcular a variação explicada por cada componente (PLS ou PCA).

Ress

mathworks.com/help/stats/plsregress.html este exemplo tem apenas uma variável no lado Y e computa 10 componentes.

Ress

A soma das variações de todos os componentes do PLS é normalmente menor que 100%.

Existem muitas variantes de mínimos quadrados parciais (PLS). O que você usou aqui é a regressão PLS de uma variável de resposta univariada em várias variáveis ; esse algoritmo é tradicionalmente conhecido como PLS1 (em oposição a outras variantes, consulte Rosipal & Kramer, 2006, Overview e avanços recentes em mínimos quadrados parciais para uma visão geral concisa). Mais tarde, o PLS1 mostrou ser equivalente a uma formulação mais elegante chamada SIMPLS (consulte a referência ao payonged Jong 1988 em Rosipal & Kramer). A visualização fornecida pelo SIMPLS ajuda a entender o que está acontecendo no PLS1. $\mathbf y$ $\mathbf X$

Acontece que o que o PLS1 faz é encontrar uma sequência de projeções lineares , de modo que: $\mathbf t_i = \mathbf X \mathbf w_i$

A covariância entre e é máxima; $\mathbf y$ $\mathbf t_i$
Todos os vetores de peso têm comprimento unitário, ; $\|\mathbf w_i\|=1$
Quaisquer dois componentes PLS (também conhecidos como vetores de pontuação) e não são correlacionados. $\mathbf t_i$ $\mathbf t_j$

Observe que os vetores de peso não precisam ser (e não são) ortogonais.

Isso significa que se consiste em variáveis e você encontrou componentes PLS, encontrou uma base não ortogonal com projeções não correlacionadas nos vetores de base. Pode-se matematicamente provar que, nestas circunstâncias, a soma de desvios de todas estas projecções estarão menos, em seguida, a variância total de . Eles seriam iguais se os vetores de peso fossem ortogonais (como, por exemplo, no PCA), mas no PLS esse não é o caso. $\mathbf X$ $k=10$ $10$ $\mathbf X$

Não conheço nenhum livro ou artigo que discuta explicitamente esse problema, mas expliquei anteriormente no contexto da análise discriminante linear (LDA) que também produz várias projeções não correlacionadas em vetores de peso unitário não ortogonais, veja aqui : Proporção da variância explicada em PCA e LDA .

ameba
fonte

Obrigado e sim, isso faz sentido. Eu não sabia que os vetores de carregamento (peso) não são ortogonais. Portanto, ele não captura a variação máxima de X. Seguindo o exemplo do matlab, você pode me ajudar como obter matematicamente os valores "PCTVAR" ?.

Ress

Não tenho certeza, mas posso pensar nisso. A primeira coluna em PCTVAR(porcentagem de variação explicada em X) não concorda com seus cálculos? Ou você está perguntando sobre a segunda coluna (porcentagem de variação explicada em y)? Em geral, se você quiser entrar na matemática do PLS, sugiro que comece a ler o artigo de Rosipal & Kramer e siga os links.

Ameba

Por que todos os componentes do PLS juntos explicam apenas uma parte da variação dos dados originais?

Respostas:

A soma das variações de todos os componentes do PLS é normalmente menor que 100%.