Eu tenho um conjunto de dados composto por 10 variáveis. Executei mínimos quadrados parciais (PLS) para prever uma variável de resposta única por essas 10 variáveis, extraí 10 componentes do PLS e calculei a variação de cada componente. Nos dados originais, peguei a soma das variações de todas as variáveis que é 702.
Em seguida, dividi a variação de cada um dos componentes do PLS por essa soma para obter a porcentagem da variação explicada pelo PLS e, surpreendentemente, todos os componentes juntos explicam apenas 44% da variação original.
Qual a explicação disso? Não deveria ser 100%?
Respostas:
A soma das variações de todos os componentes do PLS é normalmente menor que 100%.
Existem muitas variantes de mínimos quadrados parciais (PLS). O que você usou aqui é a regressão PLS de uma variável de resposta univariada em várias variáveis ; esse algoritmo é tradicionalmente conhecido como PLS1 (em oposição a outras variantes, consulte Rosipal & Kramer, 2006, Overview e avanços recentes em mínimos quadrados parciais para uma visão geral concisa). Mais tarde, o PLS1 mostrou ser equivalente a uma formulação mais elegante chamada SIMPLS (consulte a referência ao payonged Jong 1988 em Rosipal & Kramer). A visualização fornecida pelo SIMPLS ajuda a entender o que está acontecendo no PLS1.Xy X
Acontece que o que o PLS1 faz é encontrar uma sequência de projeções lineares , de modo que:tEu= X wEu
Observe que os vetores de peso não precisam ser (e não são) ortogonais.
Isso significa que se consiste em variáveis e você encontrou componentes PLS, encontrou uma base não ortogonal com projeções não correlacionadas nos vetores de base. Pode-se matematicamente provar que, nestas circunstâncias, a soma de desvios de todas estas projecções estarão menos, em seguida, a variância total de . Eles seriam iguais se os vetores de peso fossem ortogonais (como, por exemplo, no PCA), mas no PLS esse não é o caso. k = 10 10 XX k=10 10 X
Não conheço nenhum livro ou artigo que discuta explicitamente esse problema, mas expliquei anteriormente no contexto da análise discriminante linear (LDA) que também produz várias projeções não correlacionadas em vetores de peso unitário não ortogonais, veja aqui : Proporção da variância explicada em PCA e LDA .
fonte
PCTVAR
(porcentagem de variação explicada em X) não concorda com seus cálculos? Ou você está perguntando sobre a segunda coluna (porcentagem de variação explicada em y)? Em geral, se você quiser entrar na matemática do PLS, sugiro que comece a ler o artigo de Rosipal & Kramer e siga os links.