Estou tentando encontrar informações sobre os pressupostos da regressão PLS (único ). Estou especialmente interessado em uma comparação dos pressupostos do PLS com relação aos da regressão do OLS.
Eu li / vasculhei uma grande quantidade de literatura sobre o tópico do PLS; artigos de Wold (Svante e Herman), Abdi e muitos outros, mas não encontraram uma fonte satisfatória.
Wold et al. (2001) Regressão PLS: uma ferramenta básica da quimiometria menciona suposições da PLS, mas apenas menciona que
- Xs não precisam ser independentes,
- o sistema é função de algumas variáveis latentes subjacentes,
- o sistema deve exibir homogeneidade durante todo o processo analítico e
- erro de medição em é aceitável.
Não há menção de quaisquer requisitos dos dados observados ou de resíduos do modelo. Alguém sabe de uma fonte que aborda isso? Considerando que a matemática subjacente é análoga à PCA (com o objetivo de maximizar a covariância entre e X ) a normalidade multivariada de ( y , X ) é uma suposição? Os resíduos do modelo precisam exibir homogeneidade de variação?
Também acredito que li em algum lugar que as observações não precisam ser independentes; o que isso significa em termos de estudos de medidas repetidas?
Respostas:
De maneira mais geral, "suposições" é algo que somente um resultado teórico (teorema) pode ter.
Além disso, o resultado real da regressão PLS depende de quantos componentes PLS estão incluídos no modelo, que atua como um parâmetro de regularização. Falar sobre quaisquer suposições só faz sentido se o procedimento para selecionar esse parâmetro for completamente especificado (e geralmente não é). Portanto, não acho que haja resultados de otimização para o PLS, o que significa que regressão do PLS não tem suposições. Penso que o mesmo se aplica a quaisquer outros métodos de regressão penalizados, como a regressão de componentes principais ou regressão de cume.
Atualização: Eu expandi esse argumento na minha resposta para Quais são as suposições da regressão de crista e como testá-las?
Obviamente, ainda pode haver regras práticas que digam quando a regressão do PLS provavelmente será útil e quando não. Por favor, veja minha resposta vinculada acima para alguma discussão; praticantes experientes de PLSR (eu não sou um deles) certamente poderiam dizer mais sobre isso.
fonte
Aparentemente, o PLS não faz suposições "rígidas" sobre a distribuição conjunta de suas variáveis. Isso significa que você deve ter cuidado ao escolher as estatísticas de teste apropriadas (suponho que essa falta de dependência das distribuições variáveis classifique o PLS como uma técnica não paramétrica). As sugestões que encontrei para as estatísticas apropriadas são: 1) usar o quadrado do r para variáveis latentes dependentes e 2) métodos de reamostragem para avaliar a estabilidade das estimativas.
A principal diferença entre OLS / MLS e PLS é que o primeiro normalmente usa estimativa de probabilidade máxima de parâmetros populacionais para prever relacionamentos entre variáveis, enquanto o PLS estima valores de variáveis para a população real para prever relacionamentos entre grupos de variáveis (associando grupos de preditor / variáveis de resposta com variáveis latentes).
Também estou interessado em lidar com experimentos repetidos / repetidos, especificamente multifatoriais, no entanto, não sei como abordar isso usando o PLS.
Manual de mínimos quadrados parciais: Conceitos, métodos e aplicativos (página 659, seção 28.4)
Wold, H. 2006. Especificação do Preditor. Enciclopédia de Ciências Estatísticas. 9
http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (páginas 4 e 5)
fonte