Modelar premissas de regressão de mínimos quadrados parciais (PLS)

13

Estou tentando encontrar informações sobre os pressupostos da regressão PLS (único ). Estou especialmente interessado em uma comparação dos pressupostos do PLS com relação aos da regressão do OLS. y

Eu li / vasculhei uma grande quantidade de literatura sobre o tópico do PLS; artigos de Wold (Svante e Herman), Abdi e muitos outros, mas não encontraram uma fonte satisfatória.

Wold et al. (2001) Regressão PLS: uma ferramenta básica da quimiometria menciona suposições da PLS, mas apenas menciona que

  1. Xs não precisam ser independentes,
  2. o sistema é função de algumas variáveis ​​latentes subjacentes,
  3. o sistema deve exibir homogeneidade durante todo o processo analítico e
  4. erro de medição em é aceitável. X

Não há menção de quaisquer requisitos dos dados observados ou de resíduos do modelo. Alguém sabe de uma fonte que aborda isso? Considerando que a matemática subjacente é análoga à PCA (com o objetivo de maximizar a covariância entre e X ) a normalidade multivariada de ( y , X ) é uma suposição? Os resíduos do modelo precisam exibir homogeneidade de variação?yX(y,X)

Também acredito que li em algum lugar que as observações não precisam ser independentes; o que isso significa em termos de estudos de medidas repetidas?

Patrick
fonte
O link para Wold. et al está incorreto. É este o que deveria ser? libpls.net/publication/PLS_basic_2001.pdf
emudrak
Um cliente teve um comentário de revisor em um artigo que dizia algo na linha "mostra que você conferiu a suposição de linearidade". Como você faria isso?
emudrak

Respostas:

5

yX . As premissas aparecem apenas no contexto das declarações de otimização.

De maneira mais geral, "suposições" é algo que somente um resultado teórico (teorema) pode ter.

yX Teoria por trás da regressão parcial de mínimos quadrados para algum contexto e visão geral. Os estimadores regularizados são tendenciosos, portanto, nenhuma quantidade de suposições provará, por exemplo, a imparcialidade.

Além disso, o resultado real da regressão PLS depende de quantos componentes PLS estão incluídos no modelo, que atua como um parâmetro de regularização. Falar sobre quaisquer suposições só faz sentido se o procedimento para selecionar esse parâmetro for completamente especificado (e geralmente não é). Portanto, não acho que haja resultados de otimização para o PLS, o que significa que regressão do PLS não tem suposições. Penso que o mesmo se aplica a quaisquer outros métodos de regressão penalizados, como a regressão de componentes principais ou regressão de cume.

Atualização: Eu expandi esse argumento na minha resposta para Quais são as suposições da regressão de crista e como testá-las?

Obviamente, ainda pode haver regras práticas que digam quando a regressão do PLS provavelmente será útil e quando não. Por favor, veja minha resposta vinculada acima para alguma discussão; praticantes experientes de PLSR (eu não sou um deles) certamente poderiam dizer mais sobre isso.

ameba diz Restabelecer Monica
fonte
E a normalidade e a independência da amostragem?
WCMC
3

Aparentemente, o PLS não faz suposições "rígidas" sobre a distribuição conjunta de suas variáveis. Isso significa que você deve ter cuidado ao escolher as estatísticas de teste apropriadas (suponho que essa falta de dependência das distribuições variáveis ​​classifique o PLS como uma técnica não paramétrica). As sugestões que encontrei para as estatísticas apropriadas são: 1) usar o quadrado do r para variáveis ​​latentes dependentes e 2) métodos de reamostragem para avaliar a estabilidade das estimativas.

A principal diferença entre OLS / MLS e PLS é que o primeiro normalmente usa estimativa de probabilidade máxima de parâmetros populacionais para prever relacionamentos entre variáveis, enquanto o PLS estima valores de variáveis ​​para a população real para prever relacionamentos entre grupos de variáveis ​​(associando grupos de preditor / variáveis ​​de resposta com variáveis ​​latentes).

Também estou interessado em lidar com experimentos repetidos / repetidos, especificamente multifatoriais, no entanto, não sei como abordar isso usando o PLS.

Manual de mínimos quadrados parciais: Conceitos, métodos e aplicativos (página 659, seção 28.4)

Wold, H. 2006. Especificação do Preditor. Enciclopédia de Ciências Estatísticas. 9

http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (páginas 4 e 5)

ejspina
fonte