Como calcular os intervalos de confiança nos coeficientes de regressão no PLS?

10

O modelo subjacente do PLS é que um dado vetor e vetor são relacionados por onde é uma matriz latente , e são termos de ruído (as operações estão centralizadas).X n y X = T P + E , y = T q + f , T n × k E , f X , yn×mXny

X=TP+E,
y=Tq+f,
Tn×kE,fX,y

O PLS produz estimativas de e um vetor 'atalho' de coeficientes de regressão, modo que . Gostaria de encontrar a distribuição de sob algumas suposições simplificadoras, que provavelmente devem incluir o seguinte:β y ~ X β βT,P,qβ^yXβ^β^

  1. O modelo está correto, ou seja , para desconhecido ;T , P , qX=TP+E,y=Tq+fT,P,q
  2. O número de fatores latentes, , é conhecido e usado no algoritmo PLS;k
  3. Os termos de erro reais são normais zero-mean normal com variações conhecidas;

Essa pergunta é um pouco sub-definida, porque existem dezenas de variantes do algoritmo 'the' PLS, mas eu aceitaria resultados para qualquer uma delas. Eu também aceitaria orientações sobre como estimar a distribuição de através, por exemplo, de um bootstrap, mas talvez essa seja uma pergunta separada.β^

shabbychef
fonte

Respostas:

9

Você conhece este artigo: Regressão PLS: uma ferramenta básica da quimiometria ? A derivação de SE e CI para os parâmetros PLS é descrita em §3.11.

Geralmente, confio no Bootstrap para calcular ICs, como sugerido em Abdi, H. Regressão e projeção de mínimos quadrados parciais na regressão de estrutura latente (Regressão PLS) . Lembro-me de que existem soluções teóricas discutidas em Tenenhaus M. (1998) A réplica PLS: Théorie et pratique (Technip), mas não posso verificar por enquanto, pois não tenho o livro. Por enquanto, existem alguns pacotes R úteis, como o plsRglm .

PS : Acabei de descobrir o artigo de Nicole Krämer , em referência ao pacote plsdof R.

chl
fonte
2

Eu descobri um trabalho de Reiss, et. al. , Cálculo parcial do intervalo de confiança dos mínimos quadrados para previsão industrial de qualidade de final de lote , na qual aparece a citação:

A previsão do PLS deve ser acompanhada de um intervalo de confiança online para indicar a precisão da previsão. A formulação do intervalo de confiança para a previsão do PLS é uma área de estudo que não concluiu um “padrão ouro”.

Este artigo contém uma referência ao 'excelente levantamento desse trabalho', erro padrão de previsão para PLS de várias vias , por Faber e Bro, e um artigo por Faber e Kowalski, Propagação de erros de medição para a validação de previsões obtidas por regressão de componentes principais e mínimos quadrados parciais . Resumirei esses resultados assim que estiverem disponíveis ...

shabbychef
fonte
(+1) É bom saber, obrigado. Deveria olhar novamente no trabalho de Michel Tenenhaus - avisarei se achar interessante.
chl