O que é o "parcial" nos métodos de mínimos quadrados parciais?

Gostaria de responder a essa pergunta, amplamente baseada na perspectiva histórica , que é bastante interessante. Herman Wold, que inventou a abordagem de mínimos quadrados parciais (PLS) , não começou a usar o termo PLS (ou mesmo mencionar o termo parcial ) imediatamente. Durante o período inicial (1966-1969), ele se referiu a essa abordagem como NILES - abreviação do termo e título de seu trabalho inicial sobre esse tópico Estimação não linear por procedimentos de mínimos quadrados iterativos , publicado em 1966.

Como podemos ver, os procedimentos que mais tarde serão chamados parciais foram referidos como iterativos , com foco na natureza iterativa do procedimento de estimativa de pesos e variáveis latentes (LVs). O termo "mínimos quadrados" vem do uso da regressão de mínimos quadrados ordinários (OLS) para estimar outros parâmetros desconhecidos de um modelo (Wold, 1980). Parece que o termo "parcial" tem suas raízes nos procedimentos NILES, que implementaram "a idéia de dividir os parâmetros de um modelo em subconjuntos para que possam ser estimados em partes" (Sanchez, 2013, p. 216; grifo meu) .

O primeiro uso do termo PLS ocorreu nos procedimentos de estimativa de mínimos quadrados parciais iterativos não lineares (NIPALS) , cuja publicação marca o próximo período da história do PLS - o período de modelagem do NIPALS . As décadas de 1970 e 1980 se tornam o período de modelagem suave , quando, influenciado pela abordagem LISREL de Karl Joreskog para SEM, a Wold transforma a abordagem NIPALS em modelagem suave, que essencialmente formou o núcleo da abordagem moderna de PLS (o termo PLS se torna popular no final da década de 1970 ) Nos anos 90, o próximo período na história do PLS, que Sanchez (2013) chama de período de "gap", é marcado em grande parte pela diminuição de seu uso. Felizmente, a partir dos anos 2000 ( período de consolidação), O PLS desfrutou de seu retorno como uma abordagem muito popular à análise SEM, especialmente nas ciências sociais.

UPDATE (em resposta ao comentário da ameba):

Talvez a redação de Sanchez não seja ideal na frase que citei. Eu acho que "estimado em partes" se aplica a blocos latentes de variáveis. Wold (1980) descreve o conceito em detalhes.
Você está certo de que o NIPALS foi desenvolvido originalmente para PCA. A confusão decorre do fato de existirem abordagens lineares e não lineares. Eu acho que Rosipal (2011) explica muito bem as diferenças (pelo menos, essa é a melhor explicação que eu já vi até agora).

ATUALIZAÇÃO 2 (esclarecimentos adicionais):

Em resposta a preocupações, expressas na resposta da ameba, gostaria de esclarecer algumas coisas. Parece-me que precisamos distinguir o uso da palavra "parcial" entre NIPALS e PLS. Isso cria duas perguntas separadas sobre 1) o significado de "parcial" no NIPALS e 2) o significado de "parcial" no PLS (essa é a pergunta original de Phil2014). Embora não tenha certeza sobre o primeiro, posso oferecer mais esclarecimentos sobre o último.

Segundo Wold, Sjöström e Eriksson (2001),

O "parcial" no PLS indica que esta é uma regressão parcial, uma vez que ...

Em outras palavras, "parcial" decorre do fato de que a decomposição de dados pelo algoritmo NIPALS para PLS pode não incluir todos os componentes , portanto, "parcial". Suspeito que o mesmo motivo se aplique ao NIPALS em geral, se for possível usar o algoritmo em dados "parciais". Isso explicaria "P" em NIPALS.

Em termos de uso da palavra "não linear" na definição do NIPALS (não confunda com PLS não linear , que representa uma variante não linear da abordagem PLS!), Acho que ela não se refere ao algoritmo em si , mas a modelos não lineares , que podem ser analisados, usando NIPALS baseados em regressão linear.

ATUALIZAÇÃO 3 (explicação de Herman Wold):

Embora o artigo de Herman Wold em 1969 pareça ser o primeiro artigo sobre o NIPALS, consegui encontrar outro artigo mais antigo sobre esse assunto. Este é um artigo de Wold (1974), onde o "pai" da PLS apresenta sua justificativa para usar a palavra "parcial" na definição da NIPALS (p. 71):

3.1.4 Estimativa de NIPALS: OLS iterativo. Se uma ou mais variáveis do modelo são latentes, as relações do preditor envolvem não apenas parâmetros desconhecidos, mas também variáveis desconhecidas, com o resultado de que o problema de estimativa se torna não linear. Conforme indicado em 3.1 (iii), o NIPALS resolve esse problema por um procedimento iterativo, digamos, com as etapas s = 1, 2, ... Cada etapa s envolve um número finito de regressões OLS, uma para cada relação preditora do modelo. Cada regressão fornece estimativas de proxy para um subconjunto de parâmetros desconhecidos e variáveis latentes (daí o nome de mínimos quadrados parciais ) e essas estimativas de proxy são usadas na próxima etapa do procedimento para calcular novas estimativas de proxy.

Referências

Rosipal, R. (2011). Mínimos quadrados parciais não lineares: uma visão geral. Em Lodhi H. e Yamanishi Y. (Eds.), Chemoinformatics e Advanced Machine Learning Perspectives: Métodos Computacionais Complexos e Técnicas Colaborativas , pp. 169-189. ACCM, IGI Global. Disponível em http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sanchez, G. (2013). Modelagem de caminho PLS com R. Berkeley, CA: Trowchez Editions. Disponível em http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

Wold, H. (1974). Fluxos causais com variáveis latentes: Separações dos caminhos à luz da modelagem NIPALS. European Economic Review, 5 , 67-86. Publicação da Holanda do Norte.

Wold, H. (1980). Construção e avaliação de modelos quando o conhecimento teórico é escasso: Teoria e aplicações de mínimos quadrados parciais. Em J. Kmenta e JB Ramsey (Eds.), Avaliação de modelos econométricos , pp. 47-74. Nova York: Academic Press. Recuperado em http://www.nber.org/chapters/c11693

Wold, S., Sjöström, M., & Eriksson, L. (2001). Regressão PLS: uma ferramenta básica da quimiometria. Chemometrics and Intelligent Laboratory Systems, 58 , 109-130. doi: 10.1016 / S0169-7439 (01) 00155-1 Recuperado em http://www.libpls.net/publication/PLS_basic_2001.pdf

Aleksandr Blekh
fonte

@amoeba: Eu acredito que este artigo explica o PLS em contraste com outras abordagens de uma maneira mais técnica, que você discutiu recentemente. No entanto, observe que a explicação acima é focada na regressão do PLS, enquanto o PLS inclui várias classes de análise do sistema (consulte o slide 10 na apresentação a seguir). Notas técnicas nos slides 25 a 29 também são úteis. A apresentação: plsmodeling.com/pls/pls-introduction .

Aleksandr Blekh

@ Aleksandr Blekh: Essas são referências muito legais.

Alph

Uau, as pessoas dão nomes aos períodos da história do PLS! Impressionante.

ameba diz Restabelecer Monica

Sério, examinei o livro de Sanchez, mas ainda não entendo o que o NIPALS tem a ver com "a idéia de dividir os parâmetros de um modelo em subconjuntos para que possam ser estimados em partes" . O NIPALS foi originalmente sugerido como um método para calcular os componentes principais, certo? É bem simples Não vejo nenhuma "divisão" dos parâmetros em "subconjuntos" lá, então não faço ideia do que Sanchez está falando aqui. A propósito, nem eu entendo "não-linear" no NIPALS. Certamente o PCA é uma técnica linear!

ameba diz Restabelecer Monica

@amoeba: Por favor, veja minha atualização em resposta ao seu comentário. Espero que ajude.

Aleksandr Blekh

$X$ $Y$

Entretanto, historicamente, como @Aleksandr explica muito bem (+1), o PLS foi introduzido por Wold, que usou seu algoritmo NIPALS para implementá-lo; NIPALS significa "mínimos quadrados parciais iterados não lineares", portanto, obviamente, o P no PLS acabou de chegar do NIPALS.

$\newcommand{\X}{\mathbf X}\X$ $\newcommand{\v}{\mathbf v}\v$ $\newcommand{\p}{\mathbf p}\p$ $\v$ $\p$

$\v = \X^\top \p (\p^\top \p)^{-1}$
$\|\v\|$ $1$
$\p = \X \v (\v^\top \v)^{-1}$

$\v$ $\p$ $\X$

(Por que ele chamou de "não linear", eu ainda não entendo.)

Esse termo é notavelmente enganador, porque, se for "parcial", todo algoritmo de maximização de expectativa também é "parcial" (na verdade, o NIPALS pode ser visto como uma forma primitiva de EM, ver Roweis 1998 ). Acho que o PLS é um bom candidato para o concurso O mais enganador no aprendizado de máquina. Infelizmente, é improvável que mude, apesar dos esforços de Wold Jr. (veja o comentário de @ Momo acima).

ameba diz Restabelecer Monica
fonte

Você pode estar interessado na ATUALIZAÇÃO 2 da minha resposta com mais esclarecimentos.

Aleksandr Blekh

Obrigado por manter essa discussão (para evitar mal-entendidos, devo dizer que não tentei criticá-lo de nenhuma maneira!). Agora, para o seu Update2. Por que você acha que devemos distinguir o significado de "parcial" em PLS e NIPALS? Isso soa estranho; O PLS surgiu do trabalho no NIPALS e isso sugere que seu nome é simplesmente um "niPaLS" abreviado. Isso parece ser confirmado por Wold et al. Artigo de 2001 que você encontrou: "Isso incluía uma maneira simples, mas eficiente, de estimar os parâmetros nesses modelos chamados NIPALS [...]. Isso levou, por sua vez, à sigla PLS para esses modelos" .

ameba diz Restabelecer Monica

v

$\mathbf v$

p

$\mathbf p$

X

$\mathbf X$

Ótimo! Eu acho que a pergunta foi finalmente respondida satisfatoriamente. E finalmente votei na sua resposta, +1 :-) Editei minha resposta para incorporar esse novo entendimento. Em relação à sua resposta: quando você explicou a palavra "parcial" nas Atualizações 1 e 2, você realmente quis dizer o mesmo que agora concordamos? Para mim, parece que sua resposta atualmente contém várias interpretações diferentes ...

amoeba diz Reinstate Monica

Eu não sei! Talvez esteja correto. Você pode elaborar quais "modelos não lineares" podem ser analisados usando o NIPALS e como? Por outro lado, é provavelmente um tópico completamente diferente. Eu acho que o ponto é que Wold desenvolveu o NIPALS para não computar o PCA por si só, mas tinha algumas aplicações em mente, onde ele tinha que lidar com problemas não-lineares e linearizá-los de alguma forma, reduzindo-os ao PCA? Atualmente, as pessoas apresentam o NIPALS como um algoritmo simples para calcular os principais vetores singulares, mas talvez a Wold de 1969 não concordasse com essa visão!

ameba diz Restabelecer Monica

O que é o "parcial" nos métodos de mínimos quadrados parciais?

Respostas: