Qual a relação entre regressão e análise discriminante linear (LDA)?

24

Existe uma relação entre regressão e análise discriminante linear (LDA)? Quais são suas semelhanças e diferenças? Faz alguma diferença se houver duas classes ou mais de duas classes?

regression logistic discriminant-analysis canonical-correlation reduced-rank-regression zca0
fonte

3

Uma observação para o leitor: a questão é ambígua, pode ser entendida como perguntando sobre regressão logística ou sobre regressão linear . O PO parece ter se interessado por ambos os aspectos (ver comentários). A resposta aceita é sobre regressão linear, mas algumas outras respostas se concentram na regressão logística.

Ameba diz Reinstate Monica

20

Entendo que a pergunta é sobre LDA e regressão linear (não logística).

Existe uma relação considerável e significativa entre regressão linear e análise discriminante linear . No caso de a variável dependente (DV) consistir em apenas 2 grupos, as duas análises são realmente idênticas. Apesar de os cálculos serem diferentes e os resultados - regressão e coeficientes discriminantes - não serem os mesmos, eles são exatamente proporcionais entre si.

Agora, para a situação de mais de dois grupos. Primeiro, vamos declarar que o LDA (sua extração, não o estágio de classificação) é equivalente (resultados linearmente relacionados) à análise de correlação canônica se você transformar o DV do agrupamento em um conjunto de variáveis fictícias (com um redundante delas eliminado) e executar canonicamente análise com conjuntos "IVs" e "manequins". As variáveis canônicas do lado do conjunto "IVs" que você obtém são o que a LDA chama de "funções discriminantes" ou "discriminantes".

Então, como a análise canônica está relacionada à regressão linear? A análise canônica é essencialmente uma MANOVA (no sentido "Regressão linear múltipla multivariada" ou "Modelo linear geral multivariado") aprofundada na estrutura latentedas relações entre os DVs e os IVs. Essas duas variações são decompostas em suas inter-relações em "variáveis canônicas" latentes. Vamos dar o exemplo mais simples, Y vs X1 X2 X3. A maximização da correlação entre os dois lados é regressão linear (se você prever Y por Xs) ou - que é a mesma coisa - é MANOVA (se você prever Xs por Y). A correlação é unidimensional (com magnitude R ^ 2 = traço de Pillai) porque o conjunto menor, Y, consiste apenas em uma variável. Agora vamos dar esses dois conjuntos: Y1 Y2 vs X1 x2 x3. A correlação que está sendo maximizada aqui é bidimensional, porque o conjunto menor contém 2 variáveis. A primeira e mais forte dimensão latente da correlação é chamada de 1ª correlação canônica e a parte restante, ortogonal a ela, a 2ª correlação canônica. Tão, MANOVA (ou regressão linear) apenas pergunta quais são os papéis parciais (os coeficientes) das variáveis em toda a correlação bidimensional dos conjuntos; enquanto a análise canônica fica abaixo para perguntar quais são os papéis parciais das variáveis na 1ª dimensão correlacional e na 2ª.

Assim, a análise de correlação canônica é uma regressão linear multivariada, aprofundada na estrutura latente de relacionamento entre os DVs e IVs. A análise discriminante é um caso particular de análise de correlação canônica ( veja exatamente como ). Então, aqui estava a resposta sobre a relação da AED com a regressão linear em um caso geral de mais de dois grupos.

Note que minha resposta não vê LDA como técnica de classificação. Eu estava discutindo o LDA apenas como técnica de extração de latentes. A classificação é o segundo estágio independente da LDA (eu a descrevi aqui ). @ Michael Chernick estava concentrado nisso em suas respostas.

ttnphns
fonte

Por que preciso da "análise de correlação canônica" e o que faz aqui? Obrigado.

Zca0

11

+1 (há muito tempo). Você conhece alguma referência que discuta (com alguns detalhes) essa conexão entre MANOVA / CCA / regressão entre X e a matriz de manequins de grupo Y e LDA (para o caso geral de mais de dois grupos)? Agora estou estudando esse tópico e acho que já o descobri mais ou menos, mas quando procuro regression formulation of LDAsurpreendentemente difícil encontrar algo - existem vários trabalhos de pesquisa publicados após o ano 2000 dizendo que essa formulação não existe ou tentando sugerir um. Existe talvez uma boa referência [antiga]?

Ameba diz Reinstate Monica

3

Mmm .. Apenas um par de papéis que vêm à mente rapidamente: Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Se você não conseguir encontrá-los na internet, eu posso enviar. Se você encontrar mais e melhores fontes, informe-nos.

precisa saber é o seguinte

11

Minha passagem não significava que você pode obter coeficientes de CCA tendo apenas os resultados da regressão (o MANOVA) em mãos. Eu estava dizendo que MANOVA é "superficial" e o CCA é mais camadas "profundas" da mesma empresa analítica. Eu não disse que são sinônimos ou que um é um caso específico claro do outro.

Ttnphns 30/08/2015

11

Entendo. Decidi postar outra resposta aqui, fornecendo os detalhes matemáticos da equivalência LDA / regressão.

Ameba diz Reinstate Monica

11

Aqui está uma referência a um dos artigos de Efron: A Eficiência da Regressão Logística Comparada à Análise Discriminante Normal , 1975.

Outro artigo relevante é Ng & Jordan, 2001, Sobre classificadores discriminativos vs. generativos: uma comparação entre regressão logística e Bayes ingênuo . E aqui está um resumo de um comentário de Xue & Titterington , 2008, que menciona os trabalhos de O'Neill relacionados à sua dissertação de doutorado:

A comparação de classificadores generativos e discriminativos é um tópico permanente. Como uma contribuição importante para esse tópico, com base em suas comparações teóricas e empíricas entre o classificador ingênuo de Bayes e a regressão logística linear, Ng e Jordan (NIPS 841-848, 2001) alegaram que existem dois regimes distintos de desempenho entre os grupos geradores. e classificadores discriminativos em relação ao tamanho do conjunto de treinamento. Neste artigo, nossos estudos empíricos e de simulação, como um complemento de seu trabalho, sugerem que a existência dos dois regimes distintos pode não ser tão confiável. Além disso, para conjuntos de dados do mundo real, até o momento não existe um critério geral teoricamente correto para escolher entre as abordagens discriminativa e generativa para a classificação de uma observação. $x$ em uma classe ; a escolha depende da confiança relativa que temos na correção da especificação de ou $y$ $p(y|x)$ $p(x, y)$ para os dados. Isso pode ser, em certa medida, uma demonstração de por que Efron (J Am Stat Assoc 70 (352): 892-898, 1975) e O'Neill (J Am Stat Assoc 75 (369): 154-160, 1980 ) preferem a análise discriminante linear (LDA) com base normal quando não ocorre uma especificação incorreta do modelo, mas outros estudos empíricos podem preferir a regressão logística linear. Além disso, sugerimos que o pareamento de LDA assumindo uma matriz de covariância diagonal comum (LDA) ou o classificador de Bayes ingênuo e regressão logística linear pode não ser perfeito e, portanto, pode não ser confiável para qualquer reivindicação derivada da comparação entre LDA ou o classificador ingênuo de Bayes e a regressão logística linear a ser generalizada para todos os classificadores generativos e discriminativos.

Existem muitas outras referências sobre isso que você pode encontrar online.

Michael R. Chernick
fonte

+1 para as muitas referências bem colocadas sobre o assunto (agora esclarecido pelo OP) de regressão logística vs. LDA.

Macro

11

Aqui está outra comparação de classificadores generativas e discriminativos por Yaroslav Bulatov no Quora: quora.com/...

Pardis

Também um tópico relacionado, stats.stackexchange.com/q/95247/3277

ttnphns

7

O objetivo desta resposta é explicar a exata relação matemática entre a análise discriminante linear (LDA) e a regressão linear multivariada (MLR). Acontecerá que a estrutura correta é fornecida por regressão de classificação reduzida (RRR).

Mostraremos que o LDA é equivalente ao RRR da matriz de indicador de classe embranquecida na matriz de dados.

Notação

Seja a matriz com pontos de dados em linhas e variáveis em colunas. Cada ponto pertence a uma das classes ou grupos. O ponto pertence à classe número . $\newcommand{\X}{\mathbf X}\X$ $n\times d$ $\newcommand{\x}{\mathbf x}\x_i$ $k$ $\x_i$ $g(i)$

Seja a matriz do grupo de codificação seguinte forma: se pertencer à classe e caso contrário . Existem pontos de dados na classe ; é claro . $\newcommand{\G}{\mathbf G}\G$ $n \times k$ $G_{ij}=1$ $\x_i$ $j$ $G_{ij}=0$ $n_j$ $j$ $\sum n_j = n$

Assumimos que os dados estão centralizados e, portanto, a média global é igual a zero, . Seja a média da classe . $\newcommand{\bmu}{\boldsymbol \mu}\bmu=0$ $\bmu_j$ $j$

LDA

A matriz de dispersão total pode ser decomposta na soma das matrizes de dispersão entre classes e dentro da classe definidas da seguinte forma: Pode-se verificar se . O LDA pesquisa eixos discriminantes que têm variação máxima entre os grupos e variação mínima entre os grupos da projeção. Especificamente, o primeiro eixo discriminante é o vetor de unidade maximizando e o primeiro discriminante eixos empilhados juntos em uma matriz $\newcommand{\C}{\mathbf C}\C=\X^\top \X$

\begin{aligned} C_{b} & = \sum_{j} n_{j} μ_{j} μ_{j}^{⊤} \\ C_{w} & = \sum (x_{i} - μ_{g (i)}) (x_{i} - μ_{g (i)})^{⊤} . \end{aligned}

$\begin{align} \C_b &= \sum_j n_j \bmu_j \bmu_j^\top \\ \C_w &= \sum(\x_i - \bmu_{g(i)})(\x_i - \bmu_{g(i)})^\top. \end{align}$

C = C_{b} + C_{w}

$\C = \C_b + \C_w$

w

$\newcommand{\w}{\mathbf w}\w$

w^{⊤} C_{b} w / (w^{⊤} C_{w} w)

$\w^\top \C_b \w / (\w^\top \C_w \w)$

p

$p$

W

$\newcommand{\W}{\mathbf W}\W$ deve maximizar o rastreamento

L_{L D A} = tr (W^{⊤} C_{b} W (W^{⊤} C_{w} W)^{- 1}) .

$\DeclareMathOperator{\tr}{tr} L_\mathrm{LDA}=\tr\left(\W^\top \C_b \W (\W^\top \C_w \W)^{-1}\right).$

Supondo que tenha classificação completa, a solução LDA é a matriz de vetores próprios de (ordenados pelos valores próprios na ordem decrescente). $\C_w$ $\W_\mathrm{LDA}$ $\C_w^{-1} \C_b$

Essa era a história de sempre. Agora vamos fazer duas observações importantes.

Primeiro, a matriz de dispersão dentro da classe pode ser substituída pela matriz de dispersão total (em última análise, porque maximizar é equivalente a maximizar ) e, de fato, é fácil ver que tem os mesmos vetores próprios. $b/w$ $b/(b+w)$ $\C^{-1} \C_b$

Segundo, a matriz de dispersão entre classes pode ser expressa através da matriz de associação ao grupo definida acima. De fato, é a matriz de somas de grupos. Para obter a matriz das médias de grupo, ela deve ser multiplicada por uma matriz diagonal com na diagonal; é dado por . Portanto, a matriz de médias de grupo é (a sapienti notará que é uma fórmula de regressão). Para obter , precisamos pegar sua matriz de dispersão, ponderada pela mesma matriz diagonal, obtendo Se todos os forem idênticos e iguais a $\G^\top \X$ $n_j$ $\G^\top \G$ $(\G^\top \G)^{-1}\G^\top \X$ $\C_b$

C_{b} = X^{⊤} G (G^{⊤} G)^{- 1} G^{⊤} X .

$\C_b = \X^\top \G (\G^\top \G)^{-1}\G^\top \X.$

n_{j}

$n_j$

m

$m$ ("conjunto de dados balanceado"), essa expressão simplifica para .

X^{⊤} G G^{⊤} X / m

$\X^\top \G \G^\top \X / m$

Podemos definir matriz de indicadores normalizada como tendo que possui . Em seguida, para ambos os conjuntos de dados, simétrica e assimétrica, a expressão é simplesmente . Observe que é, até um fator constante, a matriz de indicadores embranquecida : . $\newcommand{\tG}{\widetilde {\mathbf G}}\tG$ $1/\sqrt{n_j}$ $\G$ $1$ $\C_b = \X^\top \tG \tG^\top \X$ $\tG$ $\tG = \G(\G^\top \G)^{-1/2}$

Regressão

Para simplificar, começaremos com o caso de um conjunto de dados balanceado.

Considere regressão linear de em . Ele encontra minimizando . A regressão de classificação reduzida faz o mesmo sob a restrição de que deve ter a classificação fornecida . Nesse caso, pode ser escrito como com e tendo colunas. Pode-se mostrar que a solução de classificação dois pode ser obtida a partir da solução de classificação mantendo a primeira coluna e adicionando uma coluna extra, etc. $\G$ $\X$ $\newcommand{\B}{\mathbf B}\B$ $\| \G - \X \B\|^2$ $\B$ $p$ $\B$ $\newcommand{\D}{\mathbf D} \newcommand{\F}{\mathbf F} \B=\D\F^\top$ $\D$ $\F$ $p$

Para estabelecer a conexão entre LDA e regressão linear, provaremos que coincide com . $\D$ $\W_\mathrm{LDA}$

A prova é direta. Para fornecido , ideal pode ser encontrado via regressão: . Conectando isso à função de perda, obtemos que pode ser escrita como rastreie usando a identidade . Após manipulações fáceis, obtemos que a regressão é equivalente a maximizar (!) O seguinte rastro assustador: que na verdade nada mais é do que $\D$ $\F$ $\F^\top = (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G$

‖ G - X D (D^{⊤} X^{⊤} X D)^{- 1} D^{⊤} X^{⊤} G ‖^{2},

$\| \G - \X \D (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G\|^2,$

‖ A ‖^{2} = t r (A A^{⊤})

$\|\mathbf A\|^2=\mathrm{tr}(\mathbf A \mathbf A^\top)$

tr (D^{⊤} X^{⊤} G G^{⊤} X D (D^{⊤} X^{⊤} X D)^{- 1}),

$\tr\left(\D^\top \X^\top \G \G^\top \X \D (\D^\top \X^\top \X \D)^{-1}\right),$

\dots = tr (D^{⊤} C_{b} D (D^{⊤} C D)^{- 1}) / m \sim L_{L D A} .

$\ldots = \tr\left(\D^\top \C_b \D (\D^\top \C \D)^{-1}\right)/m \sim L_\mathrm{LDA}.$

Isso termina a prova. Para conjuntos de dados desequilibrados, precisamos substituir por . $\G$ $\tG$

Da mesma forma, pode-se mostrar que adicionar regularização de crista à regressão de classificação reduzida é equivalente ao LDA regularizado.

Relação entre LDA, CCA e RRR

Em sua resposta, @ttnphns fez uma conexão com a análise de correlação canônica (CCA). Com efeito, LDA pode ser mostrado como sendo equivalente a entre CCA e . Além disso, a CCA entre qualquer e pode ser escrito como RRR prevendo esbranquiçada a partir de . O resto decorre disso. $\X$ $\G$ $\newcommand{\Y}{\mathbf Y}\Y$ $\X$ $\Y$ $\X$

Bibliografia

É difícil dizer quem merece o crédito pelo que é apresentado acima.

Há um recente trabalho de conferência de Cai et al. (2013) Sobre o equivalente a regressões de baixa classificação e regressões baseadas em análise discriminante linear que apresenta exatamente a mesma prova acima, mas cria a impressão de que eles inventaram essa abordagem. Isso definitivamente não é o caso. Torre escreveu um tratamento detalhado de como a maioria dos métodos multivariados lineares comuns pode ser vista como regressão de classificação reduzida, consulte Uma estrutura de mínimos quadrados para análise de componentes , 2009, e um capítulo posterior do livro A unificação de métodos de análise de componentes , 2013; ele apresenta o mesmo argumento, mas também não fornece nenhuma referência. Este material também é abordado no manual Técnicas estatísticas multivariadas modernas (2008) por Izenman, que introduziu o RRR em 1975.

Aparentemente, a relação entre LDA e CCA remonta a Bartlett, 1938, Aspectos adicionais da teoria da regressão múltipla - essa é a referência que frequentemente encontro (mas não verifiquei). A relação entre CCA e RRR é descrita na regressão de rank reduzido de Izenman, 1975, para o modelo linear multivariado . Então, todas essas idéias existem há algum tempo.

ameba diz Restabelecer Monica
fonte

+1 de mim pelos detalhes, por se referir à minha resposta e por apresentar o RRR aqui (com votação antecipada, porque passará algum tempo desconhecido antes que eu me sente para examinar toda essa magnífica / formidável álgebra!).

Ttnphns 01/09/2015

0

A regressão linear e a análise discriminante linear são muito diferentes. A regressão linear relaciona uma variável dependente a um conjunto de variáveis preditoras independentes. A idéia é encontrar uma função linear nos parâmetros que melhor se ajustem aos dados. Nem precisa ser linear nas covariáveis. A análise discriminante linear, por outro lado, é um procedimento para classificar objetos em categorias. Para o problema de duas classes, ele procura encontrar o melhor hiperplano de separação para dividir os grupos em duas categorias. Aqui, melhor significa que ela minimiza uma função de perda que é uma combinação linear das taxas de erro. Para três ou mais grupos, ele encontra o melhor conjunto de hiperplanos (k-1 para o problema da classe k). Na análise discriminante, os hipoaviões são lineares nas variáveis de características.

A principal semelhança entre os dois é o termo linear nos títulos.

Michael R. Chernick
fonte

Desculpe, eu escrevi errado. Deve ser regressão e LDA. Vi alguns artigos sobre discriminantes lineares via regressão, mas não sei como isso funciona. Penso que o LDA e a regressão logística para duas classes têm algumas relações, mas não conseguem dizer com muita clareza o que são. E por mais de duas classes, não sei se existem relações.

Zca0

11

Sim, existe uma relação entre regressão logística e análise discriminante linear. Efron e seu aluno Terry O'Neilll escreveram sobre isso no final da década de 1970. Vou tentar encontrar um link para uma referência.

Michael R. Chernick 01/07/2012

2

Aqui está uma pergunta e respostas relacionadas ao currículo. stats.stackexchange.com/questions/14697/…

Michael R. Chernick 01/07/2012

-1 porque, na verdade, existe uma relação profunda entre LDA e regressão, como ambos explicam em nossas respostas.

Ameba diz Reinstate Monica

Qual a relação entre regressão e análise discriminante linear (LDA)?

Respostas:

Notação

LDA

Regressão

Relação entre LDA, CCA e RRR

Bibliografia