Como a análise discriminante linear reduz as dimensões?

18

Há palavras de "Os elementos do aprendizado estatístico" na página 91:

Os centróides K no espaço de entrada p-dimensional abrangem no subespaço dimensional K-1 e, se p for muito maior que K, será uma queda considerável na dimensão.

Eu tenho duas perguntas:

  1. Por que os centróides K no espaço de entrada p-dimensional abrangem no máximo o subespaço dimensional K-1?
  2. Como estão localizados os centróides K?

Não há explicação no livro e não encontrei a resposta em trabalhos relacionados.

jerry_sjtu
fonte
3
Os centróides estão em um subespaço afim dimensional K - 1 . Por exemplo, dois pontos estão em uma linha, um subespaço dimensional . Esta é apenas a definição de um subespaço afim e de alguma álgebra linear elementar. KK-12-1
deinst
Uma pergunta muito semelhante: stats.stackexchange.com/q/169436/3277 .
precisa saber é o seguinte

Respostas:

16

mEun(k-1,p)

insira a descrição da imagem aqui

A álgebra do LDA na fase de extração está aqui .

ttnphns
fonte
Belo gráfico, qual software / pacote você usou para criá-lo?
1515 Michelle
SPSS. Macro auto-escrita para SPSS.
ttnphns
Isso significa que você não verá uma boa separação de classes em um LDA com, digamos, três classes com sobreposição, até que você redimensione o eixo? Quero dizer, estou executando um LDA, e minhas aulas são separadas ... mas elas estão bem em cima de cada um em todos os eixos discriminatórios, exceto o primeiro ... e esse é enorme.
10136 donlan
14

Embora "Os elementos do aprendizado estatístico" seja um livro brilhante, ele exige um nível relativamente alto de conhecimento para obter o máximo dele. Existem muitos outros recursos na web para ajudá-lo a entender os tópicos do livro.

Vamos dar um exemplo muito simples de análise discriminante linear em que você deseja agrupar um conjunto de pontos de dados bidimensionais em grupos K = 2. A queda nas dimensões será apenas K-1 = 2-1 = 1. Como o @deinst explicou, a queda nas dimensões pode ser explicada com geometria elementar.

Dois pontos em qualquer dimensão podem ser unidos por uma linha, e uma linha é unidimensional. Este é um exemplo de um subespaço dimensional K-1 = 2-1 = 1.

Agora, neste exemplo simples, o conjunto de pontos de dados será espalhado no espaço bidimensional. Os pontos serão representados por (x, y), portanto, por exemplo, você pode ter pontos de dados como (1,2), (2,1), (9,10), (13,13). Agora, o uso da análise discriminante linear para criar dois grupos A e B resultará na classificação dos pontos de dados como pertencentes ao grupo A ou ao grupo B, de modo que certas propriedades sejam satisfeitas. A análise discriminante linear tenta maximizar a variação entre os grupos em comparação com a variação dentro dos grupos.

Em outras palavras, os grupos A e B estarão distantes e conterão pontos de dados próximos. Neste exemplo simples, é claro que os pontos serão agrupados da seguinte maneira. Grupo A = {(1,2), (2,1)} e Grupo B = {(9,10), (13,13)}.

Agora, os centróides são calculados como os centróides dos grupos de pontos de dados,

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

Os Centroids são simplesmente 2 pontos e abrangem uma linha unidimensional que os une.

figura 1

Você pode pensar na análise discriminante linear como uma projeção dos pontos de dados em uma linha, para que os dois grupos de pontos de dados sejam o mais "separados possível".

Se você tivesse três grupos (e digamos pontos de dados tridimensionais), obteria três centróides, simplesmente três pontos e três pontos no espaço 3D, definindo um plano bidimensional. Novamente, a regra K-1 = 3-1 = 2 dimensões.

Eu sugiro que você pesquise na Web por recursos que ajudarão a explicar e expandir a introdução simples que eu dei; por exemplo http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf

martino
fonte
1
Bem-vindo ao nosso site, Martino!
whuber
obrigado @whuber, bom gráfico, eu não tinha essas ferramentas em mãos :(
martino
Não acho que você tenha a reputação de postar uma imagem, Martino: é por isso que fiz uma para você. Mas agora - ou em breve - você terá representante suficiente. Se nada for útil, você pode usar um software disponível gratuitamente com recursos de desenho geométrico como R ou Geogebra . (Você vai descobrir que ilustrados respostas receber mais atenção: eles são mais atraente e legível.)
whuber
Por que o voto negativo? Se houver um problema com a resposta, seria útil salientar - não consigo ver um
martino 10/10