Espaço de dados, espaço variável, espaço de observação, espaço do modelo (por exemplo, em regressão linear)

9

Suponha que tenhamos a matriz de dados , que é by- , e o vetor de rótulo , que é -by-one. Aqui, cada linha da matriz é uma observação e cada coluna corresponde a uma dimensão / variável. (suponha que ) n p S n n > pXnpYnn>p

Então, o que data space, variable space, observation space, model spacesignifica?

O espaço medido pelo vetor da coluna é um espaço D (degenerado) , pois possui coordenadas enquanto ocupa a posição , chamado espaço variável, pois é medido pelo vetor variável? Ou é chamado de espaço de observação, pois cada dimensão / coordenada corresponde a uma observação?n pnnp

E o espaço estendido pelos vetores de linha?

user3813057
fonte
5
Estes não são termos universalmente conhecidos. Você tem uma referência? Caso contrário, podemos estar adivinhando o que eles pretendem significar.
whuber
11
Eu não tenho uma referência Uma vez ouvi meu professor contar isso há algum tempo.
user3813057
3
Tenho certeza, então, que seu professor definiu esses termos em algum momento. Talvez eles estejam nas anotações da sua aula ....
whuber

Respostas:

13

Esses termos aparecem em alguns livros sobre estatísticas multivariadas. Suponha que você tenha nindivíduos por pmatriz de dados de características quantitativas. Em seguida, você pode plotar indivíduos como pontos no espaço em que os eixos são os recursos. Esse será o gráfico de dispersão clássico, também conhecido como gráfico de espaço variável . Dizemos que a nuvem de indivíduos ocupa o espaço definido pelos eixos-características.

Você também pode conceber o gráfico de dispersão, com pontos sendo as variáveis ​​e os eixos sendo os indivíduos. Absolutamente como o anterior, apenas de pernas para o ar. Esse será o gráfico do espaço do sujeito (ou gráfico do espaço de observação) com as variáveis ​​que o abrangem, os indivíduos o definindo.

Observe que se (com freqüência) n>p, então, no segundo caso, apenas algumas pdimensões fora das ndimensões são não-redundantes; isso significa que você pode e pode desenhar os ppontos variáveis ​​no pgráfico bidimensional . Além disso, por tradição, os pontos variáveis ​​são geralmente conectados à origem e, portanto, aparecem como vetores (setas). Usamos a representação do espaço de assunto principalmente para mostrar relações entre variáveis; portanto, largamos os eixos-assuntos e representamos pontos como setas, por conveniência.1

Se os recursos (colunas da matriz de dados) foram centralizados antes de desenhar o gráfico de espaço do sujeito, os cossenos dos ângulos entre os vetores variáveis ​​são iguais às correlações de Pearson, enquanto os comprimentos dos vetores são iguais às normas das variáveis ​​(soma raiz dos quadrados ) ou desvios padrão (se divididos pelo df ).

O espaço variável e o espaço sujeito são dois lados da mesma moeda, são o mesmo espaço analítico euclidiano, apenas apresentados espelhados um ao outro. Eles compartilham as mesmas propriedades, como os valores próprios e os vetores próprios diferentes de zero. É possível, portanto, traçar sujeitos e variáveis ​​lado a lado como pontos no espaço dos eixos principais (ou outra base ortogonal) desse espaço analítico - esse gráfico conjunto é chamado de biplot . Não sei exatamente o que significa "espaço de dados" - se isso significa algo específico, suponho que seja esse espaço analítico comum, do qual espaço sujeito e espaço variável são as duas hipóstases.

insira a descrição da imagem aqui

Alguns links locais:

  • Imagens mostrando a representação no espaço sujeito dos componentes principais (PCA), regressão linear e análise fatorial , novamente regressão . Compare isso com a representação tradicional de espaço variável (gráfico de dispersão) de regressão e PCA .
  • Explicação teórica do biplot . Um auto-estudo explicando a estrutura do biplot no PCA .
  • Consulte também um post tentando descobrir se é possível resolver geometricamente a tarefa PCA no gráfico de espaço em questão (parece que os PCs definem a elipse; mas como encontrar essa elipse exclusiva?).

1 Imagine que você tem n=5indivíduos e p=2variáveis ​​e, de alguma forma, conseguiu magicamente desenhar os 2 pontos no espaço 5-dimensional. Em seguida, você pode girar o subespaço definido por qualquer 2 dos eixos de forma que incorpore os 2 pontos (que abrangem esse plano a partir de agora); depois disso, você solta com segurança os outros 3 eixos (dimensões), pois eles se tornam desnecessários. A posição dos dois pontos variáveis ​​em relação um ao outro foi preservada.

ttnphns
fonte
2
+1. Mas não tenho certeza de qual é o significado matemático exato de dizer que a variável e o espaço sujeito são "o mesmo espaço analítico euclidiano".
Ameba
3
@amoeba, Sem ser matemático na resposta, esperava que fosse intuitivamente transparente (especialmente para especialistas em álgebra linear como você). Por exemplo, na decomposição de valor singular da matriz de dados (svd, no qual o biplot é baseado) - que espaço os autovalores e os autovetores esquerdo e direito caracterizam? Não é o mesmo espaço analítico, que poderia ser disposto de várias maneiras, entre as quais: (i) linhas e colunas como pontos pelos eixos principais e eixos; (ii) linhas como pontos por colunas como eixos; (iii) colunas como pontos por linhas como eixos?
precisa saber é