Suponha que tenhamos a matriz de dados , que é by- , e o vetor de rótulo , que é -by-one. Aqui, cada linha da matriz é uma observação e cada coluna corresponde a uma dimensão / variável. (suponha que ) n p S n n > p
Então, o que data space
, variable space
, observation space
, model space
significa?
O espaço medido pelo vetor da coluna é um espaço D (degenerado) , pois possui coordenadas enquanto ocupa a posição , chamado espaço variável, pois é medido pelo vetor variável? Ou é chamado de espaço de observação, pois cada dimensão / coordenada corresponde a uma observação?n p
E o espaço estendido pelos vetores de linha?
regression
multiple-regression
terminology
geometry
biplot
user3813057
fonte
fonte
Respostas:
Esses termos aparecem em alguns livros sobre estatísticas multivariadas. Suponha que você tenha
n
indivíduos porp
matriz de dados de características quantitativas. Em seguida, você pode plotar indivíduos como pontos no espaço em que os eixos são os recursos. Esse será o gráfico de dispersão clássico, também conhecido como gráfico de espaço variável . Dizemos que a nuvem de indivíduos ocupa o espaço definido pelos eixos-características.Você também pode conceber o gráfico de dispersão, com pontos sendo as variáveis e os eixos sendo os indivíduos. Absolutamente como o anterior, apenas de pernas para o ar. Esse será o gráfico do espaço do sujeito (ou gráfico do espaço de observação) com as variáveis que o abrangem, os indivíduos o definindo.
Observe que se (com freqüência)1 1
n>p
, então, no segundo caso, apenas algumasp
dimensões fora dasn
dimensões são não-redundantes; isso significa que você pode e pode desenhar osp
pontos variáveis nop
gráfico bidimensional . Além disso, por tradição, os pontos variáveis são geralmente conectados à origem e, portanto, aparecem como vetores (setas). Usamos a representação do espaço de assunto principalmente para mostrar relações entre variáveis; portanto, largamos os eixos-assuntos e representamos pontos como setas, por conveniência.Se os recursos (colunas da matriz de dados) foram centralizados antes de desenhar o gráfico de espaço do sujeito, os cossenos dos ângulos entre os vetores variáveis são iguais às correlações de Pearson, enquanto os comprimentos dos vetores são iguais às normas das variáveis (soma raiz dos quadrados ) ou desvios padrão (se divididos pelo df ).
O espaço variável e o espaço sujeito são dois lados da mesma moeda, são o mesmo espaço analítico euclidiano, apenas apresentados espelhados um ao outro. Eles compartilham as mesmas propriedades, como os valores próprios e os vetores próprios diferentes de zero. É possível, portanto, traçar sujeitos e variáveis lado a lado como pontos no espaço dos eixos principais (ou outra base ortogonal) desse espaço analítico - esse gráfico conjunto é chamado de biplot . Não sei exatamente o que significa "espaço de dados" - se isso significa algo específico, suponho que seja esse espaço analítico comum, do qual espaço sujeito e espaço variável são as duas hipóstases.
Alguns links locais:
n=5
indivíduos ep=2
variáveis e, de alguma forma, conseguiu magicamente desenhar os 2 pontos no espaço 5-dimensional. Em seguida, você pode girar o subespaço definido por qualquer 2 dos eixos de forma que incorpore os 2 pontos (que abrangem esse plano a partir de agora); depois disso, você solta com segurança os outros 3 eixos (dimensões), pois eles se tornam desnecessários. A posição dos dois pontos variáveis em relação um ao outro foi preservada.fonte