Perguntas com a marcação «pca»

A análise de componentes principais (PCA) é uma técnica linear de redução de dimensionalidade. Reduz um conjunto de dados multivariado a um conjunto menor de variáveis ​​construídas, preservando o máximo de informações (a maior variação possível). Essas variáveis, chamadas componentes principais, são combinações lineares das variáveis ​​de entrada.

147
A análise de componentes principais pode ser aplicada a conjuntos de dados que contêm uma mistura de variáveis ​​contínuas e categóricas?

Eu tenho um conjunto de dados que possui dados contínuos e categóricos. Estou analisando usando o PCA e estou me perguntando se é bom incluir as variáveis ​​categóricas como parte da análise. Meu entendimento é que o PCA só pode ser aplicado a variáveis ​​contínuas. Isso está correto? Se não puder...

78
Um exemplo: regressão do LASSO usando glmnet para resultado binário

Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67,...

70
Como visualizar o que a análise de correlação canônica faz (em comparação com o que a análise de componentes principais faz)?

A análise de correlação canônica (CCA) é uma técnica relacionada à análise de componentes principais (PCA). Embora seja fácil ensinar PCA ou regressão linear usando um gráfico de dispersão (veja alguns milhares de exemplos na pesquisa de imagens do google), não vi um exemplo bidimensional intuitivo...

67
Loadings vs autovetores no PCA: quando usar um ou outro?

Na análise de componentes principais (PCA), obtemos autovetores (vetores unitários) e autovalores. Agora, vamos definir loadings como Loadings=Eigenvectors⋅Eigenvalues−−−−−−−−−−√.Loadings=Eigenvectors⋅Eigenvalues.\text{Loadings} = \text{Eigenvectors} \cdot \sqrt{\text{Eigenvalues}}. Eu sei que os...

61
Qual é a relação entre o cluster de k-means e o PCA?

É uma prática comum aplicar o PCA (análise de componentes principais) antes de um algoritmo de armazenamento em cluster (como k-means). Acredita-se que melhora os resultados do agrupamento na prática (redução de ruído). No entanto, estou interessado em um estudo comparativo e aprofundado da...