Perguntas com a marcação «categorical-data»

Dados categóricos (também denominados nominais) podem assumir um número limitado de valores possíveis chamados categorias. Valores categóricos "rótulo", eles não "medem". Por favor, use a tag [ordinal-data] para tipos de dados discretos, mas ordenados.

147
A análise de componentes principais pode ser aplicada a conjuntos de dados que contêm uma mistura de variáveis ​​contínuas e categóricas?

Eu tenho um conjunto de dados que possui dados contínuos e categóricos. Estou analisando usando o PCA e estou me perguntando se é bom incluir as variáveis ​​categóricas como parte da análise. Meu entendimento é que o PCA só pode ser aplicado a variáveis ​​contínuas. Isso está correto? Se não puder...

78
Um exemplo: regressão do LASSO usando glmnet para resultado binário

Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67,...

34
Por que existe uma diferença entre calcular manualmente um intervalo de confiança de 95% da regressão logística e usar a função confint () em R?

Caro pessoal, notei algo estranho que não sei explicar, não é? Em resumo: a abordagem manual para calcular um intervalo de confiança em um modelo de regressão logística e a função R confint()fornecem resultados diferentes. Eu tenho passado pela regressão logística aplicada de Hosmer & Lemeshow...

29
Como lidar com dados hierárquicos / aninhados no aprendizado de máquina

Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

27
Os graus de liberdade podem ser um número não inteiro?

Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...