Estatísticas e Big Data

80
Cálculo do número ideal de posições em um histograma

Estou interessado em encontrar o melhor método possível para determinar quantas caixas devo usar em um histograma. Meus dados devem variar de 30 a 350 objetos, no máximo, e, em particular, estou tentando aplicar limiar (como o método de Otsu) em que objetos "bons", dos quais eu deveria ter menos e...

78
Agrupamento na saída do t-SNE

Eu tenho um aplicativo em que seria útil agrupar um conjunto de dados barulhento antes de procurar efeitos de subgrupos nos clusters. Olhei pela primeira vez para o PCA, mas são necessários ~ 30 componentes para atingir 90% da variabilidade; portanto, agrupar apenas alguns PCs descartará muita...

78
Um exemplo: regressão do LASSO usando glmnet para resultado binário

Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67,...