Perguntas com a marcação «fitting»

O processo de adequar algum modelo estatístico a um conjunto específico de dados. Feito principalmente em um computador e usando vários métodos numéricos, como otimização ou integração numérica ou simulação.

78
Um exemplo: regressão do LASSO usando glmnet para resultado binário

Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67,...

41
Random Forest - Como lidar com o excesso de ajustes

Tenho formação em ciência da computação, mas estou tentando me ensinar ciência de dados resolvendo problemas na internet. Eu tenho trabalhado nesse problema nas últimas duas semanas (aproximadamente 900 linhas e 10 recursos). Eu estava inicialmente usando regressão logística, mas agora mudei para...

29
R: Floresta aleatória lançando NaN / Inf em erro de "chamada de função externa", apesar de nenhum NaN no conjunto de dados [fechado]

Estou usando o sinal de intercalação para executar uma floresta aleatória validada cruzada em um conjunto de dados. A variável Y é um fator. Não há NaN, Inf ou NA no meu conjunto de dados. No entanto, ao executar a floresta aleatória, recebo Error in randomForest.default(m, y, ...) : NA/NaN/Inf...

28
Cálculo da repetibilidade dos efeitos de um modelo mais antigo

Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the...

26
Ajustar um termo senoidal aos dados

Embora eu tenha lido este post, ainda não tenho idéia de como aplicar isso aos meus próprios dados e espero que alguém possa me ajudar. Eu tenho os seguintes dados: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483,...

25
Um modelo equipado demais é necessariamente inútil?

Suponha que um modelo tenha 100% de precisão nos dados de treinamento, mas 70% de precisão nos dados de teste. O argumento a seguir é verdadeiro sobre esse modelo? É óbvio que este é um modelo com excesso de ajuste. A precisão do teste pode ser aprimorada, reduzindo o sobreajuste. Mas, esse modelo...

21
Detectando outliers em dados de contagem

Eu tenho o que eu ingenuamente pensei ser um problema bastante direto que envolve a detecção de valores extremos para muitos conjuntos diferentes de dados de contagem. Especificamente, quero determinar se um ou mais valores em uma série de dados de contagem são maiores ou menores que o esperado em...

21
Como projetar um novo vetor no espaço PCA?

Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA....