Eu meio que entendo o que significa "sobreajustar", mas preciso de ajuda para descobrir um exemplo do mundo real que se aplique à sobreajuste.
O processo de adequar algum modelo estatístico a um conjunto específico de dados. Feito principalmente em um computador e usando vários métodos numéricos, como otimização ou integração numérica ou simulação.
Eu meio que entendo o que significa "sobreajustar", mas preciso de ajuda para descobrir um exemplo do mundo real que se aplique à sobreajuste.
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67,...
Tenho formação em ciência da computação, mas estou tentando me ensinar ciência de dados resolvendo problemas na internet. Eu tenho trabalhado nesse problema nas últimas duas semanas (aproximadamente 900 linhas e 10 recursos). Eu estava inicialmente usando regressão logística, mas agora mudei para...
Eu tenho um conjunto de dados que não são ordenados de maneira específica, mas quando plotados claramente têm duas tendências distintas. Uma regressão linear simples não seria realmente adequada aqui devido à clara distinção entre as duas séries. Existe uma maneira simples de obter as duas linhas...
A ideia da análise adaptativa dos dados é que você altere seu plano para analisar os dados à medida que aprende mais sobre eles. No caso da análise exploratória de dados (EDA), geralmente é uma boa ideia (você geralmente procura padrões imprevistos nos dados), mas, para um estudo confirmatório,...
Estou usando o sinal de intercalação para executar uma floresta aleatória validada cruzada em um conjunto de dados. A variável Y é um fator. Não há NaN, Inf ou NA no meu conjunto de dados. No entanto, ao executar a floresta aleatória, recebo Error in randomForest.default(m, y, ...) : NA/NaN/Inf...
Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the...
É possível superajustar um modelo de regressão logística? Vi um vídeo dizendo que, se minha área sob a curva ROC for superior a 95%, é muito provável que ela esteja excessivamente ajustada, mas é possível ajustar demais um modelo de regressão
Estou treinando uma rede neural simples no conjunto de dados CIFAR10. Após algum tempo, a perda de validação começou a aumentar, enquanto a precisão da validação também aumentou. A perda e a precisão do teste continuam a melhorar. Como isso é possível? Parece que, se a perda de validação aumentar,...
Concluí o curso Machine Learning de Andrew Ng há cerca de um ano e agora estou escrevendo minha exploração matemática do ensino médio sobre o funcionamento da regressão logística e técnicas para otimizar o desempenho. Uma dessas técnicas é, obviamente, a regularização. O objetivo da regularização...
Embora eu tenha lido este post, ainda não tenho idéia de como aplicar isso aos meus próprios dados e espero que alguém possa me ajudar. Eu tenho os seguintes dados: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483,...
Suponha que um modelo tenha 100% de precisão nos dados de treinamento, mas 70% de precisão nos dados de teste. O argumento a seguir é verdadeiro sobre esse modelo? É óbvio que este é um modelo com excesso de ajuste. A precisão do teste pode ser aprimorada, reduzindo o sobreajuste. Mas, esse modelo...
Suponha que eu tenha um conjunto de dados para uma tarefa de classificação estatística supervisionada, por exemplo, por meio de um classificador Bayes. Este conjunto de dados consiste em 20 recursos e eu quero reduzi-lo a 2 recursos por meio de técnicas de redução de dimensionalidade, como Análise...
É verdade que os métodos bayesianos não se ajustam demais? (Vi alguns artigos e tutoriais fazendo essa reivindicação) Por exemplo, se aplicarmos um Processo Gaussiano ao MNIST (classificação de dígitos manuscritos), mas mostrarmos apenas uma amostra, será revertida para a distribuição anterior...
Primeiro, eu não sou estatístico. No entanto, tenho feito análise estatística de redes para meu doutorado. Como parte da análise de rede, plotei uma Função de Distribuição Cumulativa Complementar (CCDF) de graus de rede. O que descobri foi que, diferentemente das distribuições de rede...
Eu estava lendo o relatório da solução vencedora de uma competição Kaggle ( Classificação de malware ). O relatório pode ser encontrado nesta postagem do fórum . O problema era um problema de classificação (nove classes, a métrica era a perda logarítmica) com 10.000 elementos no conjunto de trens e...
Eu tenho o que eu ingenuamente pensei ser um problema bastante direto que envolve a detecção de valores extremos para muitos conjuntos diferentes de dados de contagem. Especificamente, quero determinar se um ou mais valores em uma série de dados de contagem são maiores ou menores que o esperado em...
O trecho a seguir é do Hedge Fund Market Wizzards da Schwager (maio de 2012), uma entrevista com o sempre bem-sucedido gerente de fundos de hedge Jaffray Woodriff: Para a pergunta: "Quais são alguns dos piores erros que as pessoas cometem na mineração de dados?": Muitas pessoas pensam que...
Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA....
EDIT: Como esta pergunta foi inflada, um resumo: encontrando diferentes conjuntos de dados significativos e interpretáveis com as mesmas estatísticas mistas (média, mediana, faixa intermediária e suas dispersões associadas e regressão). O quarteto de Anscombe (consulte Objetivo da visualização...