Eu meio que entendo o que significa "sobreajustar", mas preciso de ajuda para descobrir um exemplo do mundo real que se aplique à sobreajuste.
O erro de modelagem (especialmente erro de amostragem) em vez de relacionamentos replicáveis e informativos entre variáveis melhora as estatísticas de ajuste do modelo, mas reduz a parcimônia e piora a validade explicativa e preditiva.
Eu meio que entendo o que significa "sobreajustar", mas preciso de ajuda para descobrir um exemplo do mundo real que se aplique à sobreajuste.
Tenho formação em ciência da computação, mas estou tentando me ensinar ciência de dados resolvendo problemas na internet. Eu tenho trabalhado nesse problema nas últimas duas semanas (aproximadamente 900 linhas e 10 recursos). Eu estava inicialmente usando regressão logística, mas agora mudei para...
A ideia da análise adaptativa dos dados é que você altere seu plano para analisar os dados à medida que aprende mais sobre eles. No caso da análise exploratória de dados (EDA), geralmente é uma boa ideia (você geralmente procura padrões imprevistos nos dados), mas, para um estudo confirmatório,...
É possível superajustar um modelo de regressão logística? Vi um vídeo dizendo que, se minha área sob a curva ROC for superior a 95%, é muito provável que ela esteja excessivamente ajustada, mas é possível ajustar demais um modelo de regressão
Estou treinando uma rede neural simples no conjunto de dados CIFAR10. Após algum tempo, a perda de validação começou a aumentar, enquanto a precisão da validação também aumentou. A perda e a precisão do teste continuam a melhorar. Como isso é possível? Parece que, se a perda de validação aumentar,...
Concluí o curso Machine Learning de Andrew Ng há cerca de um ano e agora estou escrevendo minha exploração matemática do ensino médio sobre o funcionamento da regressão logística e técnicas para otimizar o desempenho. Uma dessas técnicas é, obviamente, a regularização. O objetivo da regularização...
Suponha que um modelo tenha 100% de precisão nos dados de treinamento, mas 70% de precisão nos dados de teste. O argumento a seguir é verdadeiro sobre esse modelo? É óbvio que este é um modelo com excesso de ajuste. A precisão do teste pode ser aprimorada, reduzindo o sobreajuste. Mas, esse modelo...
É verdade que os métodos bayesianos não se ajustam demais? (Vi alguns artigos e tutoriais fazendo essa reivindicação) Por exemplo, se aplicarmos um Processo Gaussiano ao MNIST (classificação de dígitos manuscritos), mas mostrarmos apenas uma amostra, será revertida para a distribuição anterior...
Suponha que eu tenha um conjunto de dados para uma tarefa de classificação estatística supervisionada, por exemplo, por meio de um classificador Bayes. Este conjunto de dados consiste em 20 recursos e eu quero reduzi-lo a 2 recursos por meio de técnicas de redução de dimensionalidade, como Análise...
Eu estava lendo o relatório da solução vencedora de uma competição Kaggle ( Classificação de malware ). O relatório pode ser encontrado nesta postagem do fórum . O problema era um problema de classificação (nove classes, a métrica era a perda logarítmica) com 10.000 elementos no conjunto de trens e...
Fiz algumas pesquisas sobre sobreaquecimento e desajustamento e compreendi o que elas são exatamente, mas não consigo encontrar os motivos. Quais são as principais razões para sobreajustar e não adequar? Por que enfrentamos esses dois problemas no treinamento de um
Minha configuração é a seguinte: Estou seguindo as diretrizes em "Modelagem Preditiva Aplicada". Assim, filtramos os recursos correlatos e terminamos com o seguinte: 4900 pontos de dados no conjunto de treinamento e 1600 pontos de dados no conjunto de teste. Eu tenho 26 recursos e o alvo é uma...
A regularização em regressão (linear, logística ...) é a maneira mais popular de reduzir o excesso de ajuste. Quando o objetivo é a precisão da previsão (não explicando), existem boas alternativas para a regularização, especialmente adequadas para grandes conjuntos de dados (mi / bilhões de...
O parâmetro de taxa de aprendizado ( ) no Gradient Boosting reduz a contribuição de cada novo modelo de base - tipicamente uma árvore rasa - que é adicionada na série. Foi demonstrado que aumenta drasticamente a precisão do conjunto de testes, o que é compreensível, pois em etapas menores, o mínimo...
Existe uma definição matemática ou algorítmica de sobreajuste? As definições geralmente fornecidas são o gráfico 2-D clássico de pontos, com uma linha passando por cada ponto e a curva de perda de validação subindo subitamente. Mas existe uma definição matematicamente...
Se eu tiver dados e executar uma classificação (digamos floresta aleatória nesses dados) com validação cruzada (digamos 5 vezes), posso concluir que não há ajuste excessivo no meu
Embora os resultados do conjunto de testes privado não possam ser usados para refinar ainda mais o modelo, a seleção de modelos não está sendo executada em um grande número de modelos com base nos resultados do conjunto de testes privados? Por esse processo, você não acabaria se adaptando ao...
Digamos que temos um modelo mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects...
Vamos considerar o problema de classificar o conjunto de dados MNIST. De acordo com a página MNIST da Yann LeCun , 'Ciresan et al.' obteve uma taxa de erro de 0,23% no conjunto de testes MNIST usando a Rede Neural Convolucional. Vamos denotar o treinamento MNIST definido como , o teste MNIST...
Eu sou relativamente novo em florestas aleatórias. No passado, sempre comparei a precisão do ajuste contra o teste contra o ajuste contra o trem para detectar qualquer ajuste excessivo. Mas acabei de ler aqui que: "Em florestas aleatórias, não há necessidade de validação cruzada ou de um...