Por que a entropia como medida de erro leva ao sobreajuste?

11

Esta publicação no KDnuggets citando a publicação de John Langford afirma que a entropia e as informações mútuas quando usadas como medidas de erro podem levar ao sobreajuste. Você poderia entrar em mais detalhes sobre isso?

Tim
fonte
3
Observe que no post original de Langford, há uma discussão começando com o comentário de Aleks sobre como essas medidas são "quebradiças" (e podem levar a sobreajuste).
8118 Stephanie Kassassa
@StephanKolassa eu notei, mas eu estaria interessado em comentários mais detalhados sobre isso.
Tim

Respostas:

0

Qualquer medida de erro que não penalize a complexidade do sistema pode levar a sobreajuste, por exemplo, entropia.

Em geral, quando você ajusta seus dados de treinamento a um modelo que deseja generalizar bem a novos dados, essa etapa de treinamento é realizada minimizando alguma medida de erro que depende, entre muitas coisas, de seus parâmetros (um vetor que inclui todos os parâmetros do seu modelo que serão ajustados durante o treinamento).E(w)w

Se sua medida de erro se preocupa apenas em ajustar melhor e melhor seus dados de treinamento, você pode achar que a construção de modelos com um grande número de parâmetros (que podem ter algum valor adicional) é boa porque seu modelo é tão flexível que seus dados de treinamento podem ser perfeitamente aprendeu. Por outro lado, se seus dados de treinamento forem barulhentos (o que geralmente é o caso), você também fará com que seu modelo caiba ruído, e é disso que se trata o excesso de ajuste.

Existem técnicas para evitar isso, que são chamadas de técnicas de "regularização", sendo as mais comuns as que adicionam um termo de regularização à função de erro, de modo que agora onde é um erro que mede quão bom é o seu ajuste (por exemplo, entropia) e uma penalização para modelos complexos (maior para modelos com muitos parâmetros ou grandes valores de parâmetros).E(w)=ED(w)+EW(w)EDEW

Javi
fonte
3
Isso não parece responder à pergunta. John Langford menciona a entropia explicitamente como uma medida que leva ao sobreajuste, ele não menciona "nenhuma medida". A questão é: o que / se é específico da entropia em termos de sobreajuste?
Tim
a regularização geralmente não é considerada nos conjuntos de validação / teste, para todas as medidas. Parece que Langford estava falando sobre entropia e informações mútuas em particular.
carlo