O viés e a variação de um classificador determinam o grau em que ele pode desajustar e desajustar os dados, respectivamente. Como alguém pode determinar um classificador para ser caracterizado como alto viés ou alta variação?
Estou bem claro do que é uma troca de desvios de polarização e sua decomposição e como isso pode depender dos dados de treinamento e do modelo. Por exemplo, se os dados não contiverem informações suficientes relacionadas à função de destino (para simplificar, falta de amostras), o classificador sofrerá um alto viés devido às possíveis suposições incorretas. Pelo contrário, se o classificador se encaixar firmemente nos dados de treinamento fornecidos (por exemplo, uma RNA com muitos nós executando várias épocas ou uma árvore de decisão com grande profundidade), exibirá alta variação, pois não pode generalizar bem para prever o que não é visto amostras.
No entanto, há casos em que vejo palestras falando sobre a seleção de um classificador de alta polarização e baixa variação. Por exemplo, Bayes ingênuo é considerado um classificador de alto viés e baixa variância (presumo que seja devido à suposição de independência condicional). Como determinar isso? Então, como caracterizaremos SVM, ID3, Florestas Aleatórias eNN? Eles têm alto viés ou alta variação?