Os problemas de classificação de texto tendem a ser dimensionais bastante altos (muitos recursos), e é provável que os problemas dimensionais sejam separáveis linearmente (como é possível separar pontos d + 1 em um espaço d-dimensional com um classificador linear, independentemente de como os pontos estão rotulados). Portanto, é provável que os classificadores lineares, seja por regressão de crista ou SVM com um núcleo linear, sejam bem-sucedidos. Nos dois casos, o parâmetro cume ou C para o SVM (como tdc menciona +1) controla a complexidade do classificador e ajuda a evitar ajustes excessivos, separando os padrões de cada classe por grandes margens (ou seja, a superfície de decisão passa pelo meio do intervalo entre as duas coleções de pontos). No entanto, para obter um bom desempenho, os parâmetros de cumeeira / regularização precisam ser ajustados adequadamente (eu uso a validação cruzada deixar de fora, pois é barato).
No entanto, a razão pela qual a regressão da crista funciona bem é que os métodos não lineares são muito poderosos e é difícil evitar o ajuste excessivo. Pode haver um classificador não linear que ofereça melhor desempenho de generalização que o melhor modelo linear, mas é muito difícil estimar esses parâmetros usando a amostra finita de dados de treinamento que temos. Na prática, quanto mais simples o modelo, menos problemas temos em estimar os parâmetros; portanto, há menos tendência a ajustar demais, para obter melhores resultados na prática.
Outro problema é a seleção de recursos, a regressão da crista evita o ajuste excessivo, regularizando os pesos para mantê-los pequenos, e a seleção do modelo é direta, pois você só precisa escolher o valor de um único parâmetro de regressão. Se você tentar evitar o ajuste excessivo escolhendo o conjunto ideal de recursos, a seleção do modelo se torna difícil, pois existe um grau de liberdade (tipo de) para cada recurso, o que torna possível o ajuste excessivo do critério de seleção de recursos e você termine com um conjunto de recursos ideal para essa amostra específica de dados, mas com baixo desempenho de generalização. Portanto, não executar a seleção de recursos e usar a regularização geralmente oferece um melhor desempenho preditivo.
Costumo usar o Bagging (formar um comitê de modelos treinados em amostras de bootstrap do conjunto de treinamento) com modelos de regressão de crista, o que geralmente melhora o desempenho e, como todos os modelos são lineares, você pode combiná-los para formar um único modelo linear , portanto, não há impacto no desempenho em operação.
A regressão de Ridge, como o nome sugere, é um método de regressão, e não de classificação. Presumivelmente, você está usando um limite para transformá-lo em um classificador. De qualquer forma, você está simplesmente aprendendo um classificador linear definido por um hiperplano. A razão pela qual está funcionando é porque a tarefa em questão é essencialmente linearmente separável - isto é, um simples hiperplano é tudo o que é necessário para separar as classes. O parâmetro "cume" permite que ele funcione em casos que não são completamente linearmente separáveis ou em problemas com classificação insuficiente (nesse caso, a otimização seria degenerada).
Nesse caso, não há razão para que outros classificadores também não funcionem bem, assumindo que eles foram implementados corretamente. Por exemplo, o SVM encontra o "hiperplano de separação ideal" (ou seja, o hiperplano que maximiza a margem ou intervalo entre as classes). O
C
parâmetro do SVM é um parâmetro de controle de capacidade análogo ao parâmetro cume, que permite algumas classificações incorretas (outliers). Supondo que o processo de seleção de parâmetros tenha sido realizado diligentemente, eu esperaria que os dois métodos produzissem quase exatamente os mesmos resultados em um conjunto de dados desse tipo.fonte