Em problemas de regressão, se a saída for discretizada em posições / categorias / clusters e usada como etiquetas, o modelo será reduzido a um modelo de classificação.
Minha pergunta é: qual é a motivação teórica ou aplicada por trás dessa redução? Nas minhas experiências particulares em prever a localização a partir do texto, muitas vezes vi melhorias quando modelo o problema como classificação e não como regressão.
No meu caso particular, a saída é 2d, mas estou procurando uma explicação mais geral para isso.
Atualização: suponha que a entrada seja texto BoW e a saída seja coordenadas (por exemplo, como nos dados geotagged do Twitter). Na regressão, a tarefa é prever o texto lat / lon dado usando a perda de erro ao quadrado. Se agruparmos os pontos de lat / lon de treinamento e assumirmos que cada cluster é uma classe, poderemos prever uma classe otimizando a perda de entropia cruzada em um modelo de classificação.
Avaliação:
Para regressão, a distância média entre os locais previstos e os locais dourados.
Para classificação, a distância média entre o ponto médio de treinamento no cluster previsto e a localização do ouro.
Respostas:
Vejamos as fontes de erro para suas previsões de classificação, comparadas com as de uma previsão linear. Se você classificar, você tem duas fontes de erro:
Se seus dados tiverem pouco ruído, você geralmente será classificado na lixeira correta. Se você também tiver muitos compartimentos, a segunda fonte de erro será baixa. Se, por outro lado, você tiver dados de alto nível de ruído, poderá classificá-lo erroneamente com frequência na lixeira errada, e isso poderá dominar o erro geral - mesmo se você tiver muitas lixeiras pequenas, a segunda fonte de erro será pequena se você classificar corretamente. Por outro lado, se você tiver poucos compartimentos, classificará com mais freqüência corretamente, mas o erro dentro da lixeira será maior.
No final, provavelmente tudo se resume a uma interação entre o ruído e o tamanho da lixeira.
Aqui está um pequeno exemplo de brinquedo, que eu corri para 200 simulações. Uma relação linear simples com ruído e apenas dois compartimentos:
Agora, vamos executar isso com ruído baixo ou alto. (O conjunto de treinamento acima apresentava alto ruído.) Em cada caso, registramos as MPEs a partir de um modelo linear e de um modelo de classificação:
Como vemos, se a classificação melhora a precisão se reduz ao nível de ruído neste exemplo.
Você pode brincar um pouco com dados simulados ou com diferentes tamanhos de compartimento.
Por fim, observe que, se você estiver tentando tamanhos diferentes de lixeira e mantendo as que apresentam melhor desempenho, não deve se surpreender com o desempenho melhor que um modelo linear. Afinal, você está basicamente adicionando mais graus de liberdade e, se não tomar cuidado (validação cruzada!), Acabará ajustando demais as caixas.
fonte