Tanto na regressão ordinal quanto na classificação, você está aprendendo com variáveis dependentes ordenadas, então minha pergunta é:
Qual é a diferença na formulação (se houver) entre o problema da regressão ordinal e o problema de aprender a classificar?
regression
ordinal-data
ranking
Fabian Pedregosa
fonte
fonte
Respostas:
3 anos depois, respondo à minha própria pergunta.
Para mim, a principal diferença está em qual é a saída dos modelos nos diferentes problemas. Na regressão ordinal, a tarefa é prever um rótulo para uma determinada amostra; portanto, a saída de uma previsão é um rótulo (como é o caso, por exemplo, na classificação multiclasse). Por outro lado, no problema de aprender a classificar, a saída é uma ordem de uma sequência de amostras. Ou seja, a saída de um modelo de classificação pode ser vista como uma permutação que faz com que as amostras tenham etiquetas o mais ordenadas possível. Portanto, diferentemente do modelo de regressão ordinal, o algoritmo de classificação não é capaz de prever um rótulo de classe. Por esse motivo, a entrada de um modelo de classificação não precisa especificar rótulos de classe, mas apenas uma ordem parcial entre as amostras (consulte, por exemplo, [0] para uma aplicação disso). Nesse sentido, a classificação é um problema mais fácil que a regressão ordinal:
Isso é melhor explicado com um exemplo. Suponha que possuamos os seguintes pares de (amostra, rótulo): . Dada essa entrada, um modelo de classificação preverá uma ordem dessa sequência de amostras. Por exemplo, para algoritmos de classificação, as permutações e são previsões com pontuação perfeita desde que o os rótulos das duas seqüências e são ordenados. Por outro lado, uma regressão ordinal preveria um rótulo para cada uma das amostras e, nesse caso, a previsão (1, 2, 2) daria uma pontuação perfeita, mas não (1, 2, 3) ou (1, 3, 2).{(x1,1),(x2,2),(x3,2)} (1,2,3)→(1,2,3) (1,2,3)→(1,3,2) {(x1,1),(x2,2),(x3,2)} {(x1,1),(x3,2),(x2,2)}
[0] Otimizando mecanismos de pesquisa usando dados de clique Thorsten Joachims
fonte
É uma ótima pergunta! Em geral, a diferença entre estatística e aprendizado de máquina ou a abordagem de outros campos às "nossas" perguntas pode ser difícil de entender, porque existe um zoológico de termos associado a cada campo.
Assim, por exemplo, quando as pessoas descobriram que as redes neurais backprop estavam "apenas" fazendo algum tipo de regressão não-linear, isso foi como uma descoberta importante entre os pesquisadores .
Eu acho que é o mesmo tipo de coisa: existem muitas técnicas que as pessoas inventaram para atacar o mesmo problema. A logística ordinal é uma delas.
fonte