Classificação vs. regressão para predição do sinal de uma variável de resposta contínua

8

Digamos que eu queira prever se um projeto será ou não lucrativo. Nos meus dados de amostra, a variável de resposta é na verdade uma variável contínua: o lucro / perda do projeto.

Como meu objetivo final é apenas uma classificação binária (projeto lucrativo ou projeto não lucrativo), devo usar uma técnica de classificação? Ou devo usar regressão para não jogar fora as informações adicionais fornecidas por uma variável de resposta contínua?

user2303
fonte

Respostas:

10

Não consigo pensar em um exemplo em que eu recomendaria uma técnica de classificação quando a variável é contínua ou ordinal. Após o ajuste eficiente de um modelo contínuo, você pode usá-lo para estimar a probabilidade de que exceda qualquer nível de interesse. Se o modelo for gaussiano, essa probabilidade é uma função da média prevista e do desvio padrão residual.Y

Frank Harrell
fonte
4
Um exemplo (conforme observado abaixo) é se o custo da previsão incorreta é o mesmo para todos os níveis de rentabilidade. Ou seja. quando você tem uma variável contínua, mas realmente está interessado apenas nos valores discretos. Uma ranhura com n nós regrediram para a variável contínua pode colocar muitos nós sobre os valores extremos para o modo de precisão da forma dos dados não, ao passo que uma spline optimizado para a classificação pode colocar todas as suas cabeças em torno 0.
Pedro
9

Vladimir Vapnik (co-inventor da Support Vector Machine e principal teórico da aprendizagem computacional) defende sempre a tentativa de resolver o problema diretamente, em vez de resolver um problema mais geral e depois descartar algumas das informações fornecidas pela solução. Eu geralmente estou de acordo com isso, então eu sugeriria uma abordagem de classificação para o problema como atualmente. A razão para isso é que, se estamos interessados ​​apenas em classificar um projeto como lucrativo ou não, então estamos realmente interessados ​​apenas na região onde a lucratividade é em torno de zero. Se formarmos um modelo de classificação, é aí que concentraremos nossos recursos de modelagem. Se adotarmos uma abordagem de regressão, podemos estar desperdiçando recursos de modelagem para fazer pequenas melhorias no desempenho de projetos que serão muito lucrativos ou não rentáveis, potencialmente à custa de melhorar o desempenho de projetos limítrofes.

Agora, a razão pela qual eu disse "como está atualmente" é que muito poucos problemas realmente envolvem classificação binária simples e difícil (o reconhecimento óptico de caracteres provavelmente seria um). Geralmente, tipos diferentes de classificação incorreta têm custos diferentes, ou as frequências da classe operacional podem ser desconhecidas ou variáveis ​​etc. Nesses casos, é melhor ter um classificador probabilístico, como regressão logística, em vez de um SVM. Parece-me que, para uma aplicação financeira, faremos melhor se soubermos a probabilidade de o projeto ser lucrativo e quão lucrativo ou não é provável. Podemos estar dispostos a financiar um projeto com poucas chances de ser lucrativo, mas extremamente lucrativo, caso seja bem-sucedido, mas não um projeto quase garantido para ser bem-sucedido, mas que tenha uma margem de lucro tão pequena que seríamos melhor apenas colocar o dinheiro em uma conta poupança.

Então, Frank e Omri374 estão certos! (+1; o)

EDIT: Para esclarecer por que a regressão nem sempre pode ser uma boa abordagem para resolver um problema de classificação, aqui está um exemplo. Digamos que temos três projetos, com lucratividade e, para cada projeto, temos uma variável explicativa que esperamos ser indicativa de lucratividade, . Se uma abordagem de regressão (com deslocamento), obtemos coeficientes de regressão e (desde que eu tenha feito as somas corretamente!). O modelo prevê os projetos como gerando lucros , ex =(1,2,10)p0=-800,8288β1=184,8836 y 1-$616 y 2-$ 431 y 3$1048t =2y=(-$1000,+$1,+$1000)x=(1,2,10)β0 0=-800.8288β1=184.8836y^1-$616y^2-$431y^3$1048. Observe que o segundo projeto está incorretamente previsto como não lucrativo. Se, por outro lado, temos uma abordagem de classificação e regressão em vez de , temos de regressão coeficientes e , que pontua os três projetos da seguinte maneira: , e . Portanto, uma abordagem de classificação classifica corretamente o projeto 1 como não lucrativo e os outros dois como lucrativos.β 0 = - 0,2603 β 1 = 0,1370 t 1 = - 0,1233 t 2 = 0,0137 t 3 = 1,1096t=2(y> =0 0)-1β0 0=-0,2603β1=0,1370t^1=-0,1233t^2=0,0137t^3=1.1096

A razão pela qual isso acontece é que uma abordagem de regressão tenta igualmente difícil minimizar a soma dos erros ao quadrado para cada um dos pontos de dados. Nesse caso, um SSE mais baixo é obtido permitindo que o projeto dois caia no lado incorreto do limite de decisão, a fim de obter erros mais baixos nos outros dois pontos.

Portanto, Frank está correto ao dizer que uma abordagem de regressão provavelmente é uma boa abordagem na prática, mas se a classificação é realmente o objetivo final, há situações em que ela pode ter um desempenho ruim e uma abordagem de classificação terá um desempenho melhor.

Dikran Marsupial
fonte
[Y>0 0|X]
Se um modelo contínuo requer mais recursos do que um modelo de classificação depende de que tipo de modelo é (por exemplo, um modelo de rede neural poderia usar suas unidades ocultas para modelar recursos próximos ao limite ou usá-los para melhorar o ajuste do limite) . O mesmo se aplica a uma extensão menor dos pesos de um modelo linear, em que os valores ajustados podem ser dominados por altos pontos de alavancagem que não estão nem perto do limite, o que pode ser ruim se uma classificação simples realmente for o que é importante.
Dikran marsupiais
Seu segundo ponto sobre lucratividade parece ser essencialmente o motivo pelo qual estou descrevendo no meu segundo parágrafo (o problema real provavelmente não é realmente uma simples classificação rígida), e foi por isso que eu disse que você e o omri374 estavam corretos.
Dikran marsupiais
Y
Os sistemas classificadores têm sido usados ​​para localizar o limite de decisão usando rótulos discretos por um longo tempo. Você está perdendo o argumento, na verdade, estou de acordo principalmente com o que você escreveu, com a ressalva de que o modelo pode ser influenciado por altos pontos de alavancagem que não estão próximos do limite da decisão, o que pode reduzir o desempenho se a classificação realmente for o objetivo ( o que é relativamente raro na prática). Vi esse fenômeno no meu trabalho aplicado ao longo dos anos, mas ainda uso frequentemente modelos de regressão para resolver problemas de classificação. Pergunte ao Prof. Vapnik.
Dikran Marsupial
3

Depois de ler os comentários, acho que a seguinte distinção é o que está faltando na discussão:

Como modelar o problema

Isso não tem nada a ver com qual técnica usar. É a questão de quais são as entradas e saídas e como avaliar o resultado.

Se você realmente se importa apenas se nossos projetos são ou não rentáveis ​​e a quantia pela qual eles são assim é absolutamente irrelevante, modele isso como um problema de classificação. Isso significa que você está otimizando para a taxa esperada de classificação correta (precisão) ou AUC. O que essa otimização traduz depende de qual técnica você usa.

Todas as questões de escolha de modelo e algoritmos de busca podem ser abordadas heuristicamente (usando os argumentos apresentados nas outras respostas e comentários), mas a prova final do pudim está na comida. Qualquer que seja o modelo que você tenha, você avaliará por testes cruzados validados quanto à precisão. Portanto, a precisão é o que você otimiza.

Como resolver o problema

Você pode usar qualquer método que desejar que se encaixe no paradigma de classificação. Como você tem uma variável y contínua, é possível fazer regressão e traduzir para uma classificação binária. Provavelmente isso funcionará bem. No entanto, não há garantia de que o modelo de regressão ideal (por soma de erros quadrados ou máxima probabilidade ou qualquer outra coisa) também forneça o modelo de classificação ideal (por precisão ou AUC).

Pedro
fonte
+1 como máxima geral, eu sugeriria que a primeira tarefa é ter uma idéia clara do problema a ser resolvido, e a segunda é abordar o problema com o método que dá a resposta mais direta à pergunta que é realmente sendo perguntado. Essa é uma ligeira generalização da máxima de Vapnik, mas é muito pequena!
Dikran marsupiais
YY>0 0
Note que não estou dizendo que você deva necessariamente jogar fora ou ignorar os valores y contínuos. Mas há uma diferença entre usá-los em um classificador e otimizar a precisão da regressão (você modela o problema como classificação, mas o resolve com regressão). Pode ser que sua melhor solução seja um método de regressão, mas você deve provar isso avaliando-o como um classificador. E há situações em que jogar fora os valores contínuos e usar apenas os valores discretizados oferece um melhor desempenho.
Peter Peter
Avaliando-o como um classificador implica que sua função de utilidade é descontínua, o que não me parece realista. Isso também implica que as decisões binárias são forçadas, ou seja, não há categoria de "nenhuma decisão, obtenha mais dados". Criei exemplos em que a precisão da classificação diminui após a adição de uma variável altamente importante ao modelo. O problema não está na variável; é com a medida de precisão.
precisa
Y>0 0
1

Um modelo de classificação geralmente tenta minimizar o sinal (erro em termos de classe) e não o viés. No caso de muitos outliers, por exemplo, eu preferiria usar um modelo de classificação e não um modelo de regressão.

Omri374
fonte
Isso não se segue e será terrivelmente ineficiente. Você pode usar um modelo contínuo robusto, incluindo um modelo semiparamétrico, como o modelo de chances proporcionais.
31813 Frank Harrell
0

Eu enquadraria o problema como o de minimizar as perdas. A questão é qual é a sua verdadeira função de perda? Uma previsão incorreta de rentável quando o projeto perdeu US $ 1 custa tanto quanto uma previsão de rentável quando o projeto perdeu US $ 1000? Nesse caso, sua função de perda é verdadeiramente binária, e é melhor lançar a coisa toda como um problema de classificação. A função de regressão ainda pode ser um dos classificadores candidatos, mas você deve otimizá-la com a função de perda discreta em vez da contínua. Se você tem uma definição mais complicada de perda, tente formalizá-la e veja o que obtém se usar a derivada.

Curiosamente, muitos métodos de aprendizado de máquina realmente otimizam uma função de perda discreta aproximando-se de uma função contínua, uma vez que uma função de perda discreta fornece gradientes ruins para otimização. Portanto, você pode acabar definindo-o como um problema de classificação, já que essa é sua função de perda, mas aproximando-a da função de perda com a contínua original.

Pedro
fonte
[Y>0 0|X]
Isso é interessante. Mas ML não é de forma alguma o objetivo final, seja precisão ou AUC. Se você estiver otimizando a probabilidade (ou SSE), poderá acabar "gastando a complexidade do modelo" na modelagem de artefatos de dados que não importam. Um modelo equivalente pode realmente reduzir a precisão de sua modelagem para se concentrar em melhorar a precisão da classificação.
Peter Peter
X
Eu concordo com suas dúvidas sobre a CUA. Por precisão, quero dizer a proporção classificada corretamente. Concordo que é improvável que o pôster esteja realmente interessado apenas nas variáveis ​​binárias, e suspeito que, na verdade, a quantidade de lucro obtido tenha algum papel. Mas se a classificação discreta é realmente a única preocupação, não vejo mais nada para otimizar além de uma medida de classificação. E se suas classes são fortemente influenciadas pela classe lucrativa, ignorar os dados e sempre classificá-los como lucrativos será, de fato, uma linha de base difícil de superar.
Peter Peter
A proporção classificada corretamente apresenta desempenho ainda pior que a AUC. Foi mostrado na literatura alemã de tomada de decisão na década de 1970 que a precisão da classificação é uma regra de pontuação inadequada. Se a sua classificação for discreta, isso pode ser obtido no último segundo. As decisões ideais da Bayes usam condicionamento completo em todas as informações disponíveis.
Frank Harrell