Estou treinando uma regressão logística para prever quais corredores têm mais chances de terminar uma cansativa corrida de resistência.
Muito poucos corredores completam esta corrida, então eu tenho um desequilíbrio severo de classe e uma pequena amostra de sucessos (talvez algumas dezenas). Sinto que consegui um bom "sinal" das dezenas de corredores que quase conseguiram. (Meus dados de treinamento não têm apenas a conclusão, mas também até que ponto os que não terminaram realmente chegaram.) Então, estou me perguntando se é uma péssima ideia ou não incluir algum "crédito parcial". Eu criei algumas funções para crédito parcial, a rampa e a curva logística, que poderiam ter vários parâmetros.
A única diferença com a regressão seria que eu usaria dados de treinamento para prever o resultado modificado e contínuo em vez de um resultado binário. Comparando suas previsões em um conjunto de testes (usando a resposta binária), obtive resultados bastante inconclusivos - o crédito parcial logístico parecia melhorar marginalmente R-quadrado, AUC, P / R, mas essa foi apenas uma tentativa de um caso de uso usando um pequena amostra.
Não me importo que as previsões sejam uniformemente tendenciosas para a conclusão - o que me interessa é classificar corretamente os competidores quanto à sua probabilidade de terminar, ou talvez até estimar sua probabilidade relativa de finalização.
Entendo que a regressão logística pressupõe uma relação linear entre preditores e o log do odds ratio, e obviamente essa relação não tem uma interpretação real se eu começar a mexer nos resultados. Tenho certeza de que isso não é inteligente do ponto de vista teórico, mas pode ajudar a obter algum sinal adicional e evitar o ajuste excessivo. (Eu tenho quase tantos preditores quanto sucessos, portanto, pode ser útil usar relacionamentos com conclusão parcial como uma verificação de relacionamentos com conclusão completa).
Essa abordagem é usada na prática responsável?
De qualquer maneira, existem outros tipos de modelos por aí (talvez algo que modele explicitamente a taxa de risco, aplicada à distância em vez do tempo) que possa ser mais adequado para esse tipo de análise?
fonte