AUC na regressão logística ordinal

9

Estou usando 2 tipos de regressão logística - um é o tipo simples, para classificação binária, e o outro é regressão logística ordinal. Para calcular a precisão do primeiro, usei a validação cruzada, onde calculei a AUC para cada dobra e calculei a AUC média. Como posso fazer isso para a regressão logística ordinal? Ouvi falar do ROC generalizado para preditores de várias classes, mas não sei como calculá-lo.

Obrigado!

Noam Peled
fonte
11
não AUC mas relacionados: em micro / macro curvas de precisão de recall no stats.stackexchange.com/questions/21551/...
Yevgeny

Respostas:

4

Eu só gosto da área sob a curva ROC ( index) porque é uma probabilidade de concordância. c é um componente dos coeficientes de correlação de classificação. Por exemplo, D x y de Somers = 2 × ( c - 1cc. ParaYordinal,Dxyé uma excelente medida de discriminação preditiva, e opacoteRfornece maneiras fáceis de obter estimativas corrigidas pelo excesso de ajuste de inicialização deDxy. Você pode resolver novamente umíndice-cgeneralizado (AUROC generalizado). Há razões para não considerar cada nível deYseparadamente porque esta não explora a natureza ordinal deY.Dxy=2×(c-1 12)YDxyrmsDxycYY

No rmsexistem duas funções de regressão ordinal: lrme orm, o último tratamento contínuo e proporcionar mais famílias de distribuição (funções de ligação) do que as probabilidades proporcionais.Y

Frank Harrell
fonte
A questão principal será como é que rms calcular o usado em de Sommer D x y ? c-EundexDxy
Chamberlain Foncha
11
Está escrito em Somer . O índice- generalizado é simplesmente calculado mediante a resolução da equação listada acima. Internamente, todas as combinações possíveis de observações com diferentes valores de Y são examinadas, e a fração desses pares para as quais as previsões estão na mesma ordem é a estimativa da probabilidade de concordância. Afirmei uma coisa: a função usa ρ de Spearman em vez de D x y . cYormρDxy
precisa
Obrigado pela correção ortográfica. Na regressão ordinal, será muito mais interessante olhar não apenas a ordenação aos pares, como é feito na função orm que você mencionou, mas também a ordenação consistente (com operadores ternários ou superiores), dependendo do número de classes que você possui. Em resumo, o que estou dizendo é: com uma regressão logística cumulativa ajustada, por exemplo, a ordem das classes é atendida no modelo. Uma medida preditiva também deve ser capaz de não fazer uma comparação pareada P(pred1 1<pred2|obs1 1<obs2)mas comparação do formulário $ P (pred_1 <pred_2 <pred_3 | obs_1 <obs_2 <o
Chamberlain Foncha
Não conhecendo essas medidas, minha primeira reação é que elas estão colocando um obstáculo alto.
precisa
1

AUC para regressão ordinal é algo complicado. Você pode calcular a AUC de cada classe criando manequins para obter o valor 1 para a classe em que está calculando a AUC e 0 para o restante das outras classes. Se você tiver 4 classes, criará 4 AUCs e as plotará no mesmo gráfico. O principal problema desse método é o fato de ele penalizar igualmente a classificação errada. Muito mais intuitivamente, classificar erradamente uma classe 1 na classe 3 deve ser pior do que classificar erradamente a classe 1 na classe 2.

Chamberlain Foncha
fonte