Uma regressão logística que maximiza a probabilidade necessariamente também maximiza a AUC em relação aos modelos lineares?

13

Dado um conjunto de dados com resultados binários e alguma matriz preditora X \ in \ mathbb {R} ^ {n \ times p} , o modelo de regressão logística padrão estima coeficientes \ beta_ {MLE } que maximizam a probabilidade binomial. Quando X está na classificação completa, \ beta_ {MLE} é único; quando a separação perfeita não está presente, é finita.y{0,1}nXRn×pβMLEXβMLE

Esse modelo de máxima verossimilhança também maximiza a AUC do ROC (também conhecida como estatística c ), ou existe alguma estimativa de coeficiente βAUCβMLE que obterá uma AUC do ROC mais alta? Se é verdade que o MLE não maximiza necessariamente a AUC do ROC, outra maneira de analisar essa questão é "Existe uma alternativa à maximização da probabilidade que sempre maximizará a AUC do ROC de uma regressão logística?"

Estou assumindo que os modelos são os mesmos: não estamos adicionando ou removendo preditores em X ou alterando a especificação do modelo, e estou assumindo que os modelos de maximização de probabilidade e maximização de AUC estão usando a mesma função de link.

Sycorax diz restabelecer Monica
fonte
2
Certamente se, por exemplo, alguma função de link gerar um ajuste melhor que um logit? Fora isso, boa pergunta, se o processo de geração de dados puder ser assumido como logit. βAUCβMLE
Nutle
Boa pergunta, mas considere isso. O ROC e a AUC são usados ​​para comparar dois modelos diferentes; portanto, se uma solução para a estimativa de MLE de qualquer modelo for única, isso significa que você poderá obter uma AUC diferente apenas se alterar a especificação do modelo atual e estimar uma nova diferente. modelo via MLE. Portanto, nesse ponto, outra pergunta seria: existe algum outro método de estimativa "melhor" (algoritmo de maximização ecc) que não seja o MLE simples aplicável ao mesmo modelo, de modo que eu chegue a estimativas diferentes dos coeficientes que levam a novos betas "melhores" com AUC mais alta?
Fr1
@Nutle exatamente, isso seria uma especificação diferente
Fr1
@ Fr1 Sim, é isso que significa único. O que estou sugerindo na minha pergunta é algo como "e se houver alguma alternativa ao MLE que alcance uma AUC mais alta?" Se é verdade que existe um modelo linear diferente (um modelo que não seja o MLE) que atinge uma AUC mais alta, seria interessante saber sobre isso.
Sycorax diz Reinstate Monica
1
@ Sycorax, o que mais nós assumimos? :) Pressupostos são importantes, pois se conhecermos o verdadeiro DGP com o link e as variáveis ​​usadas, o MLE é uma estatística imparcial uniformemente mais poderosa.
Nutle

Respostas:

11

Não é o caso que .βMLE=βAUC

Para ilustrar isso, considere que a AUC pode ser escrita como

P(y^1>y^0|y1=1,y0=0)

Em outras palavras, a ordem das previsões é a única coisa que afeta a AUC . Este não é o caso da função de probabilidade. Portanto, como exercício mental, suponha que tínhamos preditores únicos e, em nosso conjunto de dados, não vemos separação perfeita (por exemplo, é finito). Agora, se simplesmente pegarmos o valor do maior preditor e aumentarmos em alguma quantia pequena, mudaremos a probabilidade dessa solução, mas ela não mudará a AUC, pois a ordem deve permanecer a mesma. Assim, se o antigo MLE maximizou a AUC, ele ainda maximizará a AUC após a alteração do preditor, mas não maximizará a probabilidade.βMLE

Portanto, no mínimo, não é o caso de não ser único; qualquer que preserva a ordem das estimativas atinge exatamente a mesma AUC. Em geral, como a AUC é sensível a diferentes aspectos dos dados, eu acreditaria que deveríamos encontrar um caso em que não maximize . De fato, arriscaria adivinhar que isso acontece com alta probabilidade.βAUCββMLEβAUC

EDIT (movendo o comentário para a resposta)

O próximo passo é provar que o MLE não maximiza necessariamente a AUC (o que ainda não foi comprovado). Pode-se fazer isso usando algo como os preditores 1, 2, 3, 4, 5, 6, (com ) com resultados 0, 0, 0, 1, 1, 1, 0. Qualquer valor positivo de maximizará a AUC (independentemente do valor de ), mas podemos escolher um grande o suficiente para que .xx>6βxxβMLE<0

Cliff AB
fonte
1
(+1) Ah! Claro - como se trata de pedido, poderíamos alterar arbitrariamente a interceptação, que obviamente deve alterar o valor da probabilidade, mas o pedido deve ser o mesmo, porque nenhum dos coeficientes do recurso foi alterado, portanto a AUC permanecerá fixa.
Sycorax diz Restabelecer Monica
+1. O exemplo de edição funciona com ? Se precisarmos tomar x suficientemente grande para que isso funcione com n grande , a probabilidade de tais valores existirem rapidamente converge para 0, para algum logit fixo? nxn
Nutle
@ Nutle: bem, depende do que você quer dizer sobre . Se tirarmos n cópias (preditores + resultados) do meu conjunto de dados de brinquedos, sim, o resultado será válido. No entanto, se tirássemos n cópias desse conjunto de preditores e os dados realmente viessem de um modelo de regressão logística, isso quase nunca aconteceria (como você indica). Observe, no entanto, que algo semelhante a isso poderia acontecer com alta probabilidade se a relação entre os preditores não seguisse realmente um modelo de regressão logística. nnn
Cliff AB
Sim, obrigado, estava falando sobre o tamanho. Então, supondo que essa distribuição de cauda pesada seja conhecida, o exemplo ainda seria válido se a estimativa do MLE fosse ajustada para a distribuição verdadeira? O que estou procurando é que, se a probabilidade de tal existir para qualquer amostra n não se aproximar de 0, a estimativa do MLE não deve reagir adequadamente e não agir como faria com um outlier? Desculpe se eu não estou totalmente claro aqui com a redacçãoxn
Nutle