Por que a regressão logística produz modelos bem calibrados?

13

Entendo que uma das razões pelas quais a regressão logística é freqüentemente usada para prever taxas de cliques na Web é que ela produz modelos bem calibrados. Existe uma boa explicação matemática para isso?

lsankar4033
fonte
2
regressão logística feita para prever probabilidades -> que levam a previsões calibradas, se não super ajustadas. enquanto os modelos de aprendizagem mais máquinas não prever probabilites, mas sim um aulas - e há alguma contorção para pseudo-probabilites derivados dessas previsões -> daí, note bem calibrados
charles
2
Eu deveria ter esclarecido a questão, mas minha pergunta era mais sobre o porquê de a LR ser tão útil para prever probabilidades.
precisa saber é o seguinte
Vale a pena notar que você pode simplesmente ajustar uma regressão logística à saída de um classificador mal calibrado para obter um modelo calibrado. Isso é chamado de Escala de Platt en.wikipedia.org/wiki/Platt_scaling
generic_user

Respostas:

14

Sim.

O vetor de probabilidade previsto da regressão logística satisfaz a equação da matrizp

Xt(py)=0

XyX

Especializada na coluna de interceptação (que é uma linha na matriz transposta), a equação linear associada é

i(piyi)=0

portanto, a probabilidade média geral prevista é igual à média da resposta.

xij

ixij(piyi)=ixij=1(piyi)=0

xij=1

Matthew Drury
fonte
1
p1/(1+exp(x))
1
Sim, p é dessa forma. A primeira equação vem do ajuste da derivada da função de perda para zero.
Matthew Drury
1
Isso trata apenas da calibração em tamanho grande, que não é o que queremos: calibração em tamanho pequeno.
Frank Harrell
1
@FrankHarrell Cuidados para elaborar? Eu nunca ouvi esses termos antes.
Matthew Drury
3
Há uma longa história na literatura de previsão de probabilidade datada pelo Serviço Meteorológico dos EUA de 1950 - foi aí que o Brier foi usado pela primeira vez. Calibração no pequeno significa que, se analisados ​​os riscos previstos de 0,01, 0,02, ..., 0,99, cada um deles é preciso, ou seja, para todos os momentos em que o risco previsto foi de 0,4, o resultado ocorreu em cerca de 0,4 A Hora. Eu chamo de "calibração minúscula" o próximo passo: para os homens em que a previsão era de 0,4, o resultado era 0,4 do tempo, depois para as mulheres.
22818 Frank Harrell
2

Acho que posso fornecer uma explicação fácil de entender da seguinte maneira:


J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)


i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

Isso significa que, se o modelo for totalmente treinado, as probabilidades previstas que obtemos para o conjunto de treinamento se espalharão para que, para cada recurso, a soma dos valores ponderados (todos) desse recurso seja igual à soma dos valores desse recurso. das amostras positivas.

αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

Podemos ver obviamente que a regressão logística está bem calibrada.

Referência: Modelos Log-lineares e Campos Aleatórios Condicionais de Charles Elkan

Lerner Zhang
fonte