Incorporando a Distribuição de Probabilidade de Classe Anterior na Regressão Logística

9

Surpreende-me o fato de não encontrar artigos / palestras sobre como incorporar distribuições de probabilidade de classe anterior em classificadores como Regressão logística ou Floresta aleatória.


Então, minha pergunta é:

Como incorporar a Distribuição de Probabilidade de Classe Anterior em Regressão Logística ou Florestas Aleatórias?

A incorporação de distribuição de probabilidade de classe anterior implica que eu deveria usar máquinas Bayesianas?


Estou enfrentando uma tarefa de classificação em que sei que a classe a é muito mais provável que a classe b.

Uma solução adhoc seria incluir apenas mais amostras da classe a no conjunto de treinamento, mas existem resultados teóricos sobre isso?

Uma coisa que pensei foi mudar o limiar de decisão de 0,5 para um valor que levasse em conta esse desequilíbrio anterior. Mas nem tenho certeza se isso faz sentido teoricamente, porque, no momento em que estou pronto para tomar uma decisão, já observei todos os valores dos recursos, para não me preocupar com a probabilidade anterior, mas com a probabilidade condicional da classe.

user695652
fonte

Respostas:

5

Seja a variável de resposta binária e o vetor de preditores com densidade (que seria contínua, discreta ou uma combinação de ambos). Observe queYXf

P(Y=1X=x)P(Y=0X=x)=P(Y=1)fXY=1(x)P(Y=0)fXY=0(x)

e entao

log(P(Y=1X=x)P(Y=0X=x))=log(P(Y=1)P(Y=0))+log(fXY=1(x)fXY=0(x)).

Isso significa que, sob um modelo de regressão logística, o logaritmo das probabilidades anteriores do evento aparece como uma constante aditiva nas probabilidades condicionais de log. O que você pode considerar é um ajuste de interceptação, no qual subtrai o logit das probabilidades empíricas e adiciona o logit das probabilidades anteriores. Mas, supondo que a probabilidade anterior seja precisa, isso não espera ter muito efeito sobre o modelo. Esse tipo de ajuste é feito principalmente após algum procedimento de amostragem que altera artificialmente a proporção de eventos nos dados.{Y=1}

dsaxton
fonte
3

Para floresta aleatória, o padrão anterior é a distribuição empírica da classe do conjunto de treinamento. Você gostaria de ajustar isso antes, quando espera que a distribuição da classe do conjunto de treinamento esteja longe de corresponder às novas observações de teste. O anterior pode ser ajustado por estratificação / downsampling ou class_weights.

Estratificação / downsampling não significa que algumas observações estão sendo descartadas, elas serão apenas inicializadas em menos nós raiz.

Além de ajustar o anterior, também é possível obter previsões probabilísticas do modelo de floresta aleatória e escolher um limiar de certeza.

Na prática, encontro uma mistura de ajustes anteriores por estratificação e escolha do melhor limiar como a solução com melhor desempenho. Use plotagens ROC para decidir os limites. O ajuste dos pesos da classe provavelmente fornecerá um desempenho semelhante, mas é menos transparente, o que o anterior efetivo se torna. Para estratificação, a proporção de estratificação é simplesmente o novo prior.

Veja também esta resposta para mais detalhes

Soren Havelund Welling
fonte