Surpreende-me o fato de não encontrar artigos / palestras sobre como incorporar distribuições de probabilidade de classe anterior em classificadores como Regressão logística ou Floresta aleatória.
Então, minha pergunta é:
Como incorporar a Distribuição de Probabilidade de Classe Anterior em Regressão Logística ou Florestas Aleatórias?
A incorporação de distribuição de probabilidade de classe anterior implica que eu deveria usar máquinas Bayesianas?
Estou enfrentando uma tarefa de classificação em que sei que a classe a é muito mais provável que a classe b.
Uma solução adhoc seria incluir apenas mais amostras da classe a no conjunto de treinamento, mas existem resultados teóricos sobre isso?
Uma coisa que pensei foi mudar o limiar de decisão de 0,5 para um valor que levasse em conta esse desequilíbrio anterior. Mas nem tenho certeza se isso faz sentido teoricamente, porque, no momento em que estou pronto para tomar uma decisão, já observei todos os valores dos recursos, para não me preocupar com a probabilidade anterior, mas com a probabilidade condicional da classe.
fonte