Estou usando uma versão padrão da regressão logística para ajustar minhas variáveis de entrada às variáveis de saída binária.
No entanto, no meu problema, as saídas negativas (0s) são muito superiores às saídas positivas (1s). A proporção é 20: 1. Então, quando eu treino um classificador, parece que mesmo os recursos que sugerem fortemente a possibilidade de uma saída positiva ainda têm valores muito baixos (altamente negativos) para os parâmetros correspondentes. Parece-me que isso acontece porque existem muitos exemplos negativos puxando os parâmetros na direção deles.
Então, eu estou querendo saber se posso adicionar pesos (digamos, usando 20 em vez de 1) para os exemplos positivos. É provável que isso se beneficie? E se sim, como devo adicionar os pesos (nas equações abaixo).
A função de custo é semelhante à seguinte:
O gradiente dessa função de custo (wrt ) é:
Aqui = número de casos de teste, = matriz de recursos, = vetor de saída, = função sigmóide, = parâmetros que estamos tentando aprender.x y h θ
Finalmente, corro a descida do gradiente para encontrar o menor possível. A implementação parece funcionar corretamente.
fonte
Respostas:
Isso não seria mais uma probabilidade máxima. Uma distribuição tão extrema de só apresenta problemas se você estiver usando um classificador, ou seja, se estiver computando a proporção classificada corretamente, uma regra de pontuação inadequada. As estimativas de probabilidade da probabilidade máxima padrão são válidas. Se o número total de "positivos" for menor que 15 vezes o número de variáveis candidatas, a estimativa da probabilidade máxima penalizada poderá estar em ordem.Y
fonte
Em casos como esse, geralmente é melhor usar um link flexível, em vez do link logístico, que pode capturar essa assimetria. Por exemplo, um desvio normal, GEV , sinh-arcsinh , e as referências nele. Existem muitos outros, mas não posso postar mais de 2 links.
fonte