Frequentemente ouço a amostragem de dados para cima ou para baixo discutida como uma maneira de lidar com a classificação de dados desequilibrados.
Entendo que isso pode ser útil se você estiver trabalhando com um classificador binário (em oposição a probabilístico ou baseado em pontuação) e tratando-o como uma caixa preta, portanto, os esquemas de amostragem são sua única maneira de alterar sua posição na "curva ROC "(entre aspas porque se o seu classificador é inerentemente binário, acho que ele não tem uma curva ROC real, mas o mesmo conceito de negociação de falsos positivos e falsos negativos ainda se aplica).
Mas parece que a mesma justificativa não se aplica se você realmente tiver acesso a algum tipo de pontuação que você limiará mais tarde para tomar uma decisão. Nesse caso, a amostragem não é apenas uma maneira ad-hoc de expressar uma visão sobre a troca desejada entre falsos positivos e falsos negativos quando você tem ferramentas muito melhores disponíveis, como a análise ROC real? Parece que, neste caso, seria estranho esperar que a amostragem para cima ou para baixo faça qualquer coisa, exceto alterar o "anterior" do seu classificador em cada classe (ou seja, probabilidade incondicional de ser essa classe, a previsão da linha de base) - eu não faria ' espera que ele altere a "razão de chances" do classificador (quanto o classificador ajusta sua previsão de linha de base com base nas covariáveis).
Portanto, minha pergunta é: se você tem um classificador que não é uma caixa preta binária, existem razões para esperar que a amostragem para cima ou para baixo tenha um efeito muito melhor do que ajustar o limiar ao seu gosto? Na falta disso, existem estudos empíricos mostrando efeitos razoavelmente grandes para amostragem para cima ou para baixo em métricas de desempenho razoáveis (por exemplo, não precisão)?
fonte