No contexto do aprendizado de máquina, digamos que você tenha um problema no qual as classes da população real não são equilibradas - por exemplo, a Classe A ocorre 80% das vezes e a Classe B ocorre 20% das vezes.
Nesse caso, é geralmente melhor ter um determinado algoritmo ML baseado em dados com a mesma proporção de classe 80/20 ou em dados com uma proporção equilibrada (50/50)? a) em relação aos dados de treinamento b) em relação aos dados de teste
Uma pergunta de acompanhamento: caso a resposta para (a) ou (b) aconteça com a proporção balanceada de 50/50, essa preferência geralmente ainda persiste mesmo no contexto prático em que os dados aos quais tem acesso acontecem? da proporção 80/20? Em outras palavras, o benefício de usar uma proporção equilibrada para treinar e / ou testar superaria o custo de impor essa proporção (por exemplo, descartando instâncias da classe majoritária ou gerando novas amostras sintéticas da classe minoritária)?