Suponha que você observe "correspondências" entre compradores e vendedores em um mercado. Você também observa as características de compradores e vendedores que gostaria de usar para prever correspondências futuras e fazer recomendações para os dois lados do mercado.
Para simplificar, suponha que haja N compradores e N vendedores e que cada um encontre uma correspondência. Existem N correspondências e (N-1) (N-1) não correspondências. O conjunto de dados de treinamento com tudo incluído possui observações N + (N-1) * (N-1), que podem ser proibitivamente grandes. Parece que a amostragem aleatória das não correspondências (N-1) (N-1) e o treinamento de um algoritmo com dados reduzidos podem ser mais eficientes. Minhas perguntas são:
(1) A amostragem das não correspondências para criar um conjunto de dados de treinamento é uma maneira razoável de lidar com esse problema?
(2) Se (1) for verdadeiro, existe uma maneira rigorosa de decidir qual o tamanho de um pedaço de (N-1) (N-1) a ser incluído?
fonte
Em relação a (1). Você precisa manter observações positivas e negativas se quiser resultados significativos.
(2) Não há método mais sábio de subamostragem do que a distribuição uniforme se você não tiver a priori em seus dados.
fonte