As competições da Kaggle determinam a classificação final com base em um conjunto de testes realizado.
Um conjunto de teste retido é uma amostra; pode não ser representativo da população que está sendo modelada. Como cada envio é como uma hipótese, o algoritmo que venceu a competição pode, por acaso, ter acabado igualando o conjunto de testes melhor que os outros. Em outras palavras, se um conjunto de testes diferente fosse selecionado e a competição repetida, os rankings permaneceriam os mesmos?
Para a empresa patrocinadora, isso realmente não importa (provavelmente os 20 principais envios melhorariam sua linha de base). Embora, ironicamente, eles possam acabar usando um modelo de primeira classificação pior do que os outros cinco primeiros. Mas, para os participantes da competição, parece que o Kaggle é, em última análise, um jogo de azar - não é necessário ter sorte para encontrar a solução certa, é preciso encontrar aquele que corresponde ao teste!
É possível mudar a competição para que todos os melhores times que não podem ser distinguidos estatisticamente ganhem? Ou, nesse grupo, o modelo mais parcimonioso ou computacionalmente barato poderia ganhar?
Respostas:
Sim, seu raciocínio está correto. Se um conjunto de testes diferente fosse selecionado e a competição repetida, o ranking realmente mudaria. Considere o seguinte exemplo. Todas as inscrições para uma competição do Kaggle com rótulos binários apenas sugerem aleatoriamente (e, digamos, independentemente) para prever sua saída. Por acaso, um deles concorda mais com o holdout do que outros, mesmo que nenhuma previsão esteja acontecendo.
Embora isso seja um pouco artificial, podemos ver que a variação em cada um dos modelos de envio significaria que a aplicação de muitas dessas entradas seria realmente adequada ao ruído do conjunto de validação. Isso nos diz que (dependendo das variações individuais do modelo), os modelos top-N provavelmente generalizam o mesmo. Este é o jardim dos caminhos de bifurcação , exceto que os "pesquisadores" não são os mesmos (mas isso não importa).
De fato.
fonte
Existem outros tipos de competições no Kaggle sem elementos de chance. Por exemplo, este Trenó Roubado de Stanta .
É um problema discreto de otimização e ainda não possui quadro de líderes privado. O que você vê no quadro de líderes público são os resultados finais.
Comparando com o aprendizado supervisionado, que tem um começo fácil para muitas pessoas, esse tipo de competição é mais "difícil" por natureza.
fonte