As competições do Kaggle são vencidas por acaso?

12

As competições da Kaggle determinam a classificação final com base em um conjunto de testes realizado.

Um conjunto de teste retido é uma amostra; pode não ser representativo da população que está sendo modelada. Como cada envio é como uma hipótese, o algoritmo que venceu a competição pode, por acaso, ter acabado igualando o conjunto de testes melhor que os outros. Em outras palavras, se um conjunto de testes diferente fosse selecionado e a competição repetida, os rankings permaneceriam os mesmos?

Para a empresa patrocinadora, isso realmente não importa (provavelmente os 20 principais envios melhorariam sua linha de base). Embora, ironicamente, eles possam acabar usando um modelo de primeira classificação pior do que os outros cinco primeiros. Mas, para os participantes da competição, parece que o Kaggle é, em última análise, um jogo de azar - não é necessário ter sorte para encontrar a solução certa, é preciso encontrar aquele que corresponde ao teste!

É possível mudar a competição para que todos os melhores times que não podem ser distinguidos estatisticamente ganhem? Ou, nesse grupo, o modelo mais parcimonioso ou computacionalmente barato poderia ganhar?

user0
fonte
1
Algumas pessoas usam o teste no conjunto oculto para recuperar os valores reais do teste. Isso permite que eles se encaixem quase perfeitamente nos resultados. O holdout evita isso. Minha opinião pessoal é que a diferença entre o holdout e o non-holdout é sobre se livrar de trapaceiros.
EngrStudent - Reinstate Monica
1
É claro que os dados dos testes devem ser divulgados pelos participantes, mas eu estou imaginando se ter um único conjunto de testes de espera faz com que os resultados da competição (para as principais equipes ) dependam essencialmente principalmente do acaso. X
User0
As pontuações são ponderadas. Um ótimo sistema supera o de um lixo eletrônico quase todas as vezes. É preciso muito trabalho para falhar tanto que o último se torna o primeiro. A ordem local, talvez 10 etapas na classificação ou menos, quando existem milhares de participantes, mudaria se a reserva fosse reamostrada. Você pode fazer um experimento numérico para mostrar isso.
EngrStudent - Reintegrar Monica
2
Do ponto de vista da empresa patrocinadora, eles não são forçados a realmente implementar o modelo vencedor. Se bem me lembro, o modelo que venceu o desafio netflix nunca foi implementado. Eles podem levar alguns candidatos credíveis entre os melhores modelos e testá-los ainda mais.
David Ernst

Respostas:

12

Sim, seu raciocínio está correto. Se um conjunto de testes diferente fosse selecionado e a competição repetida, o ranking realmente mudaria. Considere o seguinte exemplo. Todas as inscrições para uma competição do Kaggle com rótulos binários apenas sugerem aleatoriamente (e, digamos, independentemente) para prever sua saída. Por acaso, um deles concorda mais com o holdout do que outros, mesmo que nenhuma previsão esteja acontecendo.

Embora isso seja um pouco artificial, podemos ver que a variação em cada um dos modelos de envio significaria que a aplicação de muitas dessas entradas seria realmente adequada ao ruído do conjunto de validação. Isso nos diz que (dependendo das variações individuais do modelo), os modelos top-N provavelmente generalizam o mesmo. Este é o jardim dos caminhos de bifurcação , exceto que os "pesquisadores" não são os mesmos (mas isso não importa).

É possível mudar a competição para que todas as equipes que não podem ser distinguidas estatisticamente do melhor desempenho no set de teste ganhem?

De fato.

  • Uma abordagem (por mais impraticável que seja) seria calcular explicitamente a variação de um determinado modelo em cada entrada, o que nos daria um IC sobre o desempenho de sua validação.
  • Outra abordagem, que pode exigir muita computação, é inicializar um IC no desempenho do holdout, expondo uma API de treinamento e teste a todos os modelos.
VF1
fonte
Ótima resposta. Você pode elaborar como os dois métodos podem ser implementados?
User0
1
É interessante: o melhor modelo pode não ser o time vencedor.
User0
1
O cálculo explícito da variação não pode ser feito sem a distribuição dos dados (eu apenas a menciono, pois explica a teoria). Este documento descreve vários métodos (e onde eles falham) para estimativa de precisão, incluindo inicialização e validação cruzada. Ao contrário do artigo, no entanto, neste contexto, não estamos fazendo CV para seleção de modelo em um conjunto de treinamento, mas sim para uma "pontuação" robusta no conjunto combinado de dados de treinamento e teste.
VF1
Talvez duas rodadas sejam melhores para uma estimativa robusta do vencedor. O primeiro remove os 99% piores, e o segundo turno re-estima as classificações para "polir" a ordem.
EngrStudent - Restabelece Monica
1
Para adicionar idéias aqui, confira este artigo pelo vencedor do concurso NCAA March Madness Kaggle em 2014. Role para a seção 4, "Estudo de simulação". De acordo com o sim, se as probabilidades previstas do modelo para cada confronto fossem de fato o verdadeiro estado da natureza, sua colocação mediana seria o 11º lugar.
22417 klumbard
3

Existem outros tipos de competições no Kaggle sem elementos de chance. Por exemplo, este Trenó Roubado de Stanta .

É um problema discreto de otimização e ainda não possui quadro de líderes privado. O que você vê no quadro de líderes público são os resultados finais.

Comparando com o aprendizado supervisionado, que tem um começo fácil para muitas pessoas, esse tipo de competição é mais "difícil" por natureza.

Haitao Du
fonte