Sou um grande fã de futebol e também estou interessado em aprendizado de máquina. Como projeto para o meu curso de ML, estou tentando criar um modelo que preveja a chance de ganhar para o time da casa, dados os nomes do time em casa e fora. (Eu consulto meu conjunto de dados e, portanto, crio pontos de dados com base em correspondências anteriores entre essas duas equipes)
Tenho dados para várias temporadas para todas as equipes, mas tenho os seguintes problemas com os quais gostaria de receber alguns conselhos. O EPL (English Premier League) possui 20 times que se enfrentam em casa e fora (380 jogos no total em uma temporada). Assim, a cada temporada, duas equipes jogam entre si apenas duas vezes.
Eu tenho dados dos últimos 10 anos, resultando em 2 * 10 = 20 pontos de dados para as duas equipes. No entanto, não quero passar dos últimos três anos, pois acredito que as equipes mudam consideravelmente ao longo do tempo (ManCity, Liverpool) e isso apenas introduziria mais erros no sistema.
Portanto, isso resulta em cerca de 6 a 8 pontos de dados para cada par de equipe. No entanto, tenho vários recursos (até 20+) para cada ponto de dados, como gols em tempo integral, gols no intervalo, passes, chutes, amarelos, vermelhos etc. para ambas as equipes, para que eu possa incluir recursos como forma recente, recente formulário inicial, formulário ausente recente etc.
No entanto, a idéia de ter apenas 6-8 pontos de dados para treinar parece incorreta para mim. Alguma idéia de como eu poderia combater esse problema? (se isso for um problema em primeiro lugar)
Respostas:
Que tal melhorar seu conjunto de dados, levando em consideração também alguns dados sobre as partidas contra o mesmo oponente?
Exemplo:
Além disso, na minha opinião, esse tipo de data é melhor que os dados que você propôs, porque as equipes do ano passado costumam ser equipes muito diferentes.
fonte