Previsão do vencedor da partida de futebol com base apenas no resultado de partidas anteriores entre as duas equipes

Sou um grande fã de futebol e também estou interessado em aprendizado de máquina. Como projeto para o meu curso de ML, estou tentando criar um modelo que preveja a chance de ganhar para o time da casa, dados os nomes do time em casa e fora. (Eu consulto meu conjunto de dados e, portanto, crio pontos de dados com base em correspondências anteriores entre essas duas equipes)

Tenho dados para várias temporadas para todas as equipes, mas tenho os seguintes problemas com os quais gostaria de receber alguns conselhos. O EPL (English Premier League) possui 20 times que se enfrentam em casa e fora (380 jogos no total em uma temporada). Assim, a cada temporada, duas equipes jogam entre si apenas duas vezes.

Eu tenho dados dos últimos 10 anos, resultando em 2 * 10 = 20 pontos de dados para as duas equipes. No entanto, não quero passar dos últimos três anos, pois acredito que as equipes mudam consideravelmente ao longo do tempo (ManCity, Liverpool) e isso apenas introduziria mais erros no sistema.

Portanto, isso resulta em cerca de 6 a 8 pontos de dados para cada par de equipe. No entanto, tenho vários recursos (até 20+) para cada ponto de dados, como gols em tempo integral, gols no intervalo, passes, chutes, amarelos, vermelhos etc. para ambas as equipes, para que eu possa incluir recursos como forma recente, recente formulário inicial, formulário ausente recente etc.

No entanto, a idéia de ter apenas 6-8 pontos de dados para treinar parece incorreta para mim. Alguma idéia de como eu poderia combater esse problema? (se isso for um problema em primeiro lugar)

regression machine-learning predictive-models neural-networks keithxm23
fonte

A vantagem em campo parece bastante importante para mim, com base nos estudos que li (sou engenheiro / economista e fã da BVB). Você também pode considerar PKs; eles não alteram os resultados da correspondência de longo prazo em média (leia Soccernomics ), mas podem influenciar fortemente uma correspondência individual.

gregmacfarlane

Se você realmente quiser apenas usar os nomes das equipes, poderá usar o tipo de sistema de classificação usado para xadrez ou outros jogos para dois jogadores, por exemplo [Elo] [1] ou [Trueskill] [2]. Houve também um [concurso Kaggle] [3] sobre isso. Talvez você possa começar com um desses sistemas e aprimorá-lo usando as outras covariáveis. [1]: en.wikipedia.org/wiki/Elo_rating_system [2]: en.wikipedia.org/wiki/TrueSkill [3]: kaggle.com/c/chess

Solha dos

O único pensamento que você saberá antes de uma partida são os resultados anteriores e a classificação. Você não terá informações sobre brotos, cantos, portanto, é necessário criar recursos que sejam plausíveis e dados.

Fierce82

Previsão do vencedor da partida de futebol com base apenas no resultado de partidas anteriores entre as duas equipes

Respostas: