Modelo para prever o número de visualizações no YouTube do Gangnam Style

73

O videoclipe do PSY "Gangnam style" é popular, depois de pouco mais de 2 meses, tem cerca de 540 milhões de espectadores. Aprendi isso com meus filhos pré-adolescentes no jantar da semana passada e logo a discussão foi na direção de se era possível fazer algum tipo de previsão de quantos espectadores haverá em 10 a 12 dias e quando (/ se) a música passará 800 milhões de espectadores ou 1 bilhão de espectadores.

Aqui está a imagem do número de espectadores desde que foi publicada: PSY OGS

Aqui está a imagem do número de espectadores dos videoclipes No1 "Justin Biever-Baby" e No2 "Eminem - Ame o jeito que você mente", vídeos de música que existem há muito mais tempo Justin Eminem

Minha primeira tentativa de argumentar sobre o modelo foi que deveria ser uma curva S, mas isso não parece se encaixar nas músicas No1 e No2 e também não se encaixa no fato de que não há limite para quantas visualizações o vídeo da música pode ter, apenas um crescimento mais lento.

Então, minha pergunta é: que tipo de modelo devo usar para prever o número de espectadores do videoclipe?

FredrikD
fonte
21
+1 por gerenciar a conversa da mesa de jantar de Gangnam para as estatísticas. Nós precisamos de pessoas como você!
S. Kolassa - Restabelece Monica
4
O que posso acrescentar à discussão que espero que seja útil para guiar os alunos ou outras pessoas que estão escrevendo equações para tentar modelar isso é que, no exemplo de KONY, o agrupamento geográfico foi um aspecto significativo da disseminação viral. O fato de PSY ser um fenômeno coreano e depois asiático primeiro, é uma parte importante da história. Não sei exatamente como isso seria modelado, mas pode ser uma pista.
Os dados sobre visualizações, comentários, curtidas e não curtidas do vídeo em novembro de 2012 podem ser encontrados em docs.google.com/spreadsheet/…
FredrikD

Respostas:

38

Aha, excelente pergunta !!

Eu também teria proposto ingenuamente uma curva logisítica em forma de S, mas isso é obviamente um ajuste inadequado. Até onde eu sei, o aumento constante é uma aproximação, porque o YouTube conta as visualizações únicas (uma por endereço IP), portanto, não pode haver mais visualizações do que computadores.

Poderíamos usar um modelo epidemiológico em que as pessoas têm suscetibilidade diferente. Para simplificar, poderíamos dividi-lo no grupo de alto risco (digamos as crianças) e no grupo de baixo risco (digamos os adultos). Vamos chamar a proporção de crianças "infectadas" e y ( t ) a proporção de adultos "infectados" no momento t . Vou chamar X o número (desconhecido) de indivíduos no grupo de alto risco e Y o número (também desconhecido) de indivíduos no grupo de baixo risco.x(t)y(t)tXY

˙ y (t)=r2(x(t)+y(t))(Y-y(t)),

x˙(t)=r1 1(x(t)+y(t))(X-x(t))
y˙(t)=r2(x(t)+y(t))(Y-y(t)),

onde . Não sei como resolver esse sistema (talvez o @EpiGrad o faria), mas, olhando seus gráficos, poderíamos fazer algumas suposições simplificadoras. Como o crescimento não satura, podemos assumir que Y é muito grande e y é pequeno, our1 1>r2Yy

˙ y (t)=r2x(t),

x˙(t)=r1 1x(t)(X-x(t))
y˙(t)=r2x(t),

que prevê crescimento linear quando o grupo de alto risco estiver completamente infectado. Observe que, com este modelo, não há razão para assumir , muito pelo contrário, porque o grande termo Y - y ( t ) agora está subsumido em r 2 .r1 1>r2Y-y(t)r2

Este sistema resolve para

y(t)=R2x(t)dt+C2=R2

x(t)=XC1 1eXr1 1t1 1+C1 1eXr1 1t
y(t)=r2x(t)dt+C2=r2r1 1registro(1 1+C1 1eXr1 1t)+C2,

C1 1C2x(t)+y(t)

0 0600,000,000x(t)y(t)

x˙(t)=r1 1x(t)(X-x(t))
y˙(t)=r2,

e resolve

x(t)=XC1 1eXr1 1t1 1+C1 1eXr1 1t
y(t)=r2t+C2.

x(0 0)=1 1t=0 0C1 1=1 1X-1 11 1XXC2=y(0 0)C2=0 0Xr1 1r2

X=600,000,000r1 1=3,66710-10r2=1 1,000,000

modelo de crescimento do estilo Gangnam

Atualização: A partir dos comentários, concluí que o YouTube conta visualizações (de maneira secreta) e não IPs únicos, o que faz uma grande diferença. De volta à prancheta.

Para simplificar, vamos supor que os espectadores estejam "infectados" pelo vídeo. Eles voltam para assisti-lo regularmente, até limpar a infecção. Um dos modelos mais simples é o SIR (Susceptible-Infected-Resistant), que é o seguinte:

S˙(t)=-αS(t)Eu(t)
Eu˙(t)=αS(t)Eu(t)-βEu(t)
R˙(t)=βEu(t)

αβx(t)x˙(t)=kEu(t)k

Nesse modelo, a contagem de visualizações começa a aumentar abruptamente algum tempo após o início da infecção, o que não é o caso dos dados originais, talvez porque os vídeos também se espalhem de maneira não viral (ou meme). Não sou especialista em estimar os parâmetros do modelo SIR. Apenas brincando com valores diferentes, eis o que eu criei (em R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Extrapolação das vistas do vídeo do Youtube no estilo Gangnam

Obviamente, o modelo não é perfeito e pode ser complementado de várias maneiras. Este esboço aproximado prevê um bilhão de visualizações em março de 2013, vejamos ...

gui11aume
fonte
5
(+1) Como primeira abordagem. Observe que a política do YouTube para contar visualizações não é bem compreendida, pois eles não tornaram seu algoritmo público. Eles dizem apenas: "Uma visualização é contada sempre que alguém assiste a um vídeo no YouTube. Não somos mais específicos do que isso para evitar tentativas de aumentar artificialmente a contagem de visualizações" (ver) .
3
@FredrikD thanks. Você ainda pode remover o 'accept' em março de 2013, se eu entendi errado: D
gui11aume
2
SIR parâmetro modelo de estimativa, consulte rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD
11
Parece que vou perder essa! Eles podem bater a milhões mesmo antes de 2013 ...
gui11aume
2
engadget.com/2012/12/21/gangnam-style-one-billion-views Portanto, o mundo não acabou, mas 1 bilhão de visualizações foi atingido hoje.
precisa
5

Provavelmente, o modelo mais comum para prever a adoção de novos produtos é o modelo de difusão de graves , que - semelhante à resposta de @ gui11aume - modela as interações entre usuários atuais e potenciais. A adoção de novos produtos é um tópico bastante importante na previsão. A busca por esse termo deve gerar toneladas de informações (que infelizmente não tenho tempo para expandir aqui ...).

S. Kolassa - Restabelecer Monica
fonte
Sim, esse também é um modelo candidato. No entanto, parece que assume que você só pode ser usuário uma vez. Aqui, você assiste o vídeo várias vezes se estiver "infectado".
FredrikD
11
@FredrikD: ponto tomado. (Embora eu pessoalmente não tenha conseguido me contentar com um único "uso" desse "produto" ...). Deveria haver generalizações de Bass para lidar com isso. (Plugue sem vergonha :) O Simpósio Internacional de Previsão do próximo ano será em Seul, portanto, qualquer pessoa deve considerar apresentar seu modelo de previsão Gangnam favorito lá! ;-)
S. Kolassa - Restabelece Monica
4

Eu examinaria a curva de crescimento de Gompertz .

A curva de Gompertz é uma fórmula de dupla exponencial de 3 parâmetros (a, b, c) com o tempo, T, como uma variável independente.

Código R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Sabe-se que a fórmula de crescimento de Gompertz é boa para descrever muitos fenômenos do ciclo de vida em que o crescimento inicial está acelerando e diminui, resultando em uma curva sigmóide assimétrica cuja derivada é mais íngreme à esquerda do que à direita do pico. Por exemplo, o número total de artigos na Wikipedia, que também é de natureza viral, segue uma curva de crescimento de Gompertz (com determinados parâmetros a, b, c) há muitos anos com grande precisão.

Gráfico das curvas de Gompertz: tamanho total e sua derivada da taxa de crescimento

Edit: Se a curva de Gompertz não for suficiente para se aproximar da forma que você está procurando, adicione parâmetros d& θ conforme descrito em A distribuição generalizada exponentada de Gompertz de Weibull . Observe que este documento usa em xvez de tpara o parâmetro de tempo independente. Curiosamente, a Wikipedia também modificou sua melhor aproximação adicionando um único quarto parâmetro d, para explicar uma divergência de previsão em relação ao valor real após 2012 . A fórmula da curva Gompertz de 4 parâmetros modificada é:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

A função Gompertz recebeu o nome de Benjamin Gompertz (1779-1865) , contemporâneo de Gauss (apenas dois anos mais novo que Gauss), o primeiro matemático a descrevê-la.

arielf
fonte
Bom ponto! No entanto, o que desafia o modelo é que ele não parece ser um limite (consulte os No1 e No2). Ou seja, o fator a no modelo também está aumentando com o tempo.
precisa saber é o seguinte
Eu desafiaria o "Não parece haver um limite". O estilo Gangnam pode atingir 1B? 10B? 100B? Visualizações? eventualmente, a taxa de crescimento chega a quase zero e os platôs da curva. É difícil ver quando você está na fase de alto crescimento, como estamos agora com Gangnam, mas espere alguns anos e você ganhará o Gompertz :) O truque é, obviamente, descobrir o que é certo (a, b, c) parâmetros para este caso específico.
Arielf #
2
Aqui está uma referência para estimar os parâmetros do modelo Gompertz, consulte weibull.com/RelGrowthWeb/…
FredrikD
3

Eu acho que você precisa separar fenômenos como Gangnam Style, que deve muito de seus pontos de vista a ser uma coisa de memes / viral, de Justin Bieber e Eminem, que são grandes artistas por direito próprio e que também se espalhariam amplamente em um ambiente tradicional - JB ou Eminem venderiam muitos singles também, não tenho certeza se o PSY venderia.

abaumann
fonte
bom ponto. Depois de ler e ouvir as entrevistas do PSY e da equipe por trás do "OGS" (Oppa Gangnam Style), fica claro que eles estão cientes de qual botão pressionar para criar uma coisa viral. Através de algumas análises de imagem da imagem acima, parece que o número de visualizações é linear até cerca de 90 dias após o lançamento; o PSY aparece no GP da Coréia e o número de visualizações por unidade de tempo aumenta.
FredrikD
- e como essas duas classes diferem dos "clássicos" - músicas presumivelmente conhecidas quando foram carregadas pela primeira vez no YouTube (penso David Bowie)?
abaumann
2

OK pessoal, precisamos de alguns fatos estilizados sobre a difusão de vídeos do youtube, que sugerem padrões bastante diferentes da literatura usual sobre difusão de produtos. Um bom ponto de partida é Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn e Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: analisando o maior sistema de vídeo de conteúdo gerado pelo usuário do mundo, continuações do 7º ACM SIGCOMM conferência sobre medição da Internet, ISBN: 978-1-59593-908-1.

e

X Cheng, C Dale, J Liu, 2008, Estatísticas e rede social de vídeos do youtube, em anais do Workshop Internacional sobre Qualidade de Serviço (IWQoS), Enschede, Holanda, junho.

ProfRoy47
fonte
5
Bem-vindo ao site, @ ProfRoy47. Você se importaria de elaborar um pouco sobre este post? Ainda não está claro que essa seja uma resposta à pergunta do OP / que ela se mantém por si mesma. OTOH, não seria um comentário, e acho que tem uma contribuição útil para esse tópico. Nosso FAQ tem alguma discussão sobre como fornecer respostas no CV, o que pode ser útil para você.
gung - Restabelece Monica
1

Obviamente, o modelo não é perfeito e pode ser complementado de várias maneiras. Este esboço aproximado prevê um bilhão de visualizações em março de 2013, vejamos ...

Observando a desaceleração das visualizações na semana passada, a data de 13 de março parece uma aposta decente. A maioria das novas visualizações parece já ser usuários infectados que retornam várias vezes por dia.

Com relação à complementação do seu modelo, um método usado pelos pesquisadores para rastrear a propagação de um vírus é monitorar suas mutações no genoma - quando e onde ele foi mutado pode mostrar aos pesquisadores a velocidade com que um vírus é transmitido e espalhado (consulte o rastreamento do vírus do Nilo Ocidental nos EUA) .

Em um sentido prático, vídeos como Gangnam Style e Party Rock Anthem (do grupo LMFAO) são mais propensos a `` se transformar '' em paródias, flash mobs, danças de casamento, remixes e outras respostas em vídeo do que as músicas de Justin Bieber's Baby ou Eminem.

Os pesquisadores poderiam analisar o número de respostas em vídeo (e paródias em particular) como um proxy para mutações. Medir a frequência e a popularidade dessas mutações no início da vida do vídeo pode ser útil para modelar suas visualizações no YouTube.

lucasng
fonte
Bem-vindo ao site, @lucasng. O CV destina-se a respostas sérias e factuais a perguntas substantivas (você pode ler nossas perguntas frequentes ), e acho que o OP pediu isso com isso em mente. Sua resposta está na fronteira aqui; Eu acho que deve ficar com base em suas idéias sobre mutações etc., mas observe que as opiniões sobre os méritos dos vídeos não são realmente relevantes.
gung - Restabelece Monica
Eu acho que a ideia é boa. @gung É verdade que não é uma resposta para o OP, mas a segunda resposta também não é.
gui11aume
@gung: (Uma pesquisa no Google sugere que) lucasng não estava declarando uma opinião na parte que você editou, mas citando o nome do grupo que toca a música!
cardeal
11
@ cardinal, obrigado pelo aviso. Lucasng, desculpe pela confusão; Eu coloquei o nome do grupo de volta.
gung - Restabelece Monica