O videoclipe do PSY "Gangnam style" é popular, depois de pouco mais de 2 meses, tem cerca de 540 milhões de espectadores. Aprendi isso com meus filhos pré-adolescentes no jantar da semana passada e logo a discussão foi na direção de se era possível fazer algum tipo de previsão de quantos espectadores haverá em 10 a 12 dias e quando (/ se) a música passará 800 milhões de espectadores ou 1 bilhão de espectadores.
Aqui está a imagem do número de espectadores desde que foi publicada:
Aqui está a imagem do número de espectadores dos videoclipes No1 "Justin Biever-Baby" e No2 "Eminem - Ame o jeito que você mente", vídeos de música que existem há muito mais tempo
Minha primeira tentativa de argumentar sobre o modelo foi que deveria ser uma curva S, mas isso não parece se encaixar nas músicas No1 e No2 e também não se encaixa no fato de que não há limite para quantas visualizações o vídeo da música pode ter, apenas um crescimento mais lento.
Então, minha pergunta é: que tipo de modelo devo usar para prever o número de espectadores do videoclipe?
Respostas:
Aha, excelente pergunta !!
Eu também teria proposto ingenuamente uma curva logisítica em forma de S, mas isso é obviamente um ajuste inadequado. Até onde eu sei, o aumento constante é uma aproximação, porque o YouTube conta as visualizações únicas (uma por endereço IP), portanto, não pode haver mais visualizações do que computadores.
Poderíamos usar um modelo epidemiológico em que as pessoas têm suscetibilidade diferente. Para simplificar, poderíamos dividi-lo no grupo de alto risco (digamos as crianças) e no grupo de baixo risco (digamos os adultos). Vamos chamar a proporção de crianças "infectadas" e y ( t ) a proporção de adultos "infectados" no momento t . Vou chamar X o número (desconhecido) de indivíduos no grupo de alto risco e Y o número (também desconhecido) de indivíduos no grupo de baixo risco.x ( t ) y( T ) t X Y
˙ y (t)=r2(x(t)+y(t))(Y-y(t)),
onde . Não sei como resolver esse sistema (talvez o @EpiGrad o faria), mas, olhando seus gráficos, poderíamos fazer algumas suposições simplificadoras. Como o crescimento não satura, podemos assumir que Y é muito grande e y é pequeno, our1 1> r2 Y y
˙ y (t)=r2x(t),
que prevê crescimento linear quando o grupo de alto risco estiver completamente infectado. Observe que, com este modelo, não há razão para assumir , muito pelo contrário, porque o grande termo Y - y ( t ) agora está subsumido em r 2 .r1 1> r2 Y- y( T ) r2
Este sistema resolve para
y(t)=R2∫x(t)dt+C2=R2
e resolve
Atualização: A partir dos comentários, concluí que o YouTube conta visualizações (de maneira secreta) e não IPs únicos, o que faz uma grande diferença. De volta à prancheta.
Para simplificar, vamos supor que os espectadores estejam "infectados" pelo vídeo. Eles voltam para assisti-lo regularmente, até limpar a infecção. Um dos modelos mais simples é o SIR (Susceptible-Infected-Resistant), que é o seguinte:
Nesse modelo, a contagem de visualizações começa a aumentar abruptamente algum tempo após o início da infecção, o que não é o caso dos dados originais, talvez porque os vídeos também se espalhem de maneira não viral (ou meme). Não sou especialista em estimar os parâmetros do modelo SIR. Apenas brincando com valores diferentes, eis o que eu criei (em R).
Obviamente, o modelo não é perfeito e pode ser complementado de várias maneiras. Este esboço aproximado prevê um bilhão de visualizações em março de 2013, vejamos ...
fonte
Provavelmente, o modelo mais comum para prever a adoção de novos produtos é o modelo de difusão de graves , que - semelhante à resposta de @ gui11aume - modela as interações entre usuários atuais e potenciais. A adoção de novos produtos é um tópico bastante importante na previsão. A busca por esse termo deve gerar toneladas de informações (que infelizmente não tenho tempo para expandir aqui ...).
fonte
Eu examinaria a curva de crescimento de Gompertz .
A curva de Gompertz é uma fórmula de dupla exponencial de 3 parâmetros (a, b, c) com o tempo, T, como uma variável independente.
Código R:
Sabe-se que a fórmula de crescimento de Gompertz é boa para descrever muitos fenômenos do ciclo de vida em que o crescimento inicial está acelerando e diminui, resultando em uma curva sigmóide assimétrica cuja derivada é mais íngreme à esquerda do que à direita do pico. Por exemplo, o número total de artigos na Wikipedia, que também é de natureza viral, segue uma curva de crescimento de Gompertz (com determinados parâmetros a, b, c) há muitos anos com grande precisão.
Edit: Se a curva de Gompertz não for suficiente para se aproximar da forma que você está procurando, adicione parâmetros
d
& θ conforme descrito em A distribuição generalizada exponentada de Gompertz de Weibull . Observe que este documento usa emx
vez det
para o parâmetro de tempo independente. Curiosamente, a Wikipedia também modificou sua melhor aproximação adicionando um único quarto parâmetrod
, para explicar uma divergência de previsão em relação ao valor real após 2012 . A fórmula da curva Gompertz de 4 parâmetros modificada é:A função Gompertz recebeu o nome de Benjamin Gompertz (1779-1865) , contemporâneo de Gauss (apenas dois anos mais novo que Gauss), o primeiro matemático a descrevê-la.
fonte
Eu acho que você precisa separar fenômenos como Gangnam Style, que deve muito de seus pontos de vista a ser uma coisa de memes / viral, de Justin Bieber e Eminem, que são grandes artistas por direito próprio e que também se espalhariam amplamente em um ambiente tradicional - JB ou Eminem venderiam muitos singles também, não tenho certeza se o PSY venderia.
fonte
OK pessoal, precisamos de alguns fatos estilizados sobre a difusão de vídeos do youtube, que sugerem padrões bastante diferentes da literatura usual sobre difusão de produtos. Um bom ponto de partida é Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn e Sue Moon, 2007, I Tube, You Tube, Everybody Tubes: analisando o maior sistema de vídeo de conteúdo gerado pelo usuário do mundo, continuações do 7º ACM SIGCOMM conferência sobre medição da Internet, ISBN: 978-1-59593-908-1.
e
X Cheng, C Dale, J Liu, 2008, Estatísticas e rede social de vídeos do youtube, em anais do Workshop Internacional sobre Qualidade de Serviço (IWQoS), Enschede, Holanda, junho.
fonte
Observando a desaceleração das visualizações na semana passada, a data de 13 de março parece uma aposta decente. A maioria das novas visualizações parece já ser usuários infectados que retornam várias vezes por dia.
Com relação à complementação do seu modelo, um método usado pelos pesquisadores para rastrear a propagação de um vírus é monitorar suas mutações no genoma - quando e onde ele foi mutado pode mostrar aos pesquisadores a velocidade com que um vírus é transmitido e espalhado (consulte o rastreamento do vírus do Nilo Ocidental nos EUA) .
Em um sentido prático, vídeos como Gangnam Style e Party Rock Anthem (do grupo LMFAO) são mais propensos a `` se transformar '' em paródias, flash mobs, danças de casamento, remixes e outras respostas em vídeo do que as músicas de Justin Bieber's Baby ou Eminem.
Os pesquisadores poderiam analisar o número de respostas em vídeo (e paródias em particular) como um proxy para mutações. Medir a frequência e a popularidade dessas mutações no início da vida do vídeo pode ser útil para modelar suas visualizações no YouTube.
fonte