Aqui está uma consulta correlata recente do Google:
http://www.google.com/trends/correlate/search?e=internet+usage&t=weekly#
Como você pode ver na caixa de pesquisa desse link, digitei "uso da Internet" e o Google fez o resto. Ele mostra um valor de 0,9298 como a "correlação" com a consulta "mineração de dados". No entanto, quando leio a página 2 do white paper do Google [PDF] , ele diz:
The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online search tree to produce results similar to the batch-based approach employed by Google Flu Trends but in a fraction of a second. For additional details, please see the Methods section below....
Então, minha pergunta é: o
Google está usando uma correlação normal de Pearson ou Spearman para encontrar essas coisas ou eles estão usando outra coisa? Se sim, você pode explicar a técnica geral?
==================
Além disso, observe no gráfico que a pesquisa por "uso da Internet" (e "mineração de dados") cai durante os meses de verão e realmente mergulha no Natal. Eu acho que as crianças e seus deveres de casa têm algo a ver com isso.
fonte
Respostas:
Como chl aponta, o tutorial do Google Correlate afirma que o Google Correlate usa o coeficiente de correlação produto-momento da Pearson .
Eles não mencionam em qual idioma isso é implementado, embora o Google use R para alguns aplicativos, então eu acho que isso.
fonte