Proporção padrão de cookies por "visitantes"?

31

Conforme observado em uma postagem recente do blog , vemos uma grande discrepância entre os "visitantes" do Google Analytics e os "visitantes" do Quantcast

Além disso, por razões que nunca descobrimos, o Google Analytics apenas obtém números maiores que o Quantcast. No momento, o GA está mostrando mais visitantes (15 milhões) apenas no stackoverflow.com do que o Quantcast vê em toda a rede (14 milhões):

Por quê? Eu não sei. Às vezes, o Google Analytics perde cookies ou o Quantcast falta aos visitantes. Contar é uma ciência inexata.

Achamos que isso ocorre porque o Quantcast usa uma proporção mais conservadora de cookies / visitantes . Enquanto o Google Analytics pode considerar todos os cookies como "visitantes", o Quantcast2001 considera apenas todos os 1,24 cookies como "visitantes". Isso faz sentido para mim, pois as pessoas podem acessar nossos sites a partir de vários computadores, vários navegadores, etc.

Eu tenho duas perguntas estreitamente relacionadas:

  1. Existe uma proporção padrão aceita de cookies para visitantes? Obviamente, essa é uma ciência inexata, mas existe alguma regra de ouro emergente?

  2. Existe alguma maneira mais precisa de contar "visitantes" para um site que não seja confiar nos cookies do navegador? Ou isso sempre será uma estimativa do melhor esforço, não importa como você a avalie?

Jeff Atwood
fonte
Quantcast definitivamente usa cookies, certo? Eles não vão apenas no endereço IP ou algo assim?
usar o seguinte
@disgruntledgoat Acabei de verificar o site: "Quantcast fornece dados de audiência para contagens únicas de cookies e pessoas".
Matthew Brookes
@DisgruntledGoat verifique esta página. Tem cookies de quantserve.com.
Yahel

Respostas:

14

Quantcast me enviou um email:

Você mencionou que havia um delta bastante substancial entre seus números de GA e seus números de CQ. Embora isso não aconteça com frequência, isso acontece e há várias razões para isso. Por exemplo, contabilizamos cookies de terceiros e atualizações automáticas, e o GA não. Também solicitamos que os editores coloquem nossa tag na parte inferior da página para cumprir os padrões MRC e IAB. Se suas outras tags de medida estiverem mais altas na página, elas poderão ser acionadas quando a Quantcast não. (Somos o único serviço de medição de tráfego credenciado pela MRC). Além disso, os números nunca serão exatamente os mesmos devido a considerações de fuso horário - usamos uma função de normalização e os GAs são fixos.

Se você quiser saber mais sobre como determinamos nossos números, consulte: http://www.quantcast.com/how-we-do-it . Também temos documentos técnicos sobre nossos dados de público-alvo corrigidos por cookies e nossa metodologia localizados aqui.

Examinando os white papers, vejo que eles estão, na verdade, fazendo o que Jeff sugere: enganando os números "oficiais" para obter algo que eles acham que está mais próximo do número real de pessoas. Eles têm um White Paper do Público Corrigido por Cookies (link em PDF), o que implica que seu sistema é bastante elaborado, não tão simples quanto apenas dividir por um número mágico:

O programa Quantcast Quantified Publisher captura mais de 75 bilhões de eventos de consumo de mídia todos os meses, gerados por mais de 1,4 bilhão de cookies (dados de junho de 2008). Além disso, muitos de nossos parceiros do Quantified Publisher compartilham conosco identificadores anônimos que são independentes de cookies. Nosso modelo também inclui vários painéis que fornecem pontos de referência e calibração baseados em pessoas, livres de exclusão de cookies. Triangulamos essa massa de dados com diferentes processos de coleta, preconceitos e problemas. Nossos modelos levam em consideração a frequência das visitas, os períodos de tempo, a probabilidade de uso de vários computadores e até o impacto de várias pessoas usando o mesmo computador para fornecer estimativas baseadas em pessoas. Nosso modelo de conversão de cookies exclusivos para pessoas foi validado usando amostras de espera e conjuntos de dados independentes. Além disso, nosso modelo é dinâmico e recalibrado continuamente para refletir a natureza em evolução dos padrões de tráfego da Internet.

Joel Spolsky
fonte
2
Interessante. O último trecho é mais informativo (e persuasivo) que o primeiro. O GA não precisa contabilizar cookies de terceiros, pois usa cookies de terceiros. Sim, as diferenças de fuso horário alterarão números precisos, mas, durante períodos de um mês, é extremamente improvável que ocorram diferenças significativas de medição.
Yahel
27

Há outro fator em jogo com a contagem insuficiente do Quantcast: eles usam cookies de terceiros (cookies fornecidos pelo .quantserve.comdomínio), enquanto o Google Analytics usa cookies de terceiros ( stackexchange.com, etc.)

Isso é bastante crucial, pois alguns navegadores (principalmente o Safari, mas mais recentemente o Firefox e o Chrome) desativam os cookies de terceiros como a configuração padrão, e muitos outros podem escolher individualmente as configurações de privacidade que impedem os cookies de terceiros. Isso significa que existe um subconjunto da população que nunca será rastreado pelos cookies da QuantCast. Inerentemente, isso significa que o Google Analytics sempre retornará uma contagem maior de visitantes.

Eu diria que não há regra de ouro. Como profissional de análise, eu diria que a busca por uma contagem "verdadeira" de visitantes é inútil e, em vez disso, concentre-se nas próprias visitas. Por exemplo, na sua conta do Google Analytics, tenho pelo menos 8 visitantes diferentes, tendo acessado o StackOverflow do Chrome, Safari e Firefox no meu laptop de trabalho, laptop pessoal, telefone e iPad. Todos os serviços de análise contam de maneiras diferentes e, portanto, todos retornam números significativamente diferentes.

Mesmo com uma implementação perfeita, o Google Analytics quase sempre mostra contagens de visitas mais baixas do que um sistema de análise baseado em log do servidor, mas mostra uma contagem mais alta de visitas do que um sistema de cookie de terceiros como o Quantcast. O importante não é observar os totais brutos, mas as tendências que cada método mostra em seus pontos fortes. Portanto, nunca compare números Quantcast com números do Google Analytics; em vez disso, use os números nos contextos em que foram coletados.

Outro problema pode ser que sua implementação do Google Analytics não está correta, pois configurá-la para o seu tipo de configuração de vários domínios e subdomínios pode ser um pesadelo se não for feita de maneira correta e rigorosa, o que pode levar a que um único navegador seja contabilizado como vários visitantes, aumentando sua contagem. Isso nunca é um problema para o Quantcast, pois todos os cookies são definidos no domínio de um terceiro.

Yahel
fonte
O Google Chrome também parece bloquear cookies de terceiros por padrão.
MrWhite
7

A proporção de cookies para visitantes únicos geralmente é entre 1,3 e 1,7 para sites com mais de um milhão de visitas.

Embora o yc01 esteja certo de que o GA usa cookies de terceiros versus cookies de terceiros, no RealSelf.com, usamos dois provedores de análises de terceiros (GA e Comscore Direct) e o GA ainda mostra 30% mais visitantes únicos absolutos do que os visitantes únicos da Comscore.

O Comscore mostra apenas visitantes únicos por país; portanto, para comparar o GA com o Comscore, precisamos calcular o número de visitantes únicos absolutos baseados nos EUA da seguinte forma:

Visitas aos EUA / Visitas globais * Usuários únicos absolutos

(1.150.110 / 1.650.979) * 1.273.059 = 886.842 Usuários únicos baseados nos EUA

Por outro lado, o Comscore reporta 680.900 usuários únicos nos EUA. Então, o GA mostra 30,2% a mais.

A Comscore construiu seus negócios tentando ser precisos, enquanto o GA é principalmente uma maneira gratuita de rastrear e otimizar sites que usam o AdWords e o AdSense. A Comscore possui um painel de pessoas que eles também usam para estimar o tráfego e usam esse painel para determinar um número médio de cookies por pessoa. Com mais pessoas usando dispositivos móveis (nosso uso móvel é de 15%), faz sentido que cookies únicos exagerem o número de pessoas únicas.

Eric K
fonte
"A proporção de cookies para visitantes únicos geralmente é entre 1,3 e 1,7 para sites com mais de um milhão de visitas". Essa é uma figura publicada pelo Comscore?
Ciaran
isso é surpreendentemente preciso para nós; Corri as UserSessionestatísticas da tabela em alguns sites e eles variam de 2.0 (Stack Overflow) a 1.46 (webapps.se) com todo o resto. 1.6 parece um padrão muito sensato para sites centrados em tecnologia.
Jeff Atwood
4

Aqui está um estudo recente (4 de maio de 2011 - ontem, quando escrevo isso) do MediaMind com "Multiplicadores de inflação de cookies" para diferentes mercados:

O fator de inflação calculado está entre 2,2 na Alemanha e 3,0 nos EUA.

Theo
fonte
este é excelente - exatamente o tipo de referência que eu estava procurando
Jeff Atwood
2

Talvez o número de visitantes do seu GA esteja mais inflado do que um site normal devido à natureza mais técnica do seu público-alvo? Por exemplo, programadores, especialmente desenvolvedores da Web, têm mais probabilidade de usar vários navegadores e, assim, aumentar a contagem de cookies.

Para a pergunta 1, acho que, como em muitas métricas, é melhor usar dados de seu próprio site, em vez de procurar padrões globais, pois os agregados podem ser enganosos. Uma maneira de obter um cookie para a contagem real de visitantes pode ser contar quantos cookies você vê de cada usuário registrado e daí derivar o número.

Quanto ao número 2, teoricamente, a melhor maneira de contar visitantes reais seria forçar todos a registrar uma conta. Como isso obviamente não é uma boa ideia, você pode considerar a normalização. Por exemplo, você pode usar os cookies médios para a métrica de usuário registrado sugerida acima e aplicá-la aos números de visitantes que o GA está relatando.

Ewan Heming
fonte
Este é um ótimo ponto. No Stack Overflow, atualmente temos 531.484 sessões, das quais 261.547 apontam para usuários únicos - portanto, basicamente 2 cookies por cada 1 usuário.
Jeff Atwood
-1

Eu acho que o IP é confiável ... quando eu crio um sistema estatístico como o GA com python, eu uso algum método como este

  • envie o cookie ao navegador e pegue todos os dados do agente no banco de dados
  • maneira fácil, se a nova visita tiver um cookie, não é uma nova visita, então eu a salvo como uma nova visita (também atribuímos data e tempo de atraso para encontrar nova visita se o usuário repetir o site da visita após 2 horas)
  • salve o IP do usuário e algum ID para esse usuário, IP e cookie (também é salvo no cookie)
  • novo usuário chega e não possui nenhum cookie ... esse IP é novo? sim? OK, seu novo usuário pega apenas o agente do usuário e o IP / não? Quantas vezes esse usuário vem? mais que limite? não é uma visita realmente nova, nem mais com esse agente de usuário? OK, isso é novo ...: D

esse método tem falha, mas não possui dados ruins e quase válidos ... (também depende do tempo de atraso para encontrar um novo usuário (atraso entre duas visitas) e do tempo de tentativa para os usuários não terem cookie)

Mohammad Efazati
fonte
5
Como isso lidaria, por exemplo, com uma empresa com muitos desenvolvedores diferentes acessando o StackOverflow por trás de um NAT? Todos eles seriam contados como um visitante?
Svish
3
O aspecto IP disso é realmente falho. O endereço IP não é um identificador exclusivo.
Yahel
há tempo tentativa para isso ... vamos verificar agente e outras coisas e podemos adicionar um IP mais de 100 vezes ... seu caminho sugerido para encontrar usuário real atrás de um NAT
Mohammad Efazati