Contexto
Uma pergunta popular neste site é " O que são pecados estatísticos comuns? ". Um dos pecados mencionado está assumindo que "correlação implica causalidade ..." ligação
Então, nos comentários com 5 votos positivos, sugere-se que: "O Google ganha US $ 65 bilhões por ano sem se importar com a diferença".
Correndo o risco de analisar demais uma piada leve, pensei que esse poderia ser um ponto de discussão útil para aprofundar a distinção entre correlação e causação e a relevância prática da distinção; e talvez pudesse destacar algo sobre a relação entre aprendizado de máquina e a distinção entre correlação e causalidade.
Suponho que o comentário esteja abordando tecnologias subjacentes à geração de resultados de mecanismos de pesquisa e tecnologias relacionadas a exibição de publicidade.
Questão
- Até que ponto a distinção entre correlação e causação é relevante para a geração de renda do Google, talvez se concentrando principalmente na geração de renda por meio de tecnologias relacionadas à exibição de publicidade e resultados de pesquisa de qualidade?
fonte
Respostas:
A resposta simples é que o Google (ou qualquer pessoa) deve se preocupar com a distinção na medida em que pretendem intervir . O conhecimento causal fala sobre os efeitos de intervenções (ações) em um determinado domínio.
Se, por exemplo, o Google deseja aumentar as taxas de cliques nos anúncios, aumentar o número de usuários do GMail ou Google+ ou induzir os usuários a usar o Google em vez do Bing, eles precisam conhecer os efeitos de possíveis ações (por exemplo, aumentar o tamanho da fonte dos anúncios, promovendo o Google+ em revistas impressas ou divulgando diferenças entre os resultados de pesquisa do Google e do Bing, respectivamente). A correlação é boa o suficiente para fazer com que o mecanismo de pesquisa do Google funcione bem, mas para os outros sistemas (e para os negócios em geral) a distinção costuma ser importante.
Vale ressaltar que o Google (e muitas empresas com negócios baseados na Web) estão constantemente realizando experiências on-line. Essa é uma das maneiras mais simples e melhores de identificar e estimar dependências causais.
fonte
Primeiro, é apenas uma piada e está incorreto. O Google tem muitos estatísticos muito talentosos, especialistas em recuperação de informações, linguistas, economistas, alguns psicólogos e outros. Essas pessoas passam muito tempo educando muitos não estatísticos sobre a diferença entre correlação e causalidade. Dado que é uma organização grande, pode haver bolsões, até grandes bolsões, de ignorância, mas a afirmação é definitivamente falsa. Além disso, grande parte dessa educação está voltada para os clientes, principalmente os anunciantes.
Resposta mais profunda: a diferença é extremamente importante. Basta olhar para a classificação dos resultados de pesquisa e permitir que eu vá além da "correlação" para incluir medidas de similaridade, funções de pontuação, etc. Algumas páginas são medidas como bons resultados para determinadas consultas. Eles têm uma variedade de recursos preditores que são importantes para sua classificação. Em contraste com essas páginas boas e com bons resultados para consultas, há um conjunto de páginas da Web que são páginas com resultados muito ruins para as mesmas consultas. No entanto, os criadores dessas páginas se esforçam muito para fazer com que pareçam boas páginas do ponto de vista numérico, como correspondências de texto, vinculação à Internet e muito mais. No entanto, apenas porque essas páginas são numericamente "semelhantes" às boas páginas não significa que elas sejam, de fato, boas páginas. Portanto, o Google investiu e continuará investindo muito esforço para determinar quais recursos razoáveis distinguem (separam) páginas boas e ruins.
Isso não é exatamente correlação e causalidade, mas é mais profundo que isso. Páginas boas para determinadas consultas podem ser mapeadas para um espaço numérico em que parecem semelhantes e distintas de muitas páginas irrelevantes ou ruins, mas apenas porque os resultados estão na mesma região do espaço de recurso não significa que eles provêm do mesmo subconjunto "alta qualidade" da web.
Resposta mais simples: uma perspectiva muito simples é abordar a classificação dos resultados. O melhor resultado deve ser o primeiro, mas apenas porque algo é classificado em primeiro lugar não significa que é o melhor resultado. Por algumas métricas de pontuação, você pode achar que a classificação do Google está correlacionada com um padrão-ouro de avaliações de qualidade, mas isso não significa que a classificação implique que os resultados estejam realmente nessa ordem em termos de qualidade e relevância.
Atualização (terceira resposta): Com o tempo, há outro aspecto que afeta a todos nós: é que o principal resultado do Google pode ser considerado autoritário, porque é o principal resultado do Google. Embora a análise de links (por exemplo, "PageRank" - um método para análise de links) seja uma tentativa de refletir a autoridade percebida, com o tempo, novas páginas de um tópico podem simplesmente reforçar essa estrutura de links vinculando-se ao resultado principal do Google. Uma página mais nova, com maior autoridade, tem um problema com o avanço em relação ao primeiro resultado. Como o Google deseja entregar a página mais relevante no momento , vários fatores, incluindo o chamado fenômeno de "enriquecer", surgem devido a um efeito implícito da correlação na causa percebida.
Atualização (quarta resposta): Eu percebi (para um comentário abaixo) que pode ser útil ler a Alegoria da Caverna de Platão para ter uma idéia de como interpretar correlação e causação como resultado de "reflexões / projeções" da realidade e como nós (ou nossas máquinas) percebemos isso. A correlação, estritamente limitada à correlação de Pearson, é muito limitada como uma interpretação da questão da associação de mal-entendidos (mais ampla do que apenas a correlação) e da causalidade.
fonte
Autor da piada aqui.
O comentário foi parcialmente inspirado por uma palestra de David Mease (no Google), onde ele disse, e eu parafraseando, as empresas de seguros de automóveis não se importam se o sexo masculino causa mais acidentes, desde que correlacionado, eles precisam cobrar mais. É, de fato, impossível mudar o sexo de alguém em um experimento, para que a causa nunca possa ser mostrada.
Da mesma forma, o Google realmente não precisa se preocupar se a cor vermelha faz alguém clicar em um anúncio, se estiver correlacionado com mais cliques, eles podem cobrar mais por esse anúncio.
Também foi inspirado por este artigo em Wired: The End of Theory: The Data Diluge torna obsoleto o método científico . Uma citação:
"A filosofia fundamental do Google é que não sabemos por que essa página é melhor que a página anterior: se as estatísticas dos links de entrada dizem que é, isso é bom o suficiente".
Obviamente, o Google tem muitas pessoas muito inteligentes que sabem a diferença entre causação e correlação, mas, no caso delas, elas podem ganhar muito dinheiro sem se importar com isso.
fonte
Concordo com David : a diferença importa se você pretende intervir, e o Google pode testar os resultados das intervenções executando experimentos controlados. (O cronograma ideal de tais experimentos depende do seu conjunto de hipóteses causais, que você aprende com experimentos anteriores e dados observacionais ; portanto, as correlações ainda são úteis!)
Há uma segunda razão pela qual o Google pode querer aprender relacionamentos causais. Os relacionamentos causais são mais robustos às intervenções de outros atores. As intervenções tendem a ser locais, portanto, podem mudar uma parte da rede causal, mas mantêm todos os outros mecanismos causais inalterados. Por outro lado, os relacionamentos preditivos podem falhar se um vínculo causal distante for quebrado. A internet está mudando constantemente, e o Google deve estar interessado em quais recursos do ambiente online são mais robustos para essas mudanças.
fonte