Até que ponto a distinção entre correlação e causação é relevante para o Google?

21

Contexto

Uma pergunta popular neste site é " O que são pecados estatísticos comuns? ". Um dos pecados mencionado está assumindo que "correlação implica causalidade ..." ligação

Então, nos comentários com 5 votos positivos, sugere-se que: "O Google ganha US $ 65 bilhões por ano sem se importar com a diferença".

Correndo o risco de analisar demais uma piada leve, pensei que esse poderia ser um ponto de discussão útil para aprofundar a distinção entre correlação e causação e a relevância prática da distinção; e talvez pudesse destacar algo sobre a relação entre aprendizado de máquina e a distinção entre correlação e causalidade.

Suponho que o comentário esteja abordando tecnologias subjacentes à geração de resultados de mecanismos de pesquisa e tecnologias relacionadas a exibição de publicidade.

Questão

Até que ponto a distinção entre correlação e causação é relevante para a geração de renda do Google, talvez se concentrando principalmente na geração de renda por meio de tecnologias relacionadas à exibição de publicidade e resultados de pesquisa de qualidade?

machine-learning causality Jeromy Anglim
fonte

Engraçado, eu estava olhando para esse comentário um pouco antes.

Iterator

2

O blog Revolutions publicou na semana passada um artigo sobre Como o Google usa R para tornar a publicidade online mais eficaz . Infelizmente eles não entram em muitos detalhes ...

nico

13

A resposta simples é que o Google (ou qualquer pessoa) deve se preocupar com a distinção na medida em que pretendem intervir . O conhecimento causal fala sobre os efeitos de intervenções (ações) em um determinado domínio.

Se, por exemplo, o Google deseja aumentar as taxas de cliques nos anúncios, aumentar o número de usuários do GMail ou Google+ ou induzir os usuários a usar o Google em vez do Bing, eles precisam conhecer os efeitos de possíveis ações (por exemplo, aumentar o tamanho da fonte dos anúncios, promovendo o Google+ em revistas impressas ou divulgando diferenças entre os resultados de pesquisa do Google e do Bing, respectivamente). A correlação é boa o suficiente para fazer com que o mecanismo de pesquisa do Google funcione bem, mas para os outros sistemas (e para os negócios em geral) a distinção costuma ser importante.

Vale ressaltar que o Google (e muitas empresas com negócios baseados na Web) estão constantemente realizando experiências on-line. Essa é uma das maneiras mais simples e melhores de identificar e estimar dependências causais.

David Jensen
fonte

(+1) desde que os preditores a) se correlacionem eb) permitam prever resultados futuros corretamente, não se deve preocupar com a causa.

Steffen

2

Estamos entrando na era do renascimento da pesquisa experimental em ciências do comportamento. Na década de 1950, quase toda a estatística era de pesquisa experimental, com aplicações na agricultura. Porém, por volta da década de 1980, as pessoas reconheceram que essas técnicas não ajudam muito os dados observacionais, o que é tudo o que você pode fazer na maioria das ciências sociais. Agora, pelo menos nos nichos da pesquisa de marketing on-line, se você é Amazon, Google ou Bing, pode executar experimentos e obter a forma mais limpa de inferência causal possível.

Stask

@StasK, considerando os tamanhos das amostras que provavelmente estão lidando com um experimento "curto", provavelmente produzem resultados altamente úteis. Que tesouro deve ser esse.

Brandon Bertelsen

É interessante notar que a facilidade de "grupos" do Google é muito, muito ruim. É como se eles construíssem um mecanismo de discussão em grupo que se correlacionasse com o bom, mas não descobriram o que faz com que um mecanismo de discussão em grupo seja bom. Mas esse é um problema comum no marketing - muitas vezes os recursos de produtos concorrentes são copiados sem entender a motivação subjacente aos recursos.

Daniel R Hicks

1

@StasK: O mundo real provavelmente não é tão ideal quanto você finge aqui. Concordo que os experimentos são uma ótima ferramenta para fazer inferência causal. Entretanto, os experimentos também levantam problemas específicos. Às vezes, é melhor fazer inferências causais com um estudo observacional do que com um experimento. Uma crítica pode estar em que sentido os resultados de experimentos controlados podem ser generalizados para um cenário "real". Alguns autores chamam isso de "validade externa".

6

Primeiro, é apenas uma piada e está incorreto. O Google tem muitos estatísticos muito talentosos, especialistas em recuperação de informações, linguistas, economistas, alguns psicólogos e outros. Essas pessoas passam muito tempo educando muitos não estatísticos sobre a diferença entre correlação e causalidade. Dado que é uma organização grande, pode haver bolsões, até grandes bolsões, de ignorância, mas a afirmação é definitivamente falsa. Além disso, grande parte dessa educação está voltada para os clientes, principalmente os anunciantes.

Resposta mais profunda: a diferença é extremamente importante. Basta olhar para a classificação dos resultados de pesquisa e permitir que eu vá além da "correlação" para incluir medidas de similaridade, funções de pontuação, etc. Algumas páginas são medidas como bons resultados para determinadas consultas. Eles têm uma variedade de recursos preditores que são importantes para sua classificação. Em contraste com essas páginas boas e com bons resultados para consultas, há um conjunto de páginas da Web que são páginas com resultados muito ruins para as mesmas consultas. No entanto, os criadores dessas páginas se esforçam muito para fazer com que pareçam boas páginas do ponto de vista numérico, como correspondências de texto, vinculação à Internet e muito mais. No entanto, apenas porque essas páginas são numericamente "semelhantes" às boas páginas não significa que elas sejam, de fato, boas páginas. Portanto, o Google investiu e continuará investindo muito esforço para determinar quais recursos razoáveis distinguem (separam) páginas boas e ruins.

Isso não é exatamente correlação e causalidade, mas é mais profundo que isso. Páginas boas para determinadas consultas podem ser mapeadas para um espaço numérico em que parecem semelhantes e distintas de muitas páginas irrelevantes ou ruins, mas apenas porque os resultados estão na mesma região do espaço de recurso não significa que eles provêm do mesmo subconjunto "alta qualidade" da web.

Resposta mais simples: uma perspectiva muito simples é abordar a classificação dos resultados. O melhor resultado deve ser o primeiro, mas apenas porque algo é classificado em primeiro lugar não significa que é o melhor resultado. Por algumas métricas de pontuação, você pode achar que a classificação do Google está correlacionada com um padrão-ouro de avaliações de qualidade, mas isso não significa que a classificação implique que os resultados estejam realmente nessa ordem em termos de qualidade e relevância.

Atualização (terceira resposta): Com o tempo, há outro aspecto que afeta a todos nós: é que o principal resultado do Google pode ser considerado autoritário, porque é o principal resultado do Google. Embora a análise de links (por exemplo, "PageRank" - um método para análise de links) seja uma tentativa de refletir a autoridade percebida, com o tempo, novas páginas de um tópico podem simplesmente reforçar essa estrutura de links vinculando-se ao resultado principal do Google. Uma página mais nova, com maior autoridade, tem um problema com o avanço em relação ao primeiro resultado. Como o Google deseja entregar a página mais relevante no momento , vários fatores, incluindo o chamado fenômeno de "enriquecer", surgem devido a um efeito implícito da correlação na causa percebida.

Atualização (quarta resposta): Eu percebi (para um comentário abaixo) que pode ser útil ler a Alegoria da Caverna de Platão para ter uma idéia de como interpretar correlação e causação como resultado de "reflexões / projeções" da realidade e como nós (ou nossas máquinas) percebemos isso. A correlação, estritamente limitada à correlação de Pearson, é muito limitada como uma interpretação da questão da associação de mal-entendidos (mais ampla do que apenas a correlação) e da causalidade.

Iterador
fonte

Discordo. Se alguém abusar dos preditores para criar uma alta classificação artificial da página, o destino implicará os preditores, ao contrário do que o Google pretendia ao criar o algoritmo de classificação da página. Como a métrica verdadeira permanece a mesma ("a página correta", para a qual a classificação da página é apenas uma aproximação), os preditores perdem sua correlação e, portanto, precisam ser alterados. Portanto, o Google não se preocupa com a causa referente à métrica verdadeira "a página certa", mas à aproximada chamada de classificação da página.

10139 steffen

Sem ofensa, mas você parece um pouco confuso sobre vários problemas. "PageRank" é um conceito claramente definido e é apenas um preditor. O principal problema que você está esquecendo é o processo industrial envolvido na definição e criação de um conjunto de treinamento, além de corresponder às expectativas do usuário. Infelizmente, os comentários são um local terrível para começar uma longa introdução ao aprendizado de máquina aplicado.

Iterator

Você quer dizer que, no processo de geração e avaliação de preditores por conhecimento especializado, apenas os preditores de "causalidade" são gerados? Desde que se siga um processo desse tipo e não volte a uma abordagem de tentativa e erro, você está correto, o Google se importa;).

steffen

Você está bem correto. O problema é que, com o tempo, fica imensamente difícil tentar identificar preditores que refletem causalidade quando existem adversários te impedindo. Se um preditor não tem algum tipo de explicação causal (porque raramente é de natureza verdadeiramente causal), é difícil justificar quando os bandidos evoluem e estragam essa região do espaço do preditor.

Iterator

2

@Brandon: Sem brincadeira. Isso é melhor exemplificado quando tento procurar eventos recentes ou futuros. Cada vez mais, preciso inserir o ano atual ou mesmo o MM-AAAA atual (ou fazer pesquisa avançada) para obter as páginas relevantes. É uma troca entre estrutura de links e atualização, e o Google erra sem mais ajuda minha. De fato, isso me levou ao Bing algumas vezes, apenas por irritação ao tentar ignorar páginas antigas. O mesmo acontece com o SO: as primeiras respostas geralmente parecem mais positivas do que as respostas posteriores, o que pode ser mais correto. :)

Iterator

5

Autor da piada aqui.

O comentário foi parcialmente inspirado por uma palestra de David Mease (no Google), onde ele disse, e eu parafraseando, as empresas de seguros de automóveis não se importam se o sexo masculino causa mais acidentes, desde que correlacionado, eles precisam cobrar mais. É, de fato, impossível mudar o sexo de alguém em um experimento, para que a causa nunca possa ser mostrada.

Da mesma forma, o Google realmente não precisa se preocupar se a cor vermelha faz alguém clicar em um anúncio, se estiver correlacionado com mais cliques, eles podem cobrar mais por esse anúncio.

Também foi inspirado por este artigo em Wired: The End of Theory: The Data Diluge torna obsoleto o método científico . Uma citação:

"A filosofia fundamental do Google é que não sabemos por que essa página é melhor que a página anterior: se as estatísticas dos links de entrada dizem que é, isso é bom o suficiente".

Obviamente, o Google tem muitas pessoas muito inteligentes que sabem a diferença entre causação e correlação, mas, no caso delas, elas podem ganhar muito dinheiro sem se importar com isso.

Neil McGuigan
fonte

1

Para elaborar ... Como mencionei, há muitas pessoas no Google que realmente se importam com isso, assim como David Mease. (Aliás, ele não está em Stanford, a menos que haja notícias que eu perdi; talvez você tenha participado do curso de 2007?) Mas você tem razão em que muitas pessoas não sabem como funcionam os motores de combustão interna, mas isso não afeta sua capacidade de dirigir. Bons engenheiros e pesquisadores de automóveis, no entanto, fazem com que funcione melhor porque o fazem. O mesmo vale para os engenheiros e pesquisadores do Google. Infelizmente, esse artigo da Wired não é a apresentação mais articulada da tese de Norvig.

Iterator

Obrigado Neil pelo contexto. Espero que você não se importe que eu use seu comentário como inspiração para uma pergunta.

Jeromy Anglim

@jeromy, nem um pouco #

Neil McGuigan

1

Concordo com David : a diferença importa se você pretende intervir, e o Google pode testar os resultados das intervenções executando experimentos controlados. (O cronograma ideal de tais experimentos depende do seu conjunto de hipóteses causais, que você aprende com experimentos anteriores e dados observacionais ; portanto, as correlações ainda são úteis!)

Há uma segunda razão pela qual o Google pode querer aprender relacionamentos causais. Os relacionamentos causais são mais robustos às intervenções de outros atores. As intervenções tendem a ser locais, portanto, podem mudar uma parte da rede causal, mas mantêm todos os outros mecanismos causais inalterados. Por outro lado, os relacionamentos preditivos podem falhar se um vínculo causal distante for quebrado. A internet está mudando constantemente, e o Google deve estar interessado em quais recursos do ambiente online são mais robustos para essas mudanças.

Lizzie Silver
fonte

Até que ponto a distinção entre correlação e causação é relevante para o Google?

Contexto

Questão

Respostas: