Como tirar conclusões válidas do “big data”?

"Big data" está em toda parte na mídia. Todo mundo diz que "big data" é algo importante para 2012, por exemplo, o KDNuggets faz pesquisas sobre tópicos importantes para 2012 . No entanto, tenho profundas preocupações aqui. Com o big data, todo mundo parece feliz apenas em conseguir alguma coisa . Mas não estamos violando todos os princípios estatísticos clássicos, como teste de hipóteses e amostragem representativa?

Desde que façamos apenas previsões sobre o mesmo conjunto de dados, tudo bem. Portanto, se eu usar os dados do Twitter para prever o comportamento do usuário, provavelmente tudo bem. No entanto, o uso de dados do Twitter para prever, por exemplo, eleições, negligencia completamente o fato de que os usuários do Twitter não são uma amostra representativa para toda a população. Além disso, a maioria dos métodos não será capaz de diferenciar entre um verdadeiro humor "popular" e uma campanha. E o twitter está cheio de campanhas. Portanto, ao analisar o Twitter, você acaba medindo campanhas e bots rapidamente. (Veja, por exemplo, "O Yahoo prediz os vencedores políticos da América"que está cheio de perguntas e "análise de sentimentos é muito melhor". Eles previram que "Romney tem mais de 90% de probabilidade de ganhar a indicação e de ganhar a primária da Carolina do Sul" (ele tinha 28%, enquanto Gingrich tinha 40% nessa primária).

Você conhece outros desses grandes dados falham ? Lembro-me mais ou menos que um cientista previu que você não poderia manter mais de 150 amizades. Na verdade, ele só descobriu um limite de limite no friendster ...

Quanto aos dados do twitter, ou realmente qualquer "grande volume de dados" coletado da web, acredito que muitas vezes as pessoas introduzem preconceitos adicionais pela maneira como coletam seus dados. Poucos terão todo o Twitter. Eles terão um certo subconjunto que eles localizaram, e esse é apenas mais um viés no conjunto de dados.

Dividir os dados em um conjunto de testes ou realizar validação cruzada provavelmente não ajuda muito. O outro conjunto terá o mesmo viés. E para big data, preciso "compactar" minhas informações com tanta intensidade que é improvável que eu me ajuste demais.

Recentemente, ouvi essa piada, com o cientista de big data que descobriu que existem aproximadamente 6 sexos no mundo ... e posso imaginar que isso aconteça ... "Masculino, feminino, orc, peludo, sim e não".

Então, quais métodos temos para obter alguma validade estatística de volta à análise, em particular ao tentar prever algo fora do conjunto de dados "big data"?

data-mining dataset large-data validation Anony-Mousse
fonte

Respostas:

Seus medos são bem fundamentados e perspicazes. O Yahoo e provavelmente várias outras empresas estão fazendo experimentos aleatórios com os usuários e fazendo-o bem. Mas os dados observacionais estão repletos de dificuldades. É um equívoco comum que os problemas diminuem à medida que o tamanho da amostra aumenta. Isso é verdadeiro para a variação, mas o viés permanece constante à medida que n aumenta. Quando o viés é grande, uma amostra verdadeiramente aleatória muito pequena ou um estudo randomizado pode ser mais valioso do que 100.000.000 de observações.

Frank Harrell
fonte

O big data é provavelmente uma área em que a decomposição da variação de viés não é útil - a qualidade e o gerenciamento dos dados são mais importantes. Isso ocorre porque não podemos esperar para conhecer todos os pontos de dados ou até mesmo casos especiais - apenas muitos deles

probabilityislogic

Existem várias técnicas no projeto e na análise experimentais que podem ajudá-lo a reduzir seu viés, mas isso sempre se resume à mesma coisa: é preciso saber o que está fazendo. A análise de big data tem o mesmo problema que qualquer outra análise de dados; sofre de falta de hipóteses.

Um exemplo claro é a regressão múltipla com a seleção gradual de variáveis. Muito agradável, um dizer, mas com 100 variáveis leis estatísticas medidos ditam que alguns deles irá mostrar uma relação significativa quando avaliada por olhar se os respectivos difere coeficiente significativamente de zero. Portanto, quanto mais variáveis no seu conjunto de dados, maior a chance de encontrar duas que mostrem alguma relação (sem sentido). E quanto maior o seu conjunto de dados, maior a chance de modelos sem sentido devido, por exemplo, a um pequeno efeito de confusão. Se você testar muitos modelos (e com apenas 10 variáveis que podem ser muitos modelos), é provável que encontre pelo menos um significativo. Isso significa alguma coisa? Não.

O que se deve fazer então? Use seu cérebro:

formule uma hipótese antes de coletar os dados e teste essa hipótese. Essa é a única maneira de garantir que suas estatísticas realmente contem uma história.
Use suas covariáveis para estratificar sua amostragem antes de fazer alguns testes. Exemplo estúpido: se você tem 1000 homens e 100 mulheres em seu conjunto de dados, selecione aleatoriamente 50 cada um se quiser falar sobre uma população média. Na verdade, isso é algo em que o big data é útil: você tem mais do que o suficiente para experimentar.
Descreva a população de teste completamente, para que fique claro para qual população suas conclusões são formuladas.
Se você usar seu grande conjunto de dados para fins exploratórios, teste as hipóteses apresentadas durante essa exploração em um novo e diferente conjunto de dados, não apenas em um subconjunto do que você coletou. E teste-os novamente usando todas as precauções necessárias.

Essas coisas são todas óbvias e conhecidas. Heck, já em 1984, Rosenbaum e Rubin ilustraram como usar escores de propensão para reduzir o viés em estudos observacionais, e é isso que a maioria dos grandes conjuntos de dados são: dados observacionais. Em trabalhos mais recentes de Feng et al , o uso da distância de Mahalanobis também é defendido. E, de fato, um dos meus heróis estatísticos, Cochran, escreveu uma resenha sobre esse problema já em 1973! Ou o que dizer de Rubin, que introduziu amostragem multivariada e correção de regressão já em 1979. As publicações antigas são seriamente subestimadas e muitas vezes ignoradas, certamente em um campo como a estatística.

Todas essas técnicas têm prós e contras, e é preciso entender que reduzir o viés não é o mesmo que eliminar o viés. Mas se você estiver ciente de:

o que você deseja testar e
como você está fazendo isso

O big data não é uma desculpa para obter resultados falsos.

Editado após a observação (correta) do @DW, que apontou que eu usei o termo 'sobreajuste' em um contexto errado.

Joris Meys
fonte

"quanto maior o seu conjunto de dados, mais chances de sobreajuste sem sentido" - Na verdade, isso é inverso. Quanto maior o conjunto de modelos possíveis, maior a chance de sobreajuste (todos os demais são iguais). Quanto maior o conjunto de dados, menor a chance de sobreajuste (todos os demais são iguais).

@DW Como é isso? De fato, se houver independência absoluta em uma simulação, há muita chance em um modelo significativo com conjuntos de dados pequenos e grandes (a simulação simples mostra isso). Infelizmente, ainda tenho que encontrar um conjunto de dados em que a independência seja perfeita. No momento em que você tem, por exemplo, um efeito de confusão muito pequeno, grandes conjuntos de dados têm mais probabilidade de fornecer resultados significativos sem significado do que pequenos conjuntos de dados.

Joris Meys

Boa resposta - seu comentário sobre a descoberta de efeitos significativos fornece uma boa justificativa para os métodos de retração em vez dos métodos de entrada e saída de seleção de modelo.

probabilityislogic

O @DW está fazendo uma declaração sobre o ajuste excessivo e parece correto - principalmente porque quanto maior o conjunto de dados, maior a chance de uma validação cruzada humilde em subconjuntos de dados. Joris Meys está fazendo uma declaração sobre significância estatística. Isso também está correto. Mas em grandes conjuntos de dados a significância estatística é discutível - é o tamanho do efeito que importa, porque quase tudo é "estatisticamente significativo".

Zbicyclist

@ zbicyclist Observação muito correta. Admito que interpretei mal o DW e usei o termo sobreajuste em um contexto errado. Eu estou corrigido.

Joris Meys