"Big data" está em toda parte na mídia. Todo mundo diz que "big data" é algo importante para 2012, por exemplo, o KDNuggets faz pesquisas sobre tópicos importantes para 2012 . No entanto, tenho profundas preocupações aqui. Com o big data, todo mundo parece feliz apenas em conseguir alguma coisa . Mas não estamos violando todos os princípios estatísticos clássicos, como teste de hipóteses e amostragem representativa?
Desde que façamos apenas previsões sobre o mesmo conjunto de dados, tudo bem. Portanto, se eu usar os dados do Twitter para prever o comportamento do usuário, provavelmente tudo bem. No entanto, o uso de dados do Twitter para prever, por exemplo, eleições, negligencia completamente o fato de que os usuários do Twitter não são uma amostra representativa para toda a população. Além disso, a maioria dos métodos não será capaz de diferenciar entre um verdadeiro humor "popular" e uma campanha. E o twitter está cheio de campanhas. Portanto, ao analisar o Twitter, você acaba medindo campanhas e bots rapidamente. (Veja, por exemplo, "O Yahoo prediz os vencedores políticos da América"que está cheio de perguntas e "análise de sentimentos é muito melhor". Eles previram que "Romney tem mais de 90% de probabilidade de ganhar a indicação e de ganhar a primária da Carolina do Sul" (ele tinha 28%, enquanto Gingrich tinha 40% nessa primária).
Você conhece outros desses grandes dados falham ? Lembro-me mais ou menos que um cientista previu que você não poderia manter mais de 150 amizades. Na verdade, ele só descobriu um limite de limite no friendster ...
Quanto aos dados do twitter, ou realmente qualquer "grande volume de dados" coletado da web, acredito que muitas vezes as pessoas introduzem preconceitos adicionais pela maneira como coletam seus dados. Poucos terão todo o Twitter. Eles terão um certo subconjunto que eles localizaram, e esse é apenas mais um viés no conjunto de dados.
Dividir os dados em um conjunto de testes ou realizar validação cruzada provavelmente não ajuda muito. O outro conjunto terá o mesmo viés. E para big data, preciso "compactar" minhas informações com tanta intensidade que é improvável que eu me ajuste demais.
Recentemente, ouvi essa piada, com o cientista de big data que descobriu que existem aproximadamente 6 sexos no mundo ... e posso imaginar que isso aconteça ... "Masculino, feminino, orc, peludo, sim e não".
Então, quais métodos temos para obter alguma validade estatística de volta à análise, em particular ao tentar prever algo fora do conjunto de dados "big data"?
fonte
Existem várias técnicas no projeto e na análise experimentais que podem ajudá-lo a reduzir seu viés, mas isso sempre se resume à mesma coisa: é preciso saber o que está fazendo. A análise de big data tem o mesmo problema que qualquer outra análise de dados; sofre de falta de hipóteses.
Um exemplo claro é a regressão múltipla com a seleção gradual de variáveis. Muito agradável, um dizer, mas com 100 variáveis leis estatísticas medidos ditam que alguns deles irá mostrar uma relação significativa quando avaliada por olhar se os respectivos difere coeficiente significativamente de zero. Portanto, quanto mais variáveis no seu conjunto de dados, maior a chance de encontrar duas que mostrem alguma relação (sem sentido). E quanto maior o seu conjunto de dados, maior a chance de modelos sem sentido devido, por exemplo, a um pequeno efeito de confusão. Se você testar muitos modelos (e com apenas 10 variáveis que podem ser muitos modelos), é provável que encontre pelo menos um significativo. Isso significa alguma coisa? Não.
O que se deve fazer então? Use seu cérebro:
Essas coisas são todas óbvias e conhecidas. Heck, já em 1984, Rosenbaum e Rubin ilustraram como usar escores de propensão para reduzir o viés em estudos observacionais, e é isso que a maioria dos grandes conjuntos de dados são: dados observacionais. Em trabalhos mais recentes de Feng et al , o uso da distância de Mahalanobis também é defendido. E, de fato, um dos meus heróis estatísticos, Cochran, escreveu uma resenha sobre esse problema já em 1973! Ou o que dizer de Rubin, que introduziu amostragem multivariada e correção de regressão já em 1979. As publicações antigas são seriamente subestimadas e muitas vezes ignoradas, certamente em um campo como a estatística.
Todas essas técnicas têm prós e contras, e é preciso entender que reduzir o viés não é o mesmo que eliminar o viés. Mas se você estiver ciente de:
O big data não é uma desculpa para obter resultados falsos.
Editado após a observação (correta) do @DW, que apontou que eu usei o termo 'sobreajuste' em um contexto errado.
fonte