Ou mais ainda "será"? O Big Data torna as estatísticas e os conhecimentos relevantes ainda mais importantes, mas parece subestimar a teoria de amostragem.
Eu já vi esse hype em torno de 'Big Data' e não posso deixar de pensar que "por que" eu gostaria de analisar tudo ? Não havia uma razão para a "teoria da amostragem" ser projetada / implementada / inventada / descoberta? Não tenho o objetivo de analisar toda a 'população' do conjunto de dados. Só porque você pode fazer isso não significa que você deveria (a estupidez é um privilégio, mas você não deve abusar dela :)
Portanto, minha pergunta é a seguinte: É estatisticamente relevante analisar todo o conjunto de dados? O melhor que você poderia fazer seria minimizar o erro se você fizesse amostragem. Mas o custo de minimizar esse erro realmente vale a pena? O "valor da informação" realmente vale o esforço, o custo do tempo, etc., que é analisado no big data em computadores massivamente paralelos?
Mesmo se analisássemos toda a população, o resultado ainda seria, na melhor das hipóteses, um palpite com maior probabilidade de estar certo. Provavelmente um pouco mais alto do que a amostragem (ou seria muito mais?) Será que os insights obtidos com a análise da população versus a análise da amostra diferem amplamente?
Ou devemos aceitá-lo como "os tempos mudaram"? A amostragem como uma atividade pode se tornar menos importante, dado poder computacional suficiente :)
Nota: Não estou tentando iniciar um debate, mas procurando uma resposta para entender por que o big data faz o que faz (ou seja, analisa tudo) e desconsidera a teoria da amostragem (ou não?)
fonte
Respostas:
Em uma palavra, sim . Acredito que ainda existem situações claras em que a amostragem é apropriada, dentro e fora do mundo do "big data", mas a natureza do big data certamente mudará nossa abordagem de amostragem, e usaremos mais conjuntos de dados que são representações quase completas dos subjacentes população.
Sobre a amostragem: Dependendo das circunstâncias, quase sempre ficará claro se a amostragem é uma coisa apropriada a ser feita. A amostragem não é uma atividade inerentemente benéfica; é exatamente o que fazemos, porque precisamos compensar o custo da implementação da coleta de dados. Estamos tentando caracterizar populações e precisamos selecionar o método apropriado para coletar e analisar dados sobre a população. A amostragem faz sentido quando o custo marginal de um método de coleta ou processamento de dados é alto. Tentar atingir 100% da população não é um bom uso de recursos nesse caso, porque muitas vezes é melhor lidar com coisas como viés de não resposta do que fazer pequenas melhorias no erro de amostragem aleatória.
Qual a diferença entre big data? O "big data" aborda muitas das mesmas perguntas que tivemos por muito tempo, mas o que é "novo" é que a coleta de dados ocorre a partir de um processo existente mediado por computador; portanto, o custo marginal da coleta de dados é essencialmente zero. Isso reduz drasticamente nossa necessidade de amostragem.
Quando ainda usaremos a amostragem? Se a população de "big data" for a população certa para o problema, você só empregará amostragem em alguns casos: a necessidade de executar grupos experimentais separados ou se o volume de dados for grande demais para capturar e processar (muitos hoje em dia, podemos lidar com milhões de linhas de dados com facilidade, então o limite aqui está cada vez mais distante. Se parece que estou descartando sua pergunta, provavelmente é porque raramente encontrei situações em que o volume de dados era uma preocupação nos estágios de coleta ou processamento, embora eu saiba que muitos
A situação que me parece difícil é quando sua população de "big data" não representa perfeitamente sua população-alvo, portanto as trocas são mais maçãs para laranjas. Digamos que você seja um planejador de transporte regional, e o Google ofereceu acesso a seus registros de navegação GPS Android para ajudá-lo. Embora o conjunto de dados seja, sem dúvida, interessante de usar, a população provavelmente seria sistematicamente enviesada contra os de baixa renda, os usuários do transporte público e os idosos. Em tal situação, os diários de viagens tradicionais enviados a uma amostra domiciliar aleatória, embora sejam mais caros e menores em número, ainda podem ser o método superior de coleta de dados. Mas, isso não é simplesmente uma questão de "amostragem versus big data", é '
fonte
Embora exista um monte de Big Data sendo produzido pelos dispositivos móveis, há poucos dados úteis nele. Se você deseja prever os padrões de viagens urbanas usando o quadrangular, pode estar em uma ordem de magnitude em fluxos estimados. Pior, você não saberá se está superestimando ou subestimando esses fluxos. Você pode obter uma imagem incrivelmente precisa dos padrões de viagens urbanas de usuários maníacos do quadrangular, mas, a menos que todos sejam obrigados (1) a manter um smartphone em funcionamento, (2) a executar o aplicativo quadrangular o tempo todo e (3) a se registrar em em qualquer lugar em que eles permaneçam por mais de 10 minutos (ou seja, faça um Censo eletrônico; permita que libertários se queixem do Google e do Facebook sabendo tudo sobre você), seus dados conterão preconceitos desconhecidos e seus Deweys eletrônicos continuarão derrotando a palavra real Trumans (clicáveis):
(fonte: whatisasurvey.info )
De qualquer forma, eu esperaria que esse pedaço da história se repita, e algumas grandes previsões de "cerveja + fraldas" produzidas a partir do Big Data seriam anuladas por pesquisadores que usassem abordagens de amostragem mais rigorosas. É surpreendente que as pesquisas baseadas em probabilidade permaneçam precisas, apesar da queda nas taxas de resposta.
fonte
Sempre que se aplica técnicas de inferência estatística, é importante esclarecer a população sobre a qual se pretende tirar conclusões. Mesmo que os dados que foram coletados sejam muito grandes, eles ainda podem estar relacionados apenas a uma pequena parte da população e podem não ser muito representativos do todo.
Suponha, por exemplo, que uma empresa que opera em um determinado setor tenha coletado 'big data' de seus clientes em um determinado país. Se quiser usar esses dados para tirar conclusões sobre seus clientes existentes naquele país, a amostragem pode não ser muito relevante. Se, no entanto, quiser tirar conclusões sobre uma população maior - clientes potenciais e existentes, ou clientes em outro país -, torna-se essencial considerar até que ponto os clientes sobre os quais os dados foram coletados são representativos - talvez em renda, idade , gênero, educação etc. - da população maior.
A dimensão do tempo também precisa ser considerada. Se o objetivo é usar a inferência estatística para apoiar previsões, entenda-se que a população se estende para o futuro. Nesse caso, torna-se essencial considerar se o conjunto de dados, por maior que seja, foi obtido em circunstâncias representativas daquelas que podem ser obtidas no futuro.
fonte
Pelo que vi da mania de big data / ML, pensar em amostragem e na população da qual sua amostra é extraída é tão importante quanto sempre - mas pensei em menos ainda.
Estou "auditando" a classe Stanford ML e, até agora, cobrimos redes de regressão e redes neurais com nenhuma menção à inferência da população. Como essa classe foi realizada por 6 pessoas, agora existem muitas pessoas que sabem como ajustar os dados muito bem, sem nenhuma noção da idéia de uma amostra.
fonte
Sim, a amostragem é relevante e permanecerá relevante. O ponto principal é que a precisão de uma estimativa estatística geralmente é uma função do tamanho da amostra, não da população para a qual queremos generalizar. Portanto, uma proporção média ou média calculada a partir de uma amostra de 1.000 entrevistados produzirá uma estimativa de uma certa precisão (com relação a toda a população da qual amostramos), independentemente do tamanho da população (ou "quão grande" a big data "são are).
Dito isto: Existem questões e desafios específicos que são relevantes e devem ser mencionados:
Você pode conferir nossa 'Revolução de Big Data' aqui.
fonte
Muitos métodos de big data são realmente projetados em torno da amostragem.
A questão deve estar mais na linha de:
Muitas das coisas de "big data" ainda são bastante recentes e, às vezes, ingênuas. K-significa, por exemplo, pode ser trivialmente paralelizado e, portanto, funciona para "big data" (não vou falar sobre os resultados, eles não são muito significativos; e provavelmente não muito diferentes dos obtidos em uma amostra!). Até onde eu sei, é isso que a implementação do k-means no Mahout faz.
No entanto, a pesquisa está indo além da paralelização ingênua (que ainda pode exigir uma grande quantidade de iterações) e tenta executar meios K em um número fixo de iterações. Exemplo para isso:
Ene, A. e Im, S. e Moseley, B.
Anais da 17ª conferência internacional ACM SIGKDD sobre descoberta de conhecimento e mineração de dados, 2011
E adivinhem, a abordagem deles é fortemente baseada em amostragem .
Próximo exemplo: florestas de decisão . Isto é essencialmente: para várias amostras do conjunto de dados, construa uma árvore de decisão cada. Pode novamente ser trivialmente paralelizado: coloque cada amostra em uma máquina separada. E, novamente, é uma abordagem baseada em amostragem.
Portanto, a amostragem é um dos principais ingredientes para abordagens de big data!
E não há nada de errado nisso.
fonte
A validação cruzada é um exemplo específico de subamostragem, que é bastante importante no ML / big data. Em geral, o big data ainda é geralmente uma amostra de uma população, como outras pessoas aqui mencionaram.
Mas, acho que OP pode estar se referindo especificamente à amostragem, como se aplica a experimentos controlados, versus dados observacionais. Geralmente, o big data é considerado o último, mas para mim pelo menos existem exceções. Eu pensaria em ensaios randomizados, testes A / B e bandidos multiarmed em configurações de comércio eletrônico e redes sociais como exemplos de "amostragem em configurações de big data".
fonte
Nas áreas em que o Big Data está ganhando popularidade: pesquisa, publicidade, sistemas de recomendação como Amazon, Netflix, há um grande incentivo para explorar todo o conjunto de dados.
O objetivo desses sistemas é adequar recomendações / sugestões a todos os membros da população. Além disso, o número de atributos em estudo é enorme. O sistema médio de análise da web pode medir a taxa de cliques, o "rastreamento térmico" das "áreas quentes" de uma página, as interações sociais etc., e ponderá-las em relação a um grande conjunto de objetivos predeterminados.
Mais importante, a maioria dos lugares em que o Big Data é onipresente são fluxos de dados "online", ou seja, os dados são constantemente adicionados / atualizados. Criar um esquema de amostragem que cubra todos esses atributos sem um viés inerente e ainda forneça resultados promissores (leia melhores margens) é um desafio.
A amostragem ainda permanece altamente relevante para pesquisas, ensaios médicos, testes A / B, garantia de qualidade.
Em poucas palavras, a amostragem é muito útil quando a população a ser estudada é muito grande e você está interessado nas propriedades macroscópicas da população. A verificação 100% (Big Data) é necessária para explorar as propriedades microscópicas do sistema
Espero que isto ajude :)
fonte