A amostragem é relevante no momento do 'big data'?

54

Ou mais ainda "será"? O Big Data torna as estatísticas e os conhecimentos relevantes ainda mais importantes, mas parece subestimar a teoria de amostragem.

Eu já vi esse hype em torno de 'Big Data' e não posso deixar de pensar que "por que" eu gostaria de analisar tudo ? Não havia uma razão para a "teoria da amostragem" ser projetada / implementada / inventada / descoberta? Não tenho o objetivo de analisar toda a 'população' do conjunto de dados. Só porque você pode fazer isso não significa que você deveria (a estupidez é um privilégio, mas você não deve abusar dela :)

Portanto, minha pergunta é a seguinte: É estatisticamente relevante analisar todo o conjunto de dados? O melhor que você poderia fazer seria minimizar o erro se você fizesse amostragem. Mas o custo de minimizar esse erro realmente vale a pena? O "valor da informação" realmente vale o esforço, o custo do tempo, etc., que é analisado no big data em computadores massivamente paralelos?

Mesmo se analisássemos toda a população, o resultado ainda seria, na melhor das hipóteses, um palpite com maior probabilidade de estar certo. Provavelmente um pouco mais alto do que a amostragem (ou seria muito mais?) Será que os insights obtidos com a análise da população versus a análise da amostra diferem amplamente?

Ou devemos aceitá-lo como "os tempos mudaram"? A amostragem como uma atividade pode se tornar menos importante, dado poder computacional suficiente :)

Nota: Não estou tentando iniciar um debate, mas procurando uma resposta para entender por que o big data faz o que faz (ou seja, analisa tudo) e desconsidera a teoria da amostragem (ou não?)

Doutorado
fonte
11
Veja também: stats.stackexchange.com/q/22502/7828 - como tirar conclusões válidas do big data.
Anony-Mousse
2
(+1 há muito tempo) Gosto sempre de ler suas perguntas esclarecedoras. Eles são um trunfo real para este site.
cardeal
11
@ cardinal - Agradeço sinceramente o seu comentário. Significa muito vindo de você.
PhD

Respostas:

29

Em uma palavra, sim . Acredito que ainda existem situações claras em que a amostragem é apropriada, dentro e fora do mundo do "big data", mas a natureza do big data certamente mudará nossa abordagem de amostragem, e usaremos mais conjuntos de dados que são representações quase completas dos subjacentes população.

Sobre a amostragem: Dependendo das circunstâncias, quase sempre ficará claro se a amostragem é uma coisa apropriada a ser feita. A amostragem não é uma atividade inerentemente benéfica; é exatamente o que fazemos, porque precisamos compensar o custo da implementação da coleta de dados. Estamos tentando caracterizar populações e precisamos selecionar o método apropriado para coletar e analisar dados sobre a população. A amostragem faz sentido quando o custo marginal de um método de coleta ou processamento de dados é alto. Tentar atingir 100% da população não é um bom uso de recursos nesse caso, porque muitas vezes é melhor lidar com coisas como viés de não resposta do que fazer pequenas melhorias no erro de amostragem aleatória.

Qual a diferença entre big data? O "big data" aborda muitas das mesmas perguntas que tivemos por muito tempo, mas o que é "novo" é que a coleta de dados ocorre a partir de um processo existente mediado por computador; portanto, o custo marginal da coleta de dados é essencialmente zero. Isso reduz drasticamente nossa necessidade de amostragem.

Quando ainda usaremos a amostragem? Se a população de "big data" for a população certa para o problema, você só empregará amostragem em alguns casos: a necessidade de executar grupos experimentais separados ou se o volume de dados for grande demais para capturar e processar (muitos hoje em dia, podemos lidar com milhões de linhas de dados com facilidade, então o limite aqui está cada vez mais distante. Se parece que estou descartando sua pergunta, provavelmente é porque raramente encontrei situações em que o volume de dados era uma preocupação nos estágios de coleta ou processamento, embora eu saiba que muitos

A situação que me parece difícil é quando sua população de "big data" não representa perfeitamente sua população-alvo, portanto as trocas são mais maçãs para laranjas. Digamos que você seja um planejador de transporte regional, e o Google ofereceu acesso a seus registros de navegação GPS Android para ajudá-lo. Embora o conjunto de dados seja, sem dúvida, interessante de usar, a população provavelmente seria sistematicamente enviesada contra os de baixa renda, os usuários do transporte público e os idosos. Em tal situação, os diários de viagens tradicionais enviados a uma amostra domiciliar aleatória, embora sejam mais caros e menores em número, ainda podem ser o método superior de coleta de dados. Mas, isso não é simplesmente uma questão de "amostragem versus big data", é '

Jonathan
fonte
22

Embora exista um monte de Big Data sendo produzido pelos dispositivos móveis, há poucos dados úteis nele. Se você deseja prever os padrões de viagens urbanas usando o quadrangular, pode estar em uma ordem de magnitude em fluxos estimados. Pior, você não saberá se está superestimando ou subestimando esses fluxos. Você pode obter uma imagem incrivelmente precisa dos padrões de viagens urbanas de usuários maníacos do quadrangular, mas, a menos que todos sejam obrigados (1) a manter um smartphone em funcionamento, (2) a executar o aplicativo quadrangular o tempo todo e (3) a se registrar em em qualquer lugar em que eles permaneçam por mais de 10 minutos (ou seja, faça um Censo eletrônico; permita que libertários se queixem do Google e do Facebook sabendo tudo sobre você), seus dados conterão preconceitos desconhecidos e seus Deweys eletrônicos continuarão derrotando a palavra real Trumans (clicáveis):


(fonte: whatisasurvey.info )

De qualquer forma, eu esperaria que esse pedaço da história se repita, e algumas grandes previsões de "cerveja + fraldas" produzidas a partir do Big Data seriam anuladas por pesquisadores que usassem abordagens de amostragem mais rigorosas. É surpreendente que as pesquisas baseadas em probabilidade permaneçam precisas, apesar da queda nas taxas de resposta.

StasK
fonte
11
(+1) Mas um usuário quadrangular estereotipado não seria a antítese do paranóico . ;-)
cardeal
11
Sim ... provavelmente um termo ruim. Deixe-me mudar isso para maníaco!
Stask
2
Big data não é o culpado. É como é usado. Quando possui informações e é aplicada adequadamente, pode ser muito útil. A mineração de dados não é de todo ruim.
Michael Chernick 11/11/12
Ótimo ponto sobre o uso de big data para informações de tráfego. Como empresas como Google e Apple já fazem isso, acho que este é um ótimo exemplo de onde (atualmente disponível) o big data pode ser insuficiente para alguns públicos, e tentei incorporá-lo também na minha resposta.
Jonathan
@ Michael, você está certo, é claro. Os dados são muito baratos, mas as maneiras de obter informações utilizáveis ​​não diminuem - se houver, elas estão subindo, pois agora é preciso filtrar mais dados para obter as informações úteis.
StasK
21

Sempre que se aplica técnicas de inferência estatística, é importante esclarecer a população sobre a qual se pretende tirar conclusões. Mesmo que os dados que foram coletados sejam muito grandes, eles ainda podem estar relacionados apenas a uma pequena parte da população e podem não ser muito representativos do todo.

Suponha, por exemplo, que uma empresa que opera em um determinado setor tenha coletado 'big data' de seus clientes em um determinado país. Se quiser usar esses dados para tirar conclusões sobre seus clientes existentes naquele país, a amostragem pode não ser muito relevante. Se, no entanto, quiser tirar conclusões sobre uma população maior - clientes potenciais e existentes, ou clientes em outro país -, torna-se essencial considerar até que ponto os clientes sobre os quais os dados foram coletados são representativos - talvez em renda, idade , gênero, educação etc. - da população maior.

A dimensão do tempo também precisa ser considerada. Se o objetivo é usar a inferência estatística para apoiar previsões, entenda-se que a população se estende para o futuro. Nesse caso, torna-se essencial considerar se o conjunto de dados, por maior que seja, foi obtido em circunstâncias representativas daquelas que podem ser obtidas no futuro.

Adam Bailey
fonte
Bem-vindo ao nosso site, Adam! (Se você fizer check-in regularmente, encontrará até oportunidades ocasionais para exercitar seus interesses em geometria e teoria dos números . :-)
whuber
Grande ponto sobre a necessidade de considerar a população! Essa é uma das grandes maneiras pelas quais as pessoas podem ficar com preguiça sobre o big data.
Jonathan
"Mesmo que os dados que foram coletados sejam muito grandes, eles ainda podem estar relacionados apenas a uma pequena parte da população e podem não ser muito representativos do todo". Eu acho que essa frase sozinha responde a muitas perguntas.
Bemipefe
13

Pelo que vi da mania de big data / ML, pensar em amostragem e na população da qual sua amostra é extraída é tão importante quanto sempre - mas pensei em menos ainda.

Estou "auditando" a classe Stanford ML e, até agora, cobrimos redes de regressão e redes neurais com nenhuma menção à inferência da população. Como essa classe foi realizada por 6 pessoas, agora existem muitas pessoas que sabem como ajustar os dados muito bem, sem nenhuma noção da idéia de uma amostra.

Ari B. Friedman
fonte
3
Eu concordo completamente. Ao observar a mania atual sobre Machine Learning (principalmente praticantes e programadores), Big Data e "ciência de dados", acho ridiculamente comum as pessoas ignorarem completamente a amostragem, a inferência, a compreensão e o significado do raciocínio estatístico e sacrificá-lo por aplicar cegamente o que quer que seja. algoritmo é quadril nele. Você pode até ver isso com perguntas e algumas respostas aqui na validação cruzada. É por isso que também acredito que seja um hype que em breve será obsoleto ou emprestará epistemologia estatística e, assim, se tornará um ramo das estatísticas (eu o vejo como tal de qualquer maneira).
Momo
2
Se essa classe de ML é semelhante à que eu auditei há algum tempo, houve uma suposição técnica logo antes da desigualdade de Hoeffding de que os dados de treinamento são uma amostra perfeitamente aleatória da população. Infelizmente, isso quase nunca ocorre, pelo menos na minha experiência e nos exemplos de aplicações das técnicas ao longo do curso. Ainda não é o caso quando você usa "big data".
Douglas Zare
12

Sim, a amostragem é relevante e permanecerá relevante. O ponto principal é que a precisão de uma estimativa estatística geralmente é uma função do tamanho da amostra, não da população para a qual queremos generalizar. Portanto, uma proporção média ou média calculada a partir de uma amostra de 1.000 entrevistados produzirá uma estimativa de uma certa precisão (com relação a toda a população da qual amostramos), independentemente do tamanho da população (ou "quão grande" a big data "são are).

Dito isto: Existem questões e desafios específicos que são relevantes e devem ser mencionados:

  1. Tirar uma boa amostra de probabilidade nem sempre é fácil. Teoricamente, todo indivíduo da população para o qual queremos generalizar (sobre o qual queremos fazer inferências) deve ter uma probabilidade conhecida de ser selecionado; idealmente, essa probabilidade deve ser a mesma (amostra com probabilidade igual ou EPSEM - Probabilidade de seleção igual). Essa é uma consideração importante e deve-se ter uma compreensão clara de como o processo de amostragem atribuirá probabilidades de seleção aos membros da população aos quais se deseja generalizar. Por exemplo, alguém pode derivar do Twitter alimenta estimativas precisas de sentimentos gerais na população em geral, incluindo aqueles sem contas no Twitter?
  2. Big data pode conter detalhes e informações muito complexos; Em outras palavras, o problema não é amostragem, mas segmentação (micro), obtendo os detalhes certos para um pequeno subconjunto de observações relevantes. Aqui, o desafio não é amostragem, mas identificar a estratificação e a segmentação específicas dos big data que produzem as informações acionáveis ​​mais precisas que podem ser transformadas em insights valiosos.
  3. Outra regra geral de medição de opinião é que erros e vieses que não são de amostragem são geralmente muito maiores que o erro e vieses de amostragem. Só porque você processa cem bilhões de registros de entrevistados que expressam uma opinião não torna os resultados mais úteis se você tiver apenas dados de uma subamostra de 1000 pessoas, em particular se as perguntas para a respectiva pesquisa não foram bem escritas e induziram um viés.
  4. Às vezes, é necessária amostragem: por exemplo, se alguém construísse um modelo preditivo a partir de todos os dados, como validá-lo? Como comparar a precisão de diferentes modelos? Quando há “big data” (repositórios de dados muito grandes), é possível criar vários modelos e cenários de modelagem para diferentes amostras e validá-los (experimentá-los) em outras amostras independentes. Se alguém construísse um modelo para todos os dados - como validá-lo?

Você pode conferir nossa 'Revolução de Big Data' aqui.

Kyra Matzdorf
fonte
11
Bem-vindo ao nosso site, Kyra!
whuber
3

Muitos métodos de big data são realmente projetados em torno da amostragem.

A questão deve estar mais na linha de:

Também não devemos usar amostragem sistemática com big data?

Muitas das coisas de "big data" ainda são bastante recentes e, às vezes, ingênuas. K-significa, por exemplo, pode ser trivialmente paralelizado e, portanto, funciona para "big data" (não vou falar sobre os resultados, eles não são muito significativos; e provavelmente não muito diferentes dos obtidos em uma amostra!). Até onde eu sei, é isso que a implementação do k-means no Mahout faz.

No entanto, a pesquisa está indo além da paralelização ingênua (que ainda pode exigir uma grande quantidade de iterações) e tenta executar meios K em um número fixo de iterações. Exemplo para isso:

  • Cluster rápido usando MapReduce
    Ene, A. e Im, S. e Moseley, B.
    Anais da 17ª conferência internacional ACM SIGKDD sobre descoberta de conhecimento e mineração de dados, 2011

E adivinhem, a abordagem deles é fortemente baseada em amostragem .

Próximo exemplo: florestas de decisão . Isto é essencialmente: para várias amostras do conjunto de dados, construa uma árvore de decisão cada. Pode novamente ser trivialmente paralelizado: coloque cada amostra em uma máquina separada. E, novamente, é uma abordagem baseada em amostragem.

Portanto, a amostragem é um dos principais ingredientes para abordagens de big data!

E não há nada de errado nisso.

Anony-Mousse
fonte
2

A validação cruzada é um exemplo específico de subamostragem, que é bastante importante no ML / big data. Em geral, o big data ainda é geralmente uma amostra de uma população, como outras pessoas aqui mencionaram.

Mas, acho que OP pode estar se referindo especificamente à amostragem, como se aplica a experimentos controlados, versus dados observacionais. Geralmente, o big data é considerado o último, mas para mim pelo menos existem exceções. Eu pensaria em ensaios randomizados, testes A / B e bandidos multiarmed em configurações de comércio eletrônico e redes sociais como exemplos de "amostragem em configurações de big data".

Dave
fonte
1

Nas áreas em que o Big Data está ganhando popularidade: pesquisa, publicidade, sistemas de recomendação como Amazon, Netflix, há um grande incentivo para explorar todo o conjunto de dados.

O objetivo desses sistemas é adequar recomendações / sugestões a todos os membros da população. Além disso, o número de atributos em estudo é enorme. O sistema médio de análise da web pode medir a taxa de cliques, o "rastreamento térmico" das "áreas quentes" de uma página, as interações sociais etc., e ponderá-las em relação a um grande conjunto de objetivos predeterminados.

Mais importante, a maioria dos lugares em que o Big Data é onipresente são fluxos de dados "online", ou seja, os dados são constantemente adicionados / atualizados. Criar um esquema de amostragem que cubra todos esses atributos sem um viés inerente e ainda forneça resultados promissores (leia melhores margens) é um desafio.

A amostragem ainda permanece altamente relevante para pesquisas, ensaios médicos, testes A / B, garantia de qualidade.

Em poucas palavras, a amostragem é muito útil quando a população a ser estudada é muito grande e você está interessado nas propriedades macroscópicas da população. A verificação 100% (Big Data) é necessária para explorar as propriedades microscópicas do sistema

Espero que isto ajude :)

rrampage
fonte
Então, é seu ponto de vista que eles não querem generalizar além dos dados que eles têm para os dados que ainda não o fazem? Ou que acham que a amostra é tão grande que não precisam se preocupar com esses problemas? Ou que os parâmetros subjacentes mudariam com o tempo, não importa, desde que continuem sendo atualizados à medida que novos dados fluem?
gung - Restabelece Monica
@gung o problema não é o tamanho da amostra, mas o problema de gerar uma amostra imparcial para um conjunto de dados que possui um grande número de atributos. E a generalização geralmente é feita por algoritmos de Machine Learning, treinados em uma parte do conjunto de dados. Os fluxos de dados online que entram constantemente tornam a questão da amostragem secundária, pois as atualizações em lote podem ser usadas para alterar os parâmetros.
Rrampage 1/10/12