O que exatamente é Big Data?

44

Fui perguntado em várias ocasiões a pergunta:

O que é Big-Data?

Tanto por estudantes quanto por meus parentes que estão começando a se interessar por estatísticas e ML.

Encontrei este CV-post . E sinto que concordo com a única resposta lá.

A página da Wikipedia também tem alguns comentários, mas não tenho certeza se realmente concordo com tudo.

EDIT: (Eu sinto que a página da Wikipedia não explica os métodos para lidar com isso e o paradigma mencionado abaixo) .

Recentemente, participei de uma palestra de Emmanuel Candès , onde ele introduziu o paradigma do Big Data como

Coletar dados primeiro Faça perguntas depois

Essa é a principal diferença da pesquisa orientada por hipóteses, onde você formula uma hipótese e depois coleta dados para dizer algo a respeito.

Ele estudou bastante a quantificação da confiabilidade das hipóteses geradas pela espionagem de dados. A principal coisa que tirei de sua palestra foi que realmente precisamos começar a controlar o FDR e ele apresentou o método imitador para fazer isso.

Eu acho que o CV deve ter uma pergunta sobre o que é Big-Data e qual é a sua definição. Eu sinto que existem tantas "definições" diferentes , que é difícil realmente entender o que é, ou explicar para outras pessoas, se não houver um consenso geral sobre o que consiste.

Eu sinto que a "definição / paradigma / descrição" fornecida por Candès é a coisa mais próxima que eu concordo, quais são seus pensamentos?

EDIT2: Eu sinto que a resposta deve fornecer algo mais do que apenas uma explicação dos dados em si. Deve ser uma combinação de dados / métodos / paradigma.

EDIT3: Eu sinto que esta entrevista com Michael Jordan também poderia adicionar algo à mesa.

EDIT4: Decidi escolher a resposta mais votada como a correta. Embora eu ache que todas as respostas acrescentem algo à discussão e, pessoalmente, sinto que isso é mais uma questão de paradigma de como geramos hipóteses e trabalhamos com dados. Espero que essa pergunta sirva como um conjunto de referências para quem procura o que é Big-Data. Espero que a página da Wikipedia seja alterada para enfatizar ainda mais o problema de comparação múltipla e o controle do FDR.

Gumeo
fonte
55
"O big data é como o sexo adolescente: todo mundo fala sobre isso, ninguém realmente sabe como fazê-lo, todo mundo pensa que todo mundo está fazendo, então todo mundo afirma que está fazendo." Simon Matthews #
Alexander Lutsenko #
4
esta citação não é mais válida. As pessoas estão fazendo muitos trabalhos extraordinários recentemente. Se você olhar para as competições no Kaggle, as empresas estão melhorando seus negócios e estão ganhando muito dinheiro gastando pouco dinheiro. Outros exemplos para as aplicações de Big Data podem ser encontrados aqui: linkedin.com/pulse/…
Metariat
5
@XuanQuangDO, eu concordo. Não leve a sério essa citação.
Alexander Lutsenko
6
@XuanQuangDO: bem, eu tenho certeza que alguns adolescentes estão fazendo sexo extraordinário, mas isso não muda o fato de que também existem muitos problemas incompetentes ou equivocados, que as pessoas vão zombar sem piedade ;-)
Steve Jessop,

Respostas:

54

Tive o prazer de assistir a uma palestra proferida pelo Dr. Hadley Wickham, da fama do RStudio. Ele o definiu de tal maneira que

  • Big Data: Não cabe na memória de um computador:> 1 TB
  • Dados médios: cabe na memória de um servidor: 10 GB - 1 TB
  • Dados pequenos: cabe na memória de um laptop: <10 GB

Hadley também acredita que a maioria dos dados pode pelo menos ser reduzida a problemas gerenciáveis ​​e que uma quantidade muito pequena é realmente um grande volume de dados. Ele denota isso como o "Big Data Mirage".

  • 90% Pode ser reduzido a um problema de dados pequeno / médio com subconjunto / amostragem / resumo
  • 9% Pode ser reduzido a um número muito grande de pequenos problemas de dados
  • 1% é irredutivelmente grande

Slides podem ser encontrados aqui .

Chris C
fonte
2
@ GuðmundurEinarsson, acabei de editá-lo, obrigado pela sugestão.
Chris C
5
Embora eu não ache que haja limites claros, acho que este post é muito esclarecedor. Quando eu trabalhava em uma empresa de SW, eu interagi com alguns clientes que procuravam " soluções de big data "; na realidade, eles perderam um SODIMM de 16 GB.
usεr11852 diz Reinstate Monic
2
Atualmente, com SSDs de 1 TB, o armazenamento não volátil não está muito longe do armazenamento volátil em velocidade. Sinto que esperaria que o big data fosse maior que 1 TB, talvez pelo menos 50 TB ou algo assim.
Mehrdad
3
No que diz respeito a você e Hadley, os dados dos lances não se referem apenas ao volume. Geralmente, os dados de lances são definidos por meio de 3V e, mais recentemente, do modelo de 4V (proposto pelo Gartner) - veja a resposta de Dawny33 abaixo. No entanto, alguns especialistas (incluindo o Gartner) consideram outra e argumentam a dimensão V mais importante, em que V representa valor comercial . Por exemplo, consulte esta publicação e esta publicação .
Aleksandr Blekh
2
@AleksandrBlekh Seu comentário contém uma discussão sutil da controvérsia em torno dos critérios para "Big Data" entre especialistas e algumas referências para apoiar suas alegações sobre isso. Eu acho que você deve considerar convertê-lo em uma resposta.
Silverfish
19

Um conjunto de dados / fluxo é chamado Big Data, se satisfizer todos os quatro Vs

  • Volume
  • Velocidade
  • Veracidade
  • Variedade

A menos que e até que não seja satisfeito, o conjunto de dados não pode ser denominado como Big Data.

Uma resposta minha, para referência.


Dito isto, como cientista de dados; Acho a estrutura do Map-Reduce muito legal. A divisão dos dados, o mapeamento e os resultados da etapa do mapeador são reduzidos em um único resultado. Acho essa estrutura realmente fascinante e como ela beneficiou o mundo dos dados.

E estas são algumas maneiras de lidar com o problema de dados durante o meu trabalho todos os dias:

  1. Bancos de dados colunares: estes são um benefício para os cientistas de dados. Eu uso o Aws Red Shift como meu armazenamento de dados colunar. Ajuda na execução de consultas SQL complexas e se une menos à dor. Acho isso muito bom, especialmente quando minha equipe de crescimento faz algumas perguntas realmente complexas e não preciso dizer "Sim, executou uma consulta; receberíamos em um dia!"
  2. O Spark e o Map Reduce Framework: os motivos foram explicados acima.

E é assim que um experimento de dados é realizado:

  • O problema a ser respondido é identificado
  • As possíveis fontes de dados agora estão listadas.
  • Os pipelines são projetados para colocar os dados no Redshift a partir de bancos de dados locais. Sim, o Spark vem aqui. É realmente útil durante a movimentação de dados do DB -> S3 -> Redshift.
  • Em seguida, as consultas e análises SQL são feitas nos dados no Redshift.

Sim, existem algoritmos de Big Data como hiper loglog, etc; mas não encontrei a necessidade de usá-los.

Então sim. Os dados são coletados primeiro antes de gerar a hipótese.

Dawny33
fonte
5
Eu concordo com essas coisas, mas acho que o termo Big Data abrange algo mais do que os próprios dados. São também os métodos aplicados a ele e o paradigma de coletar os dados antes de gerar hipóteses sobre ele.
Gumeo 18/09/2015
1
@ GuðmundurEinarsson Eu estava com pressa, então queria lhe dar a melhor resposta em um curto espaço de tempo. Então, eu o editei e ampliei com o fluxo de trabalho e os entendimentos de minhas experiências diárias com grandes dados no setor.
precisa saber é o seguinte
1
Os quatro Vs estão sendo invertidos aqui como definindo big data, em vez de serem importantes propriedades notáveis ​​do big data. Muitos exemplos podem ser feitos de big data sem vários desses 4 e alguns estão listados no infográfico da IBM.
John
@ John Sim, os Vs estão realmente mudando bastante. Há também um argumento para uma nova V ( Valor )
Dawny33
1
Não estou dizendo que eles estão mudando, estou dizendo que você está revertendo uma descrição de algumas propriedades em uma definição incorretamente. É como se alguém descrevesse coisas importantes para ele sobre um cão como lealdade, risos e lambidas e alguém aparecendo dizendo que essa é a definição de cachorro. Dito isso, acho que você estava mais no caminho certo, considerando reverter a direção da análise, mas ela só precisa ser anexada ao tamanho dos dados. Eu acho que existem muitas maneiras boas de fazer isso e seria ótimo se você desenvolvesse uma.
John
14

Penso que a única definição útil de big data são os dados que catalogam todas as informações sobre um fenômeno específico. O que quero dizer com isso é que, em vez de coletar amostras de alguma população de interesse e coletar algumas medidas nessas unidades, o big data coleta medidas de toda a população de interesse. Suponha que você esteja interessado nos clientes da Amazon.com. É perfeitamente viável para a Amazon.com coletar informações sobre todas as compras de seus clientes, em vez de rastrear apenas alguns usuários ou rastrear algumas transações.

A meu ver, as definições que dependem do tamanho da memória dos dados são de utilidade um tanto limitada. Por essa métrica, dado um computador grande o suficiente, nenhum dado é realmente big data. No extremo de um computador infinitamente grande, esse argumento pode parecer redutivo, mas considere o caso de comparar meu laptop de consumo com os servidores do Google. Claramente, eu teria enormes problemas logísticos tentando peneirar um terabyte de dados, mas o Google tem os recursos para gerenciar essa tarefa com bastante facilidade. Mais importante, o tamanho do seu computador não é uma propriedade intrínseca dos dados , portanto, definir os dados apenas com referência a qualquer tecnologia que você tem à mão é como medir a distância em termos do comprimento de seus braços.

Este argumento não é apenas um formalismo. A necessidade de esquemas complicados de paralelização e plataformas de computação distribuída desaparece quando você tem poder de computação suficiente. Portanto, se aceitarmos a definição de que o Big Data é muito grande para caber na RAM (ou trava o Excel, ou o que for), depois que atualizamos nossas máquinas, o Big Data deixa de existir. Isso parece bobagem.

Mas vamos dar uma olhada em alguns dados sobre big data, e chamarei isso de "Big Metadata". Esta postagem no blog observa uma tendência importante: a RAM disponível está aumentando mais rapidamente do que o tamanho dos dados e afirma provocativamente que "a Big RAM está consumindo Big Data" - ou seja, com infraestrutura suficiente, você não tem mais um problema de big data, apenas possui dados e você volta ao domínio dos métodos de análise convencionais.

Além disso, diferentes métodos de representação terão tamanhos diferentes, portanto, não está claro o que significa ter "big data" definido em referência ao seu tamanho na memória. Se seus dados forem construídos de tal maneira que muitas informações redundantes sejam armazenadas (ou seja, você escolhe uma codificação ineficiente), você poderá facilmente ultrapassar o limite do que seu computador pode manipular prontamente. Mas por que você deseja uma definição para ter essa propriedade? Na minha opinião, se o conjunto de dados é ou não "big data" não deve depender de você ter ou não feito escolhas eficientes no design da pesquisa.

Do ponto de vista de um profissional, o big data como eu o defino também traz consigo requisitos computacionais, mas esses requisitos são específicos de aplicativos. Pensar no design do banco de dados (software, hardware, organização) para observações é muito diferente do que para10 7104107observações, e isso está perfeitamente bem. Isso também implica que o big data, como eu o defino, pode não precisar de tecnologia especializada além do que desenvolvemos na estatística clássica: amostras e intervalos de confiança ainda são ferramentas inferenciais perfeitamente úteis e válidas quando você precisa extrapolar. Modelos lineares podem fornecer respostas perfeitamente aceitáveis ​​para algumas perguntas. Mas o big data, como eu o defino, pode exigir uma nova tecnologia. Talvez você precise classificar novos dados em uma situação em que você tenha mais preditores do que dados de treinamento ou em que seus preditores aumentem com o tamanho dos dados. Esses problemas exigirão novas tecnologias.


Como um aparte, acho que essa pergunta é importante porque aborda implicitamente por que as definições são importantes - ou seja, para quem você está definindo o tópico. Uma discussão sobre adição para alunos da primeira série não começa com a teoria dos conjuntos, mas com referência à contagem de objetos físicos. Minha experiência é que a maior parte do uso do termo "big data" ocorre na imprensa popular ou nas comunicações entre pessoas que não são especialistas em estatística ou aprendizado de máquina (materiais de marketing que solicitam análises profissionais, por exemplo) e é usado para expressam a idéia de que as práticas modernas de computação significam que existe uma riqueza de informações disponíveis que podem ser exploradas. Isso quase sempre ocorre no contexto dos dados que revelam informações sobre os consumidores que são, talvez se não privadas, não imediatamente óbvias.

Portanto, a conotação e a análise em torno do uso comum de "big data" também traz consigo a idéia de que os dados podem revelar detalhes obscuros, ocultos ou até particulares da vida de uma pessoa, desde que seja aplicado um método inferencial suficiente. Quando a mídia informa sobre big data, essa deterioração do anonimato geralmente é o que eles estão provocando - definir o que é "big data" parece um pouco equivocado a esse respeito, porque a imprensa popular e os não especialistas não se preocupam com os méritos do acaso. florestas e máquinas de vetores de suporte e assim por diante, nem percebem os desafios da análise de dados em diferentes escalas. E isso é bom.A preocupação de sua perspectiva está centrada nas consequências sociais, políticas e jurídicas da era da informação. Uma definição precisa para a mídia ou não especialistas não é realmente útil, porque a compreensão deles também não é precisa. (Não me pense convencido - estou simplesmente observando que nem todos podem ser especialistas em tudo.)

Restabelecer Monica
fonte
7
Este. "Foi minha experiência que a maior parte do uso do termo 'big data' ocorre na imprensa popular ou nas comunicações entre pessoas que não são especialistas em estatística ou aprendizado de máquina (materiais de marketing que solicitam análises profissionais, por exemplo)"
Momo
2
Eu acho que você acertou na cabeça com seu último parágrafo. Penso que existe uma lacuna muito clara entre o entendimento da imprensa popular e o que as pessoas em estatística / ML / ciência de dados pensam do termo big data. Eu apenas sinto que precisa haver um consenso mais claro sobre o que realmente é. Uma razão para isso é ter uma referência de tal forma que as pessoas não possam manipular o termo ou usar indevidamente quando obviamente não é aplicável.
Gumeo 18/09/2015
1
Acho que estou começando a concordar com você cada vez mais. Eu ainda sinto que o CV precisa de uma pergunta de referência, onde as pessoas interessadas e no assunto colocam seus dois centavos no assunto. Eu estava procurando perguntas aqui e senti que essa discussão estava faltando.
Gumeo 18/09/2015
1
Acho que essa é uma conversa valiosa, e fico feliz que você tenha feito a pergunta! E fico feliz que você tenha achado meus comentários úteis.
Restabeleça Monica
1
Eu amo essa resposta por várias razões. Primeiro, acho que é realmente importante enfatizar que o "big data" tem pouco a ver com os algoritmos usados ​​para analisá-lo. A maioria deles tem entre 20 e 30 anos (floresta aleatória, regressão linear, etc.) e funciona bem. Algumas pessoas na indústria acreditam que o "big data" vem junto com novos algoritmos sofisticados, porque provavelmente nem sabiam que o aprendizado de máquina existe há muitos anos. Segundo, "big data" não é sobre tamanho. Se você tem um servidor disponível com 128 Gb de RAM e pode caber tudo na memória, o que é ótimo. (continuação)
skd 25/09
7

insira a descrição da imagem aqui

Cruzando a enorme literatura sobre Big Data, coletei até 14 termos "V", 13 deles em cerca de 11 dimensões:

  • Validade,
  • Valor,
  • Variabilidade / variância,
  • Variedade,
  • Velocidade,
  • Veracidade / Veracidade,
  • Viabilidade,
  • Virtualidade,
  • Visualização,
  • Volatilidade,
  • Volume.

O 14º termo é Vacuidade. De acordo com um post provocativo recente, o Big Data não existe . Seus principais pontos são os seguintes:

  • “Big Data” não é grande
  • A maioria dos "big data" não é realmente útil
  • [Deveríamos estar] Aproveitando ao máximo os pequenos dados

Uma definição adequada de Big Data evoluiria com hardware, software, necessidades e conhecimentos e provavelmente não deve depender de um tamanho fixo. Portanto, a definição de Big Data: a próxima fronteira para inovação, competição e produtividade , junho de 2011:

"Big data" refere-se a conjuntos de dados cujo tamanho está além da capacidade das ferramentas típicas de software de banco de dados de capturar, armazenar, gerenciar e analisar.

Laurent Duval
fonte
1
O artigo referenciado "vacuidade" parece muito fraco. Há uma implicação de que 30 GB de dados / dia não são grandes (e esse tamanho é o único componente da definição). Além disso, argumenta-se que, porque as empresas dizem que seus dados são muito maiores do que realmente são, significa que não são grandes. Não há definição de grande dado em qualquer lugar. E todos os exemplos usados ​​para sugerir "não grande" têm muitos dos V listados aqui.
John
A "vacuidade" não se aplica apenas ao tamanho. De fato, na frase final final, a definição de grande deve evoluir com o estado atual da prática. O que era grande no passado pode ser considerado pequeno alguns anos depois. Aqui, eu estava usando o termo para o caso em que "big data" é usado como um mantra mágico com pouca substância, conforme ilustrado no desenho acima.
Laurent Duval
1
Qual a probabilidade de 14 critérios começarem com a letra V? Somos todos pessoas que pensam em estatísticas aqui, vamos lá!
Aksakal
Basicamente, eu concordo, isso foi apenas para mostrar que é mais provável que um termo como Big Data pertença ao domínio do marketing do que às estatísticas. No entanto, eu queria compartilhar minha "coleção" dos termos que li. Começou com 3V, 5V e, às vezes, 7 etc. Esse termo pode ajudar vagamente a identificar traços nos dados que você possui
Laurent Duval
4

As pessoas parecem se fixar em um grande qualificador no Big Data. No entanto, o tamanho é apenas um dos componentes deste termo (domínio). Não basta que seu conjunto de dados seja grande para chamar seu problema (domínio) de grande volume de dados, você também precisa ser difícil de entender, analisar e até processar. Alguns chamam esse recurso de desestruturado , mas não é apenas a estrutura, mas também a relação pouco clara entre diferentes partes e elementos dos dados.

Considere os conjuntos de dados que os físicos de alta energia estão trabalhando em locais como o CERN . Eles trabalham com dados de tamanho de petabytes há anos antes de o termo Big Data ser cunhado. No entanto, mesmo agora, eles não chamam esse big data até onde eu sei. Por quê? Como os dados são bastante regulares, eles sabem o que fazer com eles. Eles podem não ser capazes de explicar todas as observações ainda, então trabalham em novos modelos etc.

Agora chamamos Big Data de problemas que lidam com conjuntos de dados que possuem tamanhos que podem ser gerados em alguns segundos a partir do LHC no CERN. O motivo é que esses conjuntos de dados geralmente são de elementos de dados provenientes de várias fontes com diferentes formatos, relacionamentos pouco claros entre os dados e valor incerto para os negócios. Pode ter apenas 1 TB, mas é muito difícil processar todo o áudio, vídeo, textos, fala etc. Portanto, em termos de complexidade e recursos necessários, isso supera os petabytes dos dados do CERN. Nem sabemos se há informações úteis discerníveis em nossos conjuntos de dados.

Portanto, a solução de problemas de Big Data envolve analisar, extrair elementos de dados de valor desconhecido e vinculá-los um ao outro. "Analisar" uma imagem pode ser um grande problema por si só. Digamos, você está procurando imagens de CFTV nas ruas da cidade, tentando ver se as pessoas estão ficando mais irritadas e se isso afeta os acidentes de trânsito que envolvem pedestres. Há uma tonelada de vídeo, você encontra os rostos, tenta avaliar o humor deles através de expressões e, em seguida, vincula-o ao número de conjuntos de dados de acidentes, relatórios policiais etc., enquanto controla o clima (precitipotação, temperatura) e congestionamentos de tráfego. Você precisa das ferramentas de armazenamento e analíticas que suportam esses grandes conjuntos de dados de diferentes tipos e pode vincular os dados com eficiência entre si.

O Big Data é um problema de análise complexo, em que a complexidade decorre do tamanho e da complexidade da codificação da estrutura e das informações nele.

Aksakal
fonte
Boa entrada. O contraste que você dá entre o problema de dados do LHC e do CCTV é algo que as pessoas geralmente sentem falta.
Gumeo
3

Acho que a razão pela qual as pessoas ficam confusas com o que é Big Data é que elas não vêem seus benefícios. O valor do Big Data (técnica) não está apenas na quantidade de dados que você pode coletar, mas também na Modelagem Preditiva, que é eventualmente mais importante:

  1. A Modelagem Preditiva mudou completamente a maneira como fazemos estatísticas e previsões, nos fornece uma visão mais ampla dos nossos dados, porque novos modelos, novas técnicas podem detectar melhor as tendências, os ruídos dos dados, podem capturar o banco de dados "multidimensional". Quanto mais dimensões tivermos em nosso banco de dados, maior a chance de criarmos o bom modelo. A modelagem preditiva é o coração do valor do Big Data.
  2. O Big Data (em termos de tamanho dos dados) é a etapa preliminar e serve para servir a Modelagem Preditiva: enriquecendo o banco de dados com relação ao: 1.número de preditores (mais variáveis), 2.número de observações.

Mais preditores, porque agora somos capazes de capturar os dados que eram impossíveis de capturar antes (devido ao poder limitado do hardware, capacidade limitada de trabalhar com os dados não estruturados). Mais preditores significam mais chances de ter preditores significativos, ou seja, melhor modelo, melhor previsão, melhor decisão pode ser tomada para os negócios.

Mais observações não apenas tornam o modelo mais robusto ao longo do tempo, mas também ajudam o modelo a aprender / detectar todos os padrões possíveis que podem ser apresentados / gerados na realidade.

Metariat
fonte
3

A coisa complicada sobre Big Data x seu antônimo (presumivelmente Small Data?) É que é um continuum. As pessoas de grande volume de dados foram para um lado do espectro, as pequenas pessoas de dados foram para o outro, mas não há uma linha clara na areia com a qual todos possam concordar.

Eu examinaria as diferenças comportamentais entre os dois. Em situações de dados pequenos, você tem um conjunto de dados "pequeno" e procura extrair o máximo de informações possível de todos os pontos de dados que puder. Obtenha mais dados, você pode obter mais resultados. No entanto, obter mais dados pode ser caro. Os dados coletados geralmente são restritos a se encaixar em modelos matemáticos, como fazer um fatorial parcial de testes para rastrear comportamentos interessantes.

Em situações de big data, você tem um conjunto de dados "grande", mas seu conjunto de dados tende a não ser tão restrito. Você geralmente não consegue convencer seus clientes a comprar um quadrado latino de móveis, apenas para facilitar a análise. Em vez disso, você tende a ter montes e montes de dados mal estruturados. Para resolver esses problemas, o objetivo tende a não ser "selecionar os melhores dados e extrair tudo o que puder", como se alguém tentasse ingenuamente se estivesse acostumado a pequenos dados. O objetivo tende a ser mais parecido com "se você puder obter um pouquinho de cada ponto de dados, a soma será enorme e profunda".

Entre eles, estão os conjuntos de dados de tamanho médio, com estrutura adequada. Esses são os "problemas realmente difíceis", então, no momento, tendemos a nos organizar em dois campos: um com pequenos dados espremendo cada último pedaço dele e outro com grandes dados tentando gerenciar para que cada ponto de dados brilhe por si próprio direito. À medida que avançamos, espero ver mais processos de dados pequenos tentando se adaptar a conjuntos de dados maiores, e mais processos de dados grandes tentando se adaptar para alavancar dados mais estruturados.

Cort Ammon
fonte
Sua caracterização de pequenos dados soa muito como o livro de análise de Bem. Procure críticas disso porque é uma maneira inadequada de tratar conjuntos de dados pequenos que não sejam a exploração privada na qual basear a coleta futura de dados.
John
@ John Eu posso ter que olhar para aqueles. As críticas são suficientes para que eu não possa sequer usar a caracterização como um ponto para descrever um continuum?
Cort Ammon
É realmente muito longo para entrar aqui, mas a mensagem essencial é que você não extrai tudo o que pode de cada ponto de dados com pequenos dados. Talvez google Gelman e caminhos de bifurcação; ou graus de liberdade do experimentador. Você precisa pensar de maneira diferente na análise de pequenos e grandes dados, não apenas como pontos em um continuum.
John
3

Eu diria que existem três componentes essenciais na definição de big data: a direção da análise, o tamanho dos dados em relação à população e o tamanho dos dados em relação aos problemas computacionais.

A própria pergunta postula que hipóteses são desenvolvidas depois que os dados existem. Não uso "coletado" porque acho que a palavra "coletado" implica um propósito e os dados geralmente existem para um propósito conhecido no momento. A coleta geralmente ocorre em big data, reunindo dados existentes a serviço de uma pergunta.

Uma segunda parte importante é que não são apenas dados para os quais a análise post hoc, o que se chamaria de análise exploratória com conjuntos de dados menores, é apropriada. Precisa ser de tamanho suficiente para que as estimativas coletadas sejam próximas o suficiente das estimativas da população para que muitos problemas menores de amostra possam ser ignorados. Por causa disso, estou um pouco preocupado com o fato de haver um empurrão agora no campo em direção a várias correções de comparação. Se você teve toda a população ou uma aproximação que você tem boas razões para acreditar que é válida, essas correções devem ser discutidas. Embora eu perceba que, às vezes, surgem problemas que realmente transformam o "big data" em uma pequena amostra (por exemplo, grandes regressões logísticas), que se resume a entender o que é uma amostra grande para uma pergunta específica. Muitas das questões de comparação múltipla devem ser transformadas em questões de tamanho de efeito. E, é claro, toda a ideia de que você usaria testes com alfa = 0,05, como muitos ainda usam com big data, é simplesmente absurda.

E, finalmente, pequenas populações não se qualificam. Em alguns casos, há uma população pequena e é possível coletar todos os dados necessários para examiná-los com muita facilidade e permitir que os dois primeiros critérios sejam atendidos. Os dados precisam ter magnitude suficiente para se tornar um problema computacional. Como tal, em alguns aspectos, devemos admitir que "big data" pode ser uma palavra transitória e talvez um fenômeno perpetuamente em busca de definição estrita. Algumas das coisas que tornam o "big data" grande agora desaparecerão em poucos anos e definições como a de Hadley, baseadas na capacidade do computador, parecerão estranhas. Mas, em outro nível, os problemas computacionais são questões que não são sobre a capacidade do computador ou talvez sobre a capacidade do computador que nunca podem ser abordadas. Eu acho que nesse sentido os problemas de definir "

Pode-se notar que não forneci exemplos ou definições firmes sobre o que é um problema computacional difícil para esse domínio (há muitos exemplos geralmente em comp sci, e alguns aplicáveis, nos quais não vou entrar). Não quero fazer porque acho que terá que permanecer um pouco aberto. Com o tempo, os trabalhos coletados de muitas pessoas se reúnem para facilitar essas coisas, com mais frequência através do desenvolvimento de software que do hardware neste momento. Talvez o campo tenha que amadurecer mais completamente para tornar esse último requisito mais solidamente delimitado, mas as bordas sempre serão confusas.

John
fonte
Obrigado pela sua contribuição! Eu acho que você fornece informações valiosas para esse segmento. Eu acho que o tamanho dos dados da população foi um pouco esquecido aqui.
Gumeo 19/10
1

A Wikipedia fornece uma definição bastante clara

Big data é um termo amplo para conjuntos de dados tão grandes ou complexos que os aplicativos tradicionais de processamento de dados são inadequados. (fonte https://en.wikipedia.org/wiki/Big_data )

outra definição simples que eu sei é

Dados que não cabem na memória do computador.

Infelizmente, não me lembro de referência. Tudo o mais emerge dessas definições - você precisa lidar com grandes quantidades de dados.

Tim
fonte
0

Eu acrescentaria que o Big Data é uma referência para trabalhar em um grande conjunto de dados (milhões e / ou bilhões de linhas) ou tentar encontrar informações / padrões em amplos recursos de dados que você pode coletar agora em qualquer lugar.

Yohan Obadia
fonte