Fui perguntado em várias ocasiões a pergunta:
O que é Big-Data?
Tanto por estudantes quanto por meus parentes que estão começando a se interessar por estatísticas e ML.
Encontrei este CV-post . E sinto que concordo com a única resposta lá.
A página da Wikipedia também tem alguns comentários, mas não tenho certeza se realmente concordo com tudo.
EDIT: (Eu sinto que a página da Wikipedia não explica os métodos para lidar com isso e o paradigma mencionado abaixo) .
Recentemente, participei de uma palestra de Emmanuel Candès , onde ele introduziu o paradigma do Big Data como
Coletar dados primeiro Faça perguntas depois
Essa é a principal diferença da pesquisa orientada por hipóteses, onde você formula uma hipótese e depois coleta dados para dizer algo a respeito.
Ele estudou bastante a quantificação da confiabilidade das hipóteses geradas pela espionagem de dados. A principal coisa que tirei de sua palestra foi que realmente precisamos começar a controlar o FDR e ele apresentou o método imitador para fazer isso.
Eu acho que o CV deve ter uma pergunta sobre o que é Big-Data e qual é a sua definição. Eu sinto que existem tantas "definições" diferentes , que é difícil realmente entender o que é, ou explicar para outras pessoas, se não houver um consenso geral sobre o que consiste.
Eu sinto que a "definição / paradigma / descrição" fornecida por Candès é a coisa mais próxima que eu concordo, quais são seus pensamentos?
EDIT2: Eu sinto que a resposta deve fornecer algo mais do que apenas uma explicação dos dados em si. Deve ser uma combinação de dados / métodos / paradigma.
EDIT3: Eu sinto que esta entrevista com Michael Jordan também poderia adicionar algo à mesa.
EDIT4: Decidi escolher a resposta mais votada como a correta. Embora eu ache que todas as respostas acrescentem algo à discussão e, pessoalmente, sinto que isso é mais uma questão de paradigma de como geramos hipóteses e trabalhamos com dados. Espero que essa pergunta sirva como um conjunto de referências para quem procura o que é Big-Data. Espero que a página da Wikipedia seja alterada para enfatizar ainda mais o problema de comparação múltipla e o controle do FDR.
fonte
Respostas:
Tive o prazer de assistir a uma palestra proferida pelo Dr. Hadley Wickham, da fama do RStudio. Ele o definiu de tal maneira que
Hadley também acredita que a maioria dos dados pode pelo menos ser reduzida a problemas gerenciáveis e que uma quantidade muito pequena é realmente um grande volume de dados. Ele denota isso como o "Big Data Mirage".
Slides podem ser encontrados aqui .
fonte
Um conjunto de dados / fluxo é chamado Big Data, se satisfizer todos os quatro Vs
A menos que e até que não seja satisfeito, o conjunto de dados não pode ser denominado como Big Data.
Uma resposta minha, para referência.
Dito isto, como cientista de dados; Acho a estrutura do Map-Reduce muito legal. A divisão dos dados, o mapeamento e os resultados da etapa do mapeador são reduzidos em um único resultado. Acho essa estrutura realmente fascinante e como ela beneficiou o mundo dos dados.
E estas são algumas maneiras de lidar com o problema de dados durante o meu trabalho todos os dias:
E é assim que um experimento de dados é realizado:
Sim, existem algoritmos de Big Data como hiper loglog, etc; mas não encontrei a necessidade de usá-los.
Então sim. Os dados são coletados primeiro antes de gerar a hipótese.
fonte
Penso que a única definição útil de big data são os dados que catalogam todas as informações sobre um fenômeno específico. O que quero dizer com isso é que, em vez de coletar amostras de alguma população de interesse e coletar algumas medidas nessas unidades, o big data coleta medidas de toda a população de interesse. Suponha que você esteja interessado nos clientes da Amazon.com. É perfeitamente viável para a Amazon.com coletar informações sobre todas as compras de seus clientes, em vez de rastrear apenas alguns usuários ou rastrear algumas transações.
A meu ver, as definições que dependem do tamanho da memória dos dados são de utilidade um tanto limitada. Por essa métrica, dado um computador grande o suficiente, nenhum dado é realmente big data. No extremo de um computador infinitamente grande, esse argumento pode parecer redutivo, mas considere o caso de comparar meu laptop de consumo com os servidores do Google. Claramente, eu teria enormes problemas logísticos tentando peneirar um terabyte de dados, mas o Google tem os recursos para gerenciar essa tarefa com bastante facilidade. Mais importante, o tamanho do seu computador não é uma propriedade intrínseca dos dados , portanto, definir os dados apenas com referência a qualquer tecnologia que você tem à mão é como medir a distância em termos do comprimento de seus braços.
Este argumento não é apenas um formalismo. A necessidade de esquemas complicados de paralelização e plataformas de computação distribuída desaparece quando você tem poder de computação suficiente. Portanto, se aceitarmos a definição de que o Big Data é muito grande para caber na RAM (ou trava o Excel, ou o que for), depois que atualizamos nossas máquinas, o Big Data deixa de existir. Isso parece bobagem.
Mas vamos dar uma olhada em alguns dados sobre big data, e chamarei isso de "Big Metadata". Esta postagem no blog observa uma tendência importante: a RAM disponível está aumentando mais rapidamente do que o tamanho dos dados e afirma provocativamente que "a Big RAM está consumindo Big Data" - ou seja, com infraestrutura suficiente, você não tem mais um problema de big data, apenas possui dados e você volta ao domínio dos métodos de análise convencionais.
Além disso, diferentes métodos de representação terão tamanhos diferentes, portanto, não está claro o que significa ter "big data" definido em referência ao seu tamanho na memória. Se seus dados forem construídos de tal maneira que muitas informações redundantes sejam armazenadas (ou seja, você escolhe uma codificação ineficiente), você poderá facilmente ultrapassar o limite do que seu computador pode manipular prontamente. Mas por que você deseja uma definição para ter essa propriedade? Na minha opinião, se o conjunto de dados é ou não "big data" não deve depender de você ter ou não feito escolhas eficientes no design da pesquisa.
Do ponto de vista de um profissional, o big data como eu o defino também traz consigo requisitos computacionais, mas esses requisitos são específicos de aplicativos. Pensar no design do banco de dados (software, hardware, organização) para observações é muito diferente do que para10 7104 107 observações, e isso está perfeitamente bem. Isso também implica que o big data, como eu o defino, pode não precisar de tecnologia especializada além do que desenvolvemos na estatística clássica: amostras e intervalos de confiança ainda são ferramentas inferenciais perfeitamente úteis e válidas quando você precisa extrapolar. Modelos lineares podem fornecer respostas perfeitamente aceitáveis para algumas perguntas. Mas o big data, como eu o defino, pode exigir uma nova tecnologia. Talvez você precise classificar novos dados em uma situação em que você tenha mais preditores do que dados de treinamento ou em que seus preditores aumentem com o tamanho dos dados. Esses problemas exigirão novas tecnologias.
Como um aparte, acho que essa pergunta é importante porque aborda implicitamente por que as definições são importantes - ou seja, para quem você está definindo o tópico. Uma discussão sobre adição para alunos da primeira série não começa com a teoria dos conjuntos, mas com referência à contagem de objetos físicos. Minha experiência é que a maior parte do uso do termo "big data" ocorre na imprensa popular ou nas comunicações entre pessoas que não são especialistas em estatística ou aprendizado de máquina (materiais de marketing que solicitam análises profissionais, por exemplo) e é usado para expressam a idéia de que as práticas modernas de computação significam que existe uma riqueza de informações disponíveis que podem ser exploradas. Isso quase sempre ocorre no contexto dos dados que revelam informações sobre os consumidores que são, talvez se não privadas, não imediatamente óbvias.
Portanto, a conotação e a análise em torno do uso comum de "big data" também traz consigo a idéia de que os dados podem revelar detalhes obscuros, ocultos ou até particulares da vida de uma pessoa, desde que seja aplicado um método inferencial suficiente. Quando a mídia informa sobre big data, essa deterioração do anonimato geralmente é o que eles estão provocando - definir o que é "big data" parece um pouco equivocado a esse respeito, porque a imprensa popular e os não especialistas não se preocupam com os méritos do acaso. florestas e máquinas de vetores de suporte e assim por diante, nem percebem os desafios da análise de dados em diferentes escalas. E isso é bom.A preocupação de sua perspectiva está centrada nas consequências sociais, políticas e jurídicas da era da informação. Uma definição precisa para a mídia ou não especialistas não é realmente útil, porque a compreensão deles também não é precisa. (Não me pense convencido - estou simplesmente observando que nem todos podem ser especialistas em tudo.)
fonte
Cruzando a enorme literatura sobre Big Data, coletei até 14 termos "V", 13 deles em cerca de 11 dimensões:
O 14º termo é Vacuidade. De acordo com um post provocativo recente, o Big Data não existe . Seus principais pontos são os seguintes:
Uma definição adequada de Big Data evoluiria com hardware, software, necessidades e conhecimentos e provavelmente não deve depender de um tamanho fixo. Portanto, a definição de Big Data: a próxima fronteira para inovação, competição e produtividade , junho de 2011:
fonte
As pessoas parecem se fixar em um grande qualificador no Big Data. No entanto, o tamanho é apenas um dos componentes deste termo (domínio). Não basta que seu conjunto de dados seja grande para chamar seu problema (domínio) de grande volume de dados, você também precisa ser difícil de entender, analisar e até processar. Alguns chamam esse recurso de desestruturado , mas não é apenas a estrutura, mas também a relação pouco clara entre diferentes partes e elementos dos dados.
Considere os conjuntos de dados que os físicos de alta energia estão trabalhando em locais como o CERN . Eles trabalham com dados de tamanho de petabytes há anos antes de o termo Big Data ser cunhado. No entanto, mesmo agora, eles não chamam esse big data até onde eu sei. Por quê? Como os dados são bastante regulares, eles sabem o que fazer com eles. Eles podem não ser capazes de explicar todas as observações ainda, então trabalham em novos modelos etc.
Agora chamamos Big Data de problemas que lidam com conjuntos de dados que possuem tamanhos que podem ser gerados em alguns segundos a partir do LHC no CERN. O motivo é que esses conjuntos de dados geralmente são de elementos de dados provenientes de várias fontes com diferentes formatos, relacionamentos pouco claros entre os dados e valor incerto para os negócios. Pode ter apenas 1 TB, mas é muito difícil processar todo o áudio, vídeo, textos, fala etc. Portanto, em termos de complexidade e recursos necessários, isso supera os petabytes dos dados do CERN. Nem sabemos se há informações úteis discerníveis em nossos conjuntos de dados.
Portanto, a solução de problemas de Big Data envolve analisar, extrair elementos de dados de valor desconhecido e vinculá-los um ao outro. "Analisar" uma imagem pode ser um grande problema por si só. Digamos, você está procurando imagens de CFTV nas ruas da cidade, tentando ver se as pessoas estão ficando mais irritadas e se isso afeta os acidentes de trânsito que envolvem pedestres. Há uma tonelada de vídeo, você encontra os rostos, tenta avaliar o humor deles através de expressões e, em seguida, vincula-o ao número de conjuntos de dados de acidentes, relatórios policiais etc., enquanto controla o clima (precitipotação, temperatura) e congestionamentos de tráfego. Você precisa das ferramentas de armazenamento e analíticas que suportam esses grandes conjuntos de dados de diferentes tipos e pode vincular os dados com eficiência entre si.
O Big Data é um problema de análise complexo, em que a complexidade decorre do tamanho e da complexidade da codificação da estrutura e das informações nele.
fonte
Acho que a razão pela qual as pessoas ficam confusas com o que é Big Data é que elas não vêem seus benefícios. O valor do Big Data (técnica) não está apenas na quantidade de dados que você pode coletar, mas também na Modelagem Preditiva, que é eventualmente mais importante:
Mais preditores, porque agora somos capazes de capturar os dados que eram impossíveis de capturar antes (devido ao poder limitado do hardware, capacidade limitada de trabalhar com os dados não estruturados). Mais preditores significam mais chances de ter preditores significativos, ou seja, melhor modelo, melhor previsão, melhor decisão pode ser tomada para os negócios.
Mais observações não apenas tornam o modelo mais robusto ao longo do tempo, mas também ajudam o modelo a aprender / detectar todos os padrões possíveis que podem ser apresentados / gerados na realidade.
fonte
A coisa complicada sobre Big Data x seu antônimo (presumivelmente Small Data?) É que é um continuum. As pessoas de grande volume de dados foram para um lado do espectro, as pequenas pessoas de dados foram para o outro, mas não há uma linha clara na areia com a qual todos possam concordar.
Eu examinaria as diferenças comportamentais entre os dois. Em situações de dados pequenos, você tem um conjunto de dados "pequeno" e procura extrair o máximo de informações possível de todos os pontos de dados que puder. Obtenha mais dados, você pode obter mais resultados. No entanto, obter mais dados pode ser caro. Os dados coletados geralmente são restritos a se encaixar em modelos matemáticos, como fazer um fatorial parcial de testes para rastrear comportamentos interessantes.
Em situações de big data, você tem um conjunto de dados "grande", mas seu conjunto de dados tende a não ser tão restrito. Você geralmente não consegue convencer seus clientes a comprar um quadrado latino de móveis, apenas para facilitar a análise. Em vez disso, você tende a ter montes e montes de dados mal estruturados. Para resolver esses problemas, o objetivo tende a não ser "selecionar os melhores dados e extrair tudo o que puder", como se alguém tentasse ingenuamente se estivesse acostumado a pequenos dados. O objetivo tende a ser mais parecido com "se você puder obter um pouquinho de cada ponto de dados, a soma será enorme e profunda".
Entre eles, estão os conjuntos de dados de tamanho médio, com estrutura adequada. Esses são os "problemas realmente difíceis", então, no momento, tendemos a nos organizar em dois campos: um com pequenos dados espremendo cada último pedaço dele e outro com grandes dados tentando gerenciar para que cada ponto de dados brilhe por si próprio direito. À medida que avançamos, espero ver mais processos de dados pequenos tentando se adaptar a conjuntos de dados maiores, e mais processos de dados grandes tentando se adaptar para alavancar dados mais estruturados.
fonte
Eu diria que existem três componentes essenciais na definição de big data: a direção da análise, o tamanho dos dados em relação à população e o tamanho dos dados em relação aos problemas computacionais.
A própria pergunta postula que hipóteses são desenvolvidas depois que os dados existem. Não uso "coletado" porque acho que a palavra "coletado" implica um propósito e os dados geralmente existem para um propósito conhecido no momento. A coleta geralmente ocorre em big data, reunindo dados existentes a serviço de uma pergunta.
Uma segunda parte importante é que não são apenas dados para os quais a análise post hoc, o que se chamaria de análise exploratória com conjuntos de dados menores, é apropriada. Precisa ser de tamanho suficiente para que as estimativas coletadas sejam próximas o suficiente das estimativas da população para que muitos problemas menores de amostra possam ser ignorados. Por causa disso, estou um pouco preocupado com o fato de haver um empurrão agora no campo em direção a várias correções de comparação. Se você teve toda a população ou uma aproximação que você tem boas razões para acreditar que é válida, essas correções devem ser discutidas. Embora eu perceba que, às vezes, surgem problemas que realmente transformam o "big data" em uma pequena amostra (por exemplo, grandes regressões logísticas), que se resume a entender o que é uma amostra grande para uma pergunta específica. Muitas das questões de comparação múltipla devem ser transformadas em questões de tamanho de efeito. E, é claro, toda a ideia de que você usaria testes com alfa = 0,05, como muitos ainda usam com big data, é simplesmente absurda.
E, finalmente, pequenas populações não se qualificam. Em alguns casos, há uma população pequena e é possível coletar todos os dados necessários para examiná-los com muita facilidade e permitir que os dois primeiros critérios sejam atendidos. Os dados precisam ter magnitude suficiente para se tornar um problema computacional. Como tal, em alguns aspectos, devemos admitir que "big data" pode ser uma palavra transitória e talvez um fenômeno perpetuamente em busca de definição estrita. Algumas das coisas que tornam o "big data" grande agora desaparecerão em poucos anos e definições como a de Hadley, baseadas na capacidade do computador, parecerão estranhas. Mas, em outro nível, os problemas computacionais são questões que não são sobre a capacidade do computador ou talvez sobre a capacidade do computador que nunca podem ser abordadas. Eu acho que nesse sentido os problemas de definir "
Pode-se notar que não forneci exemplos ou definições firmes sobre o que é um problema computacional difícil para esse domínio (há muitos exemplos geralmente em comp sci, e alguns aplicáveis, nos quais não vou entrar). Não quero fazer porque acho que terá que permanecer um pouco aberto. Com o tempo, os trabalhos coletados de muitas pessoas se reúnem para facilitar essas coisas, com mais frequência através do desenvolvimento de software que do hardware neste momento. Talvez o campo tenha que amadurecer mais completamente para tornar esse último requisito mais solidamente delimitado, mas as bordas sempre serão confusas.
fonte
A Wikipedia fornece uma definição bastante clara
outra definição simples que eu sei é
Infelizmente, não me lembro de referência. Tudo o mais emerge dessas definições - você precisa lidar com grandes quantidades de dados.
fonte
Eu acrescentaria que o Big Data é uma referência para trabalhar em um grande conjunto de dados (milhões e / ou bilhões de linhas) ou tentar encontrar informações / padrões em amplos recursos de dados que você pode coletar agora em qualquer lugar.
fonte