Perguntas com a marcação «hadoop»

Hadoop é um projeto de código aberto Apache que fornece software para computação distribuída confiável e escalonável. O núcleo consiste em um sistema de arquivos distribuído (HDFS) e um gerenciador de recursos (YARN). Vários outros projetos de código aberto, como o Apache Hive, usam o Apache Hadoop como camada de persistência.

185
Quando usar o Hadoop, HBase, Hive e Pig?

Quais são os benefícios de usar um ou outro Hadoop ou HBase ou Hive ? Pelo que entendi, o HBase evita o uso de redução de mapa e possui um armazenamento orientado a colunas sobre o HDFS. O Hive é uma interface do tipo sql para o Hadoop e o HBase . Também gostaria de saber como o Hive se compara...

144
Como desativar o registro INFO no Spark?

Instalei o Spark usando o guia da AWS EC2 e posso iniciar o programa com bin/pysparkprecisão usando o script para acessar o prompt do spark e também posso executar o Quick Start com êxito. No entanto, durante toda a minha vida, não consigo descobrir como interromper todo o INFOlog detalhado após...

130
Diferença entre HBase e Hadoop / HDFS

Essa é uma pergunta ingênua, mas eu sou novo no paradigma NoSQL e não sei muito sobre isso. Portanto, se alguém puder me ajudar a entender claramente a diferença entre o HBase e o Hadoop ou se fornecer alguns indicadores que possam me ajudar a entender a diferença. Até agora, eu fiz algumas...

124
Encadeando várias tarefas do MapReduce no Hadoop

Em muitas situações da vida real em que você aplica o MapReduce, os algoritmos finais acabam sendo várias etapas do MapReduce. ou seja, Mapa1, Reduzir1, Mapa2, Reduzir2 e assim por diante. Portanto, você tem a saída da última redução necessária como entrada para o próximo mapa. Os dados...

110
Diferença entre tabelas internas do Hive e tabelas externas?

Alguém pode me dizer a diferença entre a tabela externa do Hive e as tabelas internas. Eu sei que a diferença vem ao largar a mesa. Não entendo o que você quer dizer com os dados e os metadados são excluídos nas tabelas internas e apenas os metadados são excluídos nas tabelas externas. Alguém pode...

108
Falha ao localizar o binário winutils no caminho binário hadoop

Estou recebendo o seguinte erro ao iniciar o namenode para a versão mais recente do hadoop-2.2. Não encontrei o arquivo exe winutils na pasta hadoop bin. Eu tentei os comandos abaixo $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.Shell...

96
hadoop Sem FileSystem para o esquema: arquivo

Estou tentando executar um simples NaiveBayesClassiferusando o hadoop, obtendo este erro Exception in thread "main" java.io.IOException: No FileSystem for scheme: file at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375) at