Perguntas com a marcação «apache-hadoop»

38

Preciso aprender o Hadoop para ser um cientista de dados?

Um aspirante a cientista de dados aqui. Não sei nada sobre o Hadoop, mas como tenho lido sobre Data Science e Big Data, vejo muita conversa sobre o Hadoop. É absolutamente necessário aprender o Hadoop para ser um cientista de

bigdata apache-hadoop

30

Quais são os casos de uso do Apache Spark vs Hadoop

Com o Hadoop 2.0 e o YARN, o Hadoop não está mais vinculado apenas às soluções de redução de mapa. Com esse avanço, quais são os casos de uso do Apache Spark vs Hadoop, considerando que ambos estão no topo do HDFS? Eu li a documentação de introdução do Spark, mas estou curioso para saber se alguém...

apache-hadoop distributed knowledge-base

16

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

15

Qual é a diferença entre Hadoop e noSQL

Ouvi falar de muitas ferramentas / estruturas para ajudar as pessoas a processar seus dados (ambiente de big data). Um é chamado Hadoop e o outro é o conceito noSQL. Qual é a diferença no ponto de processamento? Eles são

nosql tools processing apache-hadoop

12

Trocas entre Storm e Hadoop (MapReduce)

Alguém pode me informar sobre as compensações envolvidas na escolha entre o Storm e o MapReduce no Hadoop Cluster para processamento de dados? Obviamente, além do óbvio, o Hadoop (processamento via MapReduce em um Hadoop Cluster) é um sistema de processamento em lote e o Storm é um sistema de...

bigdata efficiency apache-hadoop distributed

12

O Amazon RedShift substitui o Hadoop por ~ 1XTB de dados?

Há muito hype ao redor do Hadoop e seu ecossistema. No entanto, na prática, onde muitos conjuntos de dados estão no intervalo de terabytes, não é mais razoável usar o Amazon RedShift para consultar grandes conjuntos de dados, em vez de gastar tempo e esforço construindo um cluster Hadoop? Além...

apache-hadoop map-reduce aws

11

Os algoritmos de redução de mapa criados para o MongoDB podem ser portados para o Hadoop posteriormente?

Em nossa empresa, temos um banco de dados MongoDB contendo muitos dados não estruturados, nos quais precisamos executar algoritmos de redução de mapa para gerar relatórios e outras análises. Temos duas abordagens para selecionar para implementar as análises necessárias: Uma abordagem é extrair os...

scalability apache-hadoop map-reduce mongodb

11

Existem bons modelos de linguagem prontos para uso em python?

Estou prototipando um aplicativo e preciso de um modelo de linguagem para calcular a perplexidade em algumas frases geradas. Existe algum modelo de linguagem treinado em python que eu possa usar facilmente? Algo simples como model = LanguageModel('en') p1 = model.perplexity('This is a well...

python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

10

Quais são as restrições de memória de R?

Ao revisar a " Modelagem Preditiva Aplicada ", um revisor declara : Uma crítica que tenho da pedagogia do aprendizado estatístico (SL) é a ausência de considerações de desempenho computacional na avaliação de diferentes técnicas de modelagem. Com ênfase no bootstrapping e na validação cruzada...

apache-hadoop r

10

Melhores idiomas para computação científica [fechado]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 5 anos . Parece que a maioria...

efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

10

Como fazer produto interno em lote no Tensorflow?

Eu tenho dois tensores a:[batch_size, dim] b:[batch_size, dim]. Quero fazer um produto interno para cada par do lote, gerando c:[batch_size, 1], onde c[i,0]=a[i,:].T*b[i,:].

tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

8

Erro em cascata no Apache Storm

Analisando a apresentação e o material do Summingbird pelo Twitter, um dos motivos mencionados para o uso de clusters Storm e Hadoop juntos no Summingbird é que o processamento através do Storm resulta em cascata de erros. Para evitar essa cascata de erro e acumulação, o cluster Hadoop é usado para...

bigdata apache-hadoop

8

Ciência de dados e modelo de programação MapReduce do Hadoop

Quais são as diferentes classes de problemas de ciência de dados que podem ser resolvidos usando o modelo de programação

apache-hadoop map-reduce

8

Bons livros para o Hadoop, Spark e Spark Streaming [fechado]

Fechado . Esta questão é baseada em opiniões . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela possa ser respondida com fatos e citações editando esta postagem . Fechado há 5 anos . Alguém pode...

apache-hadoop

7

Regressão linear em R Mapreduce (RHadoop)

Eu sou novo no RHadoop e também no RMR ... Eu tinha um requisito para escrever um trabalho de Mapreduce no R Mapreduce. Eu tentei escrever, mas ao executar isso, dá um erro. Tring para ler o arquivo de hdfs Erro: Error in mr(map = map, reduce = reduce, combine = combine, vectorized.reduce, :...

machine-learning r apache-hadoop map-reduce

7

Arquitetura Lambda - Como implementar a camada de mesclagem / camada de consulta

Estou lendo sobre a arquitetura lambda. Faz sentido. temos ingestão de dados baseada em fila. temos um armazenamento na memória para dados que é muito novo e temos HDFS para dados antigos. Portanto, temos todo o nosso conjunto de dados. no nosso sistema. muito bom. mas o diagrama da arquitetura...

bigdata apache-hadoop