Ciência de dados

10
Detecção de outlier / anomalia escalável

Estou tentando configurar uma infraestrutura de big data usando Hadoop, Hive, Elastic Search (entre outros) e gostaria de executar alguns algoritmos em determinados conjuntos de dados. Eu gostaria que os algoritmos fossem escalonáveis, então isso exclui o uso de ferramentas como Weka, R ou RHadoop....

10
Amplificando um hash sensível à localidade

Estou tentando criar um hash sensível à localidade do cosseno, para poder encontrar pares de itens similares candidatos sem precisar comparar todos os pares possíveis. Eu tenho basicamente trabalhando, mas a maioria dos pares nos meus dados parece ter semelhança de cosseno no intervalo de -0.2 a...

10
Como raspar página imdb?

Estou tentando aprender a raspagem da Web usando Python sozinho como parte de um esforço para aprender a análise de dados. Estou tentando raspar a página da Web do imdb cujo URL é o seguinte: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012...

10
Spark, idealmente dividindo um único RDD em dois

Eu tenho um grande conjunto de dados que preciso dividir em grupos de acordo com parâmetros específicos. Quero que o trabalho seja processado da maneira mais eficiente possível. Eu posso imaginar duas maneiras de fazer isso Opção 1 - Criar mapa a partir do RDD original e filtrar def...

10
Aprendizado de Reforço Cooperativo

Eu já tenho uma implementação para um único agente que trabalha em um problema dinâmico de precificação com o objetivo de maximizar a receita. O problema com o qual estou trabalhando, no entanto, envolve vários produtos diferentes que são substitutos um do outro, portanto, o preço dinâmico de todos...

10
Quantos dados de treinamento o word2vec precisa?

Eu gostaria de comparar a diferença entre a mesma palavra mencionada em diferentes fontes. Ou seja, como os autores diferem no uso de palavras mal definidas, como "democracia". Um breve plano foi Pegue os livros que mencionam o termo "democracia" como texto simples Em cada livro, substitua...

10
LSTM ou outro pacote RNN para R

Eu vi alguns resultados impressionantes dos modelos LSTM produzindo textos como Shakespeare. Eu queria saber se existe um pacote LSTM para R. Eu pesquisei por ele, mas só encontrei pacotes para Python e Julia. (talvez haja algum problema de desempenho que explique por que esses programas são mais...