Perguntas com a marcação «data»

8
Filtrando spam a partir de dados recuperados

Certa vez, ouvi dizer que filtrar spam usando listas negras não é uma boa abordagem, pois algum usuário que está procurando entradas no seu conjunto de dados pode estar procurando informações específicas das fontes bloqueadas. Também seria um fardo validar continuamente o estado atual de cada...

8
Erro em cascata no Apache Storm

Analisando a apresentação e o material do Summingbird pelo Twitter, um dos motivos mencionados para o uso de clusters Storm e Hadoop juntos no Summingbird é que o processamento através do Storm resulta em cascata de erros. Para evitar essa cascata de erro e acumulação, o cluster Hadoop é usado para...

7
É aconselhável combinar dois conjuntos de dados?

Eu tenho dois conjuntos de dados sobre a freqüência cardíaca de sujeitos que foram registrados em dois lugares diferentes (dois continentes diferentes para ser exato). Os dois experimentos de pesquisa tiveram como objetivo encontrar as emoções dos sujeitos com base em quanto a frequência cardíaca...

7
Docker para ciência de dados

Recentemente, comecei a ler artigos sobre o Docker. Para mim, na ciência de dados, o Docker é útil porque: 1) Você possui um ambiente totalmente diferente, que o protege contra problemas de bibliotecas e dependências. 2) Se seu aplicativo modificar, por exemplo, o banco de dados da sua empresa,...