Ciência de dados

15
Ferramentas de ciência de dados usando Scala

Eu sei que o Spark está totalmente integrado ao Scala. Seu caso de uso é especificamente para grandes conjuntos de dados. Quais outras ferramentas têm bom suporte ao Scala? O Scala é mais adequado para conjuntos de dados maiores? Ou também é adequado para conjuntos de dados

15
Como o SelectKBest funciona?

Estou olhando para este tutorial: https://www.dataquest.io/mission/75/improving-your-submission Na seção 8, encontrando os melhores recursos, mostra o código a seguir. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp",...

15
R: aprendizado de máquina na GPU

Existem pacotes de aprendizado de máquina para o R que podem usar a GPU para melhorar a velocidade do treinamento (algo como o theano do mundo python)? Vejo que existe um pacote chamado gputools que permite a execução de código na gpu, mas estou procurando uma biblioteca mais completa para...

14
Quando os valores p enganam?

Quais são as condições de dados que devemos observar, onde os valores de p podem não ser a melhor maneira de decidir a significância estatística? Existem tipos de problemas específicos que se enquadram nessa

14
Doc2vec (gensim) - Como posso inferir o rótulo de frases invisíveis?

https://radimrehurek.com/gensim/models/doc2vec.html Por exemplo, se treinamos o doc2vec com "aaaaaAAAAAaaaaaa" - "rótulo 1" "BbbbbbBBBBBbbbb" - "rótulo 2" podemos inferir que “aaaaAAAAaaaaAA” é o rótulo 1 usando o Doc2vec? Eu sei que o Doc2vec pode treinar vetores de palavras e rótulos. Usando...

14
RNN usando várias séries temporais

Estou tentando criar uma rede neural usando séries temporais como entrada, para treiná-la com base no tipo de cada série. Eu li que usando RNNs você pode dividir a entrada em lotes e usar todos os pontos da série temporal em neurônios individuais e, eventualmente, treinar a rede. O que estou...