Ciência de dados

12
Importar o conteúdo do arquivo csv para os quadros de dados pyspark

Como posso importar um arquivo .csv para os quadros de dados pyspark? Eu até tentei ler o arquivo csv no Pandas e convertê-lo em um dataframe spark usando createDataFrame, mas ele ainda mostra algum erro. Alguém pode me guiar por isso? Além disso, diga-me como posso importar um arquivo xlsx? Estou...

12
Como usar o RBM para classificação?

No momento, estou jogando com Restricted Boltzmann Machines e, como estou nisso, gostaria de tentar classificar dígitos manuscritos com ele. O modelo que criei agora é um modelo generativo bastante sofisticado, mas não sei como ir mais longe. Em este artigo a palavra autor, que depois de criar um...

12
Como calcular a dimensão VC?

Estou estudando aprendizado de máquina e gostaria de saber como calcular a dimensão VC. Por exemplo: h(x)={10if a≤x≤belse h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , com os parâmetros(a,b)∈R2(a,b)∈R2(a,b) ∈ R^2 . Qual é a dimensão VC...

12
Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of...

12
aprendizado profundo para tarefas sem imagem e sem PNL?

Até o momento, existem muitas aplicações interessantes para aprendizado profundo em visão computacional ou processamento de linguagem natural. Como é em outros campos mais tradicionais? Por exemplo, tenho variáveis ​​sociodemográficas tradicionais e talvez muitas medições de laboratório e quero...

12
Importância do recurso com recursos categóricos de alta cardinalidade para regressão (variável dependente numérica)

Eu estava tentando usar as importâncias de recursos da Random Forests para executar alguma seleção empírica de recursos para um problema de regressão em que todos os recursos são categóricos e muitos deles têm muitos níveis (da ordem de 100-1000). Dado que a codificação one-hot cria uma variável...

12
Como saber que o modelo começou a sobreajuste?

Espero que os trechos a seguir forneçam uma ideia do que será minha pergunta. Estes são de http://neuralnetworksanddeeplearning.com/chap3.html O aprendizado então diminui gradualmente. Finalmente, por volta da época 280, a precisão da classificação praticamente para de melhorar. Épocas...

12
Detectando anomalias com rede neural

Eu tenho um grande conjunto de dados multidimensional que é gerado todos os dias. Qual seria uma boa abordagem para detectar qualquer tipo de 'anomalia' em comparação com os dias anteriores? Esse é um problema adequado que pode ser resolvido com redes neurais? Todas as sugestões são...

12
O que são incorporação de gráficos?

Recentemente me deparei com a incorporação de gráficos, como o DeepWalk e o LINE. No entanto, ainda não tenho uma ideia clara do significado de incorporação de gráficos e quando usá-lo (aplicativos)? Todas as sugestões são