O LDA possui dois hiperparâmetros, ajustando-os muda os tópicos induzidos. O que os hiperparâmetros alfa e beta contribuem para o LDA? Como o tópico muda se um ou outro hiperparâmetro aumenta ou diminui? Por que eles são hiperparâmetros e não apenas
O LDA possui dois hiperparâmetros, ajustando-os muda os tópicos induzidos. O que os hiperparâmetros alfa e beta contribuem para o LDA? Como o tópico muda se um ou outro hiperparâmetro aumenta ou diminui? Por que eles são hiperparâmetros e não apenas
Do tutorial da Keras RNN: "RNNs são complicadas. A escolha do tamanho do lote é importante, a escolha da perda e do otimizador é crítica, etc. Algumas configurações não convergirão." Portanto, essa é uma pergunta mais geral sobre o ajuste dos hiperparâmetros de um LSTM-RNN no Keras. Gostaria de...
Estou trabalhando em um desafio do Kaggle, em que algumas variáveis são representadas por linhas em vez de colunas (interrupção da rede Telstra). Atualmente, estou procurando o equivalente a gather (), separado () e spread (), que pode ser encontrado na ferramenta R
Preciso gerar relatórios periódicos (diários, mensais) do painel de análise da web. Eles serão estáticos e não requerem interação, então imagine um arquivo PDF como saída de destino. Os relatórios mesclam tabelas e gráficos (principalmente gráficos sparkline e bullet criados com o ggplot2). Pense...
A função de previsão abaixo também fornece valores -ve, portanto não podem ser probabilidades. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Eu google...
Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...
Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 anos . Sou desenvolvedor...
Estou tentando criar um sistema de recomendação usando filtragem colaborativa. Eu tenho as [user, movie, rating]informações usuais . Gostaria de incorporar um recurso adicional, como 'idioma' ou 'duração do filme'. Não tenho certeza de quais técnicas eu poderia usar para esse problema. Por favor,...
A contribuição para projetos de código aberto é normalmente uma boa maneira de obter alguma prática para iniciantes e tentar uma nova área para cientistas e analistas de dados experientes. Quais projetos você contribui? Forneça algum link de introdução + no
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Os benchmarks data.table não são atualizados desde 2014. Ouvi dizer que Pandasagora é mais rápido do que data.table. Isso é verdade? Alguém já fez benchmarks? Eu nunca usei Python antes, mas consideraria mudar se pandaspode...
Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico do Data Science Stack Exchange. Fechado há 5 anos . Recentemente, tive uma conversa com...
Eu tenho um conjunto de dados como o abaixo. Quero remover todos os caracteres após o caractere ©. Como posso fazer isso no R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <-
Existem pacotes de aprendizado de máquina para o R que podem usar a GPU para melhorar a velocidade do treinamento (algo como o theano do mundo python)? Vejo que existe um pacote chamado gputools que permite a execução de código na gpu, mas estou procurando uma biblioteca mais completa para...
Eu trabalho em um escritório onde o SQL Server é a espinha dorsal de tudo o que fazemos, desde o processamento de dados até a limpeza e a substituição. Meu colega é especialista em escrever funções complexas e procedimentos armazenados para processar metodicamente os dados recebidos, para que...
Antes de tudo, esse termo parece tão obscuro. Enfim .. Eu sou um programador de software. Uma das linguagens que posso codificar é Python. Falando em dados, posso usar SQL e fazer raspagem de dados. O que descobri até agora depois de ler tantos artigos nos quais a Data Science é boa: 1-...
Eu não sou especialista em auto-codificadores ou redes neurais, por qualquer meio, então me perdoe se essa é uma pergunta boba. Para fins de redução de dimensão ou visualização de clusters em dados de alta dimensão, podemos usar um autoencoder para criar uma representação bidimensional (com...
Se eu tiver um conjunto de dados de treinamento e treinar um Classificador Naive Bayes nele, e tiver um valor de atributo com probabilidade zero. Como faço para lidar com isso se mais tarde desejar prever a classificação em novos dados? O problema é que, se houver um zero no cálculo, todo o produto...
Vou classificar documentos de texto não estruturados, ou seja, sites de estrutura desconhecida. O número de classes para as quais estou classificando é limitado (neste momento, acredito que não haja mais que três). Alguém tem uma sugestão de como eu posso começar? A abordagem "saco de palavras" é...
Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of...
Atualmente, estou trabalhando com um grande conjunto de dados de solicitações de seguro de saúde que inclui algumas solicitações de laboratório e farmácia. As informações mais consistentes no conjunto de dados, no entanto, são compostas por códigos de diagnóstico (CID-9CM) e procedimentos (CPT,...