Perguntas com a marcação «r»

19

Com o que os hiperparâmetros alfa e beta contribuem na alocação de Dirichlet latente?

O LDA possui dois hiperparâmetros, ajustando-os muda os tópicos induzidos. O que os hiperparâmetros alfa e beta contribuem para o LDA? Como o tópico muda se um ou outro hiperparâmetro aumenta ou diminui? Por que eles são hiperparâmetros e não apenas

topic-model lda parameter

18

Pesquisa por hiperparâmetro para LSTM-RNN usando Keras (Python)

Do tutorial da Keras RNN: "RNNs são complicadas. A escolha do tamanho do lote é importante, a escolha da perda e do otimizador é crítica, etc. Algumas configurações não convergirão." Portanto, essa é uma pergunta mais geral sobre o ajuste dos hiperparâmetros de um LSTM-RNN no Keras. Gostaria de...

python neural-network deep-learning keras hyperparameter

18

existe alguma ferramenta de arrumação de dados para python / pandas semelhante à ferramenta R tidyr?

Estou trabalhando em um desafio do Kaggle, em que algumas variáveis são representadas por linhas em vez de colunas (interrupção da rede Telstra). Atualmente, estou procurando o equivalente a gather (), separado () e spread (), que pode ser encontrado na ferramenta R

r python dataset data-cleaning pandas

17

O que você usa para gerar um painel no R?

Preciso gerar relatórios periódicos (diários, mensais) do painel de análise da web. Eles serão estáticos e não requerem interação, então imagine um arquivo PDF como saída de destino. Os relatórios mesclam tabelas e gráficos (principalmente gráficos sparkline e bullet criados com o ggplot2). Pense...

r visualization

16

Como prever probabilidades no xgboost?

A função de previsão abaixo também fornece valores -ve, portanto não podem ser probabilidades. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Eu google...

machine-learning r predictive-modeling decision-trees

16

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

16

Como auto-aprender ciência de dados? [fechadas]

Fechado . Esta questão precisa ser mais focada . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela se concentre apenas em um problema editando esta postagem . Fechado há 4 anos . Sou desenvolvedor...

beginner self-study

16

Recomendação de filmes com recursos adicionais usando filtragem colaborativa

Estou tentando criar um sistema de recomendação usando filtragem colaborativa. Eu tenho as [user, movie, rating]informações usuais . Gostaria de incorporar um recurso adicional, como 'idioma' ou 'duração do filme'. Não tenho certeza de quais técnicas eu poderia usar para esse problema. Por favor,...

python r recommender-system

15

Projetos de ciência de dados de código aberto para contribuir

A contribuição para projetos de código aberto é normalmente uma boa maneira de obter alguma prática para iniciantes e tentar uma nova área para cientistas e analistas de dados experientes. Quais projetos você contribui? Forneça algum link de introdução + no

beginner open-source

15

Os pandas agora são mais rápidos que o data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Os benchmarks data.table não são atualizados desde 2014. Ouvi dizer que Pandasagora é mais rápido do que data.table. Isso é verdade? Alguém já fez benchmarks? Eu nunca usei Python antes, mas consideraria mudar se pandaspode...

python r pandas data data.table

15

Ciência de dados sem o conhecimento de um tópico específico, vale a pena seguir como carreira? [fechadas]

Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico do Data Science Stack Exchange. Fechado há 5 anos . Recentemente, tive uma conversa com...

education beginner career

15

removendo seqüências de caracteres após um determinado caractere em um determinado texto

Eu tenho um conjunto de dados como o abaixo. Quero remover todos os caracteres após o caractere ©. Como posso fazer isso no R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <-

r data-cleaning

15

R: aprendizado de máquina na GPU

Existem pacotes de aprendizado de máquina para o R que podem usar a GPU para melhorar a velocidade do treinamento (algo como o theano do mundo python)? Vejo que existe um pacote chamado gputools que permite a execução de código na gpu, mas estou procurando uma biblioteca mais completa para...

machine-learning r gpu

14

As modernas bibliotecas R e / ou Python tornam o SQL obsoleto?

Eu trabalho em um escritório onde o SQL Server é a espinha dorsal de tudo o que fazemos, desde o processamento de dados até a limpeza e a substituição. Meu colega é especialista em escrever funções complexas e procedimentos armazenados para processar metodicamente os dados recebidos, para que...

python r data-cleaning data sql

13

Sou programador, como entro no campo da ciência de dados?

Antes de tudo, esse termo parece tão obscuro. Enfim .. Eu sou um programador de software. Uma das linguagens que posso codificar é Python. Falando em dados, posso usar SQL e fazer raspagem de dados. O que descobri até agora depois de ler tantos artigos nos quais a Data Science é boa: 1-...

beginner career

13

Por que os auto-codificadores para redução de dimensão são simétricos?

Eu não sou especialista em auto-codificadores ou redes neurais, por qualquer meio, então me perdoe se essa é uma pergunta boba. Para fins de redução de dimensão ou visualização de clusters em dados de alta dimensão, podemos usar um autoencoder para criar uma representação bidimensional (com...

neural-network dimensionality-reduction autoencoder

13

Como lidar com um fator zero no cálculo do Naive Bayes Classifier?

Se eu tiver um conjunto de dados de treinamento e treinar um Classificador Naive Bayes nele, e tiver um valor de atributo com probabilidade zero. Como faço para lidar com isso se mais tarde desejar prever a classificação em novos dados? O problema é que, se houver um zero no cálculo, todo o produto...

classification naive-bayes-classifier

12

Classificação de texto não estruturada

Vou classificar documentos de texto não estruturados, ou seja, sites de estrutura desconhecida. O número de classes para as quais estou classificando é limitado (neste momento, acredito que não haja mais que três). Alguém tem uma sugestão de como eu posso começar? A abordagem "saco de palavras" é...

machine-learning classification text-mining beginner

12

Quantas células LSTM devo usar?

Existem regras práticas (ou regras reais) referentes à quantidade mínima, máxima e "razoável" de células LSTM que devo usar? Especificamente, estou relacionado ao BasicLSTMCell da TensorFlow e à num_unitspropriedade. Suponha que eu tenha um problema de classificação definido por: t - number of...

rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

12

Prevendo a próxima condição médica de condições anteriores em dados de reivindicações

Atualmente, estou trabalhando com um grande conjunto de dados de solicitações de seguro de saúde que inclui algumas solicitações de laboratório e farmácia. As informações mais consistentes no conjunto de dados, no entanto, são compostas por códigos de diagnóstico (CID-9CM) e procedimentos (CPT,...

machine-learning r