Perguntas com a marcação «r»

R é uma linguagem de programação de código-fonte livre e ambiente de software para computação estatística, bioinformática e gráficos.

101
Python vs R para aprendizado de máquina

Estou apenas começando a desenvolver um aplicativo de aprendizado de máquina para fins acadêmicos. Atualmente, estou usando R e me treinando nele. No entanto, em muitos lugares, vi pessoas usando Python . O que as pessoas estão usando na academia e na indústria e qual é a

56
Quando um modelo é mal equipado?

A lógica geralmente declara que, ao desajustar um modelo, sua capacidade de generalizar aumenta. Dito isto, claramente em algum momento a falta de ajuste de um modelo faz com que os modelos piorem, independentemente da complexidade dos dados. Como você sabe quando seu modelo alcançou o equilíbrio...

53
RNN vs CNN em alto nível

Estive pensando nas Redes Neurais Recorrentes (RNN) e suas variedades e nas Redes Neurais Convolucionais (CNN) e suas variedades. Seria justo dizer esses dois pontos: Use CNNs para dividir um componente (como uma imagem) em subcomponentes (como um objeto em uma imagem, como o contorno do objeto...

48
A linguagem R é adequada para Big Data

R possui muitas bibliotecas destinadas à análise de dados (por exemplo, JAGS, BUGS, ARULES etc.), e são mencionadas em livros populares como: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, "Machine Learning with R". Eu vi uma diretriz de 5 TB para um conjunto de dados ser considerado como Big...

37
Os cientistas de dados usam o Excel?

Eu me consideraria um cientista de dados de jornada. Como a maioria (acho), fiz meus primeiros gráficos e fiz minhas primeiras agregações no ensino médio e na faculdade, usando o Excel. Enquanto eu cursava a faculdade, a pós-graduação e os 7 anos de experiência profissional, rapidamente peguei o...

34
Processos organizados para limpar dados

Do meu limitado interesse pela ciência de dados usando R, percebi que limpar dados ruins é uma parte muito importante da preparação de dados para análise. Existem práticas recomendadas ou processos para limpar dados antes de processá-los? Em caso afirmativo, existem ferramentas automatizadas ou...

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

27
Parâmetros do XGBoost com ajuste otimizado

O XGBoost tem feito um ótimo trabalho quando se trata de lidar com variáveis ​​dependentes categóricas e contínuas. Mas, como seleciono os parâmetros otimizados para um problema no XGBoost? Foi assim que apliquei os parâmetros para um problema recente do Kaggle: param <- list( objective =...

24
Algum console do Online R?

Estou procurando um console online para o idioma R. Como se eu escrevesse o código e o servidor fosse executado e me fornecesse a saída. Semelhante ao site

24
Imagem da VM para projetos de ciência de dados

Como existem inúmeras ferramentas disponíveis para tarefas de ciência de dados, é complicado instalar tudo e criar um sistema perfeito. Existe uma imagem do Linux / Mac OS com Python, R e outras ferramentas de ciência de dados de código aberto instaladas e disponíveis para uso imediato das...