Ciência de dados

39
Quando usar o quê - Machine Learning [fechado]

Recentemente, em uma aula de Machine Learning do professor Oriol Pujol da UPC / Barcelona, ​​ele descreveu os algoritmos, princípios e conceitos mais comuns a serem usados ​​em uma ampla variedade de tarefas relacionadas ao aprendizado de máquina. Aqui eu os compartilho com você e...

37
Os cientistas de dados usam o Excel?

Eu me consideraria um cientista de dados de jornada. Como a maioria (acho), fiz meus primeiros gráficos e fiz minhas primeiras agregações no ensino médio e na faculdade, usando o Excel. Enquanto eu cursava a faculdade, a pós-graduação e os 7 anos de experiência profissional, rapidamente peguei o...

37
Como interpretar a saída de importância XGBoost?

Eu executei um modelo xgboost. Eu não sei exatamente como interpretar a saída de xgb.importance. Qual é o significado de ganho, cobertura e frequência e como os interpretamos? Além disso, o que significa% Split, RealCover e RealCover? Eu tenho alguns parâmetros extras aqui Existem outros...

35
O que você acha das certificações de ciência de dados?

Eu já vi dois programas de certificação de ciência de dados - o John Hopkins, disponível no Coursera, e o Cloudera . Tenho certeza que existem outros por aí. O conjunto de classes de John Hopkins está focado no R como um conjunto de ferramentas, mas abrange uma variedade de tópicos: Programação...

35
Explicação da perda de entropia cruzada

Suponha que eu crie um NN para classificação. A última camada é uma camada densa com ativação softmax. Eu tenho cinco classes diferentes para classificar. Suponha que, para um único exemplo de treinamento, true labelseja [1 0 0 0 0]enquanto estiverem as previsões [0.1 0.5 0.1 0.1 0.2]. Como eu...

34
Processos organizados para limpar dados

Do meu limitado interesse pela ciência de dados usando R, percebi que limpar dados ruins é uma parte muito importante da preparação de dados para análise. Existem práticas recomendadas ou processos para limpar dados antes de processá-los? Em caso afirmativo, existem ferramentas automatizadas ou...

33
Abrindo um arquivo de 20 GB para análise com pandas

No momento, estou tentando abrir um arquivo com pandas e python para fins de aprendizado de máquina. Seria ideal para todos eles em um DataFrame. Agora, o arquivo tem 18 GB de largura e minha RAM tem 32 GB, mas continuo recebendo erros de memória. De sua experiência é possível? Se você não conhece...

33
Multi GPU em keras

Como você pode programar na biblioteca keras (ou tensorflow) para particionar o treinamento em várias GPUs? Digamos que você esteja em uma instância do Amazon ec2 com 8 GPUs e que gostaria de usá-los para treinar mais rapidamente, mas seu código é apenas para uma única CPU ou...