Ciência de dados

12
Dados de sentimento para Emoji

Para experimentar, gostaríamos de usar o Emoji incorporado em muitos Tweets como dados básicos de treinamento / verdade para uma análise quantitativa simples de senações. Os tweets geralmente não são estruturados para que a PNL funcione bem. De qualquer forma, existem 722 Emoji no Unicode 6.0 e...

12
Ajuda sobre o NER no NLTK

Eu trabalho no NLTK há algum tempo usando Python. O problema que estou enfrentando é que não há ajuda disponível no treinamento do NER no NLTK com meus dados personalizados. Eles usaram o MaxEnt e o treinaram no corpus do ACE. Pesquisei bastante na web, mas não consegui encontrar nenhuma maneira de...

12
O que é um 'nome antigo' de cientista de dados?

Termos como 'ciência de dados' e 'cientista de dados' são cada vez mais usados ​​atualmente. Muitas empresas estão contratando 'cientista de dados'. Mas não acho que seja um trabalho completamente novo. Os dados existiram no passado e alguém teve que lidar com dados. Eu acho que o termo 'cientista...

12
Tarifas de companhias aéreas - Que análise deve ser usada para detectar comportamento competitivo de estabelecimento de preços e correlações de preços?

Quero investigar o comportamento de estabelecimento de preços das companhias aéreas - especificamente como as empresas reagem aos preços dos concorrentes. Como eu diria, meu conhecimento sobre análises mais complexas é bastante limitado. Eu fiz principalmente todos os métodos básicos para reunir...

12
MinHashing vs SimHashing

Suponha que eu tenha cinco conjuntos que gostaria de agrupar. Entendo que a técnica SimHashing descrita aqui: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ poderia gerar três clusters ( {A}, {B,C,D}e {E}), por exemplo, se seus resultados fossem: A -> h01 B ->...

12
Melhor biblioteca Julia para redes neurais

Eu tenho usado essa biblioteca para construção e análise básicas de redes neurais. No entanto, ele não tem suporte para a construção de redes neurais de várias camadas, etc. Então, eu gostaria de saber de alguma biblioteca agradável para fazer redes neurais avançadas e Deep Learning em...

12
Quantas dimensões a serem reduzidas ao executar o PCA?

Como escolher K para PCA? K é o número de dimensões a serem projetadas. O único requisito é não perder muita informação. Entendo que depende dos dados, mas estou procurando mais uma visão geral simples sobre quais características considerar ao escolher

12
Como mesclar dois quadros de dados no Python Pandas?

Eu tenho dois quadros de dados df1 e df2 e gostaria de mesclá-los em um único quadro de dados. É como se o df1 e o df2 fossem criados dividindo um único quadro de dados verticalmente no centro, como rasgar um pedaço de papel que contém uma lista ao meio para que metade das colunas fique em um papel...

12
O scikit-learn usa regularização por padrão?

Acabei de ajustar uma curva logística a alguns dados falsos. Fiz os dados essencialmente uma função de etapa. data = -------------++++++++++++++ Mas quando olho para a curva ajustada, a inclinação é muito pequena. A função que melhor minimiza a função de custo, assumindo entropia cruzada, é a...