Perguntas com a marcação «text-mining»

Refere-se a um subconjunto de mineração de dados relacionado à extração de informações na forma de texto, reconhecendo padrões. O objetivo da mineração de texto geralmente é classificar um determinado documento em uma de várias categorias de maneira automática e melhorar esse desempenho dinamicamente, tornando-o um exemplo de aprendizado de máquina. Um exemplo desse tipo de mineração de texto são os filtros de spam usados ​​para email.

29
Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

16
aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

16
Extrair as partes mais informativas do texto dos documentos

Existem artigos ou discussões sobre a extração de parte do texto que contêm mais informações sobre o documento atual. Por exemplo, eu tenho um grande corpus de documentos do mesmo domínio. Há partes do texto que contêm as principais informações sobre as quais um único documento fala. Quero extrair...

13
Escalada de dados de forma ética e econômica

Poucas coisas na vida me dão prazer, como coletar dados estruturados e não estruturados da Internet e utilizá-los em meus modelos. Por exemplo, a Ciência Toolkit de dados (ou RDSTKpara programadores R) permite-me para puxar lotes de bons baseados em localização de dados usando IP de ou endereços...

11
Usando cluster no processamento de texto

Olá, esta é minha primeira pergunta na pilha de ciência de dados. Eu quero criar um algoritmo para classificação de texto. Suponha que eu tenha um grande conjunto de textos e artigos. Vamos dizer cerca de 5000 textos simples. Primeiro, uso uma função simples para determinar a frequência de todas as...