Perguntas com a marcação «text-mining»

34

Quais são algumas maneiras padrão de calcular a distância entre documentos?

Quando digo "documento", tenho em mente páginas da web como artigos da Wikipedia e notícias. Prefiro respostas que ofereçam métricas de distância lexical de baunilha ou métricas de distância semântica de última geração, com maior preferência por essa

29

Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

28

Quais algoritmos devo usar para executar a classificação do trabalho com base nos dados do currículo?

Note que estou fazendo tudo em R. O problema é o seguinte: Basicamente, eu tenho uma lista de currículos (CVs). Alguns candidatos terão experiência profissional antes e outros não. O objetivo aqui é: com base no texto em seus currículos, quero classificá-los em diferentes setores de trabalho....

machine-learning classification nlp text-mining

27

Abordagem geral para extrair o texto principal da frase (PNL)

Dada uma frase como: Complimentary gym access for two for the length of stay ($12 value per person per day) Que abordagem geral posso adotar para identificar a palavra academia ou acesso à

machine-learning nlp text-mining data-cleaning

20

Extração de palavras-chave / frase do Texto usando bibliotecas do Deep Learning

Talvez isso seja muito amplo, mas estou procurando referências sobre como usar o aprendizado profundo em uma tarefa de resumo de texto. Eu já implementei a sumarização de texto usando abordagens padrão de frequência de palavras e classificação de frases, mas gostaria de explorar a possibilidade de...

neural-network text-mining deep-learning beginner tensorflow

20

qual é a diferença entre classificação de texto e modelos de tópicos?

Conheço a diferença entre agrupamento e classificação no aprendizado de máquina, mas não entendo a diferença entre classificação de texto e modelagem de tópicos para documentos. Posso usar a modelagem de tópicos sobre documentos para identificar um tópico? Posso usar métodos de classificação para...

classification text-mining topic-model

19

Como aumentar uma lista de palavras relacionadas com base nas palavras-chave iniciais?

Vi recentemente um recurso interessante que já estava disponível no Planilhas Google: você começa escrevendo algumas palavras-chave relacionadas em células consecutivas, diga: "azul", "verde", "amarelo" e gera automaticamente palavras-chave semelhantes (neste caso , outras cores). Veja mais...

nlp text-mining freebase

19

O que é a Distância Hellinger e quando usá-la?

Estou interessado em saber o que realmente acontece no Hellinger Distance (em termos simples). Além disso, também estou interessado em saber quais são os tipos de problemas que podemos usar o Hellinger Distance? Quais são os benefícios do uso do Hellinger

machine-learning data-mining text-mining distance

18

Como anotar documentos de texto com metadados?

Tendo muitos documentos de texto (em linguagem natural, não estruturados), quais são as maneiras possíveis de anotá-los com alguns metadados semânticos? Por exemplo, considere um pequeno documento: I saw the company's manager last day. Para poder extrair informações dele, ele deve ser anotado...

nlp metadata data-cleaning text-mining

17

Algoritmos para agrupamento de texto

Eu tenho um problema de agrupar uma quantidade enorme de frases em grupos por seus significados. Isso é semelhante a um problema quando você tem muitas frases e deseja agrupá-las por seus significados. Quais algoritmos são sugeridos para fazer isso? Não conheço o número de clusters com...

clustering text-mining algorithms scikit-learn

17

Doc2Vec - Como rotular os parágrafos (gensim)

Eu estou querendo saber como rotular (marcar) frases / parágrafos / documentos com doc2vec no gensim - do ponto de vista prático. Você precisa ter cada frase / parágrafo / documento com seu próprio rótulo exclusivo (por exemplo, "Sent_123")? Isso parece útil se você quiser dizer "quais palavras...

machine-learning text-mining word-embeddings word2vec

16

aumentar o mapa de calor marítimo

Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de imprimir o todo, dfindependentemente do seu...

visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

16

Extrair as partes mais informativas do texto dos documentos

Existem artigos ou discussões sobre a extração de parte do texto que contêm mais informações sobre o documento atual. Por exemplo, eu tenho um grande corpus de documentos do mesmo domínio. Há partes do texto que contêm as principais informações sobre as quais um único documento fala. Quero extrair...

nlp text-mining

14

Como fazer a correspondência difusa de endereços postais?

Gostaria de saber como combinar endereços postais quando o formato deles for diferente ou quando um deles estiver incorreto. Até agora, encontrei soluções diferentes, mas acho que elas são bastante antigas e não muito eficientes. Tenho certeza de que existem métodos melhores; portanto, se você...

text-mining data-cleaning

13

Escalada de dados de forma ética e econômica

Poucas coisas na vida me dão prazer, como coletar dados estruturados e não estruturados da Internet e utilizá-los em meus modelos. Por exemplo, a Ciência Toolkit de dados (ou RDSTKpara programadores R) permite-me para puxar lotes de bons baseados em localização de dados usando IP de ou endereços...

text-mining scraping

13

Reconhecer uma gramática em uma sequência de tokens difusos

Tenho documentos de texto que contêm principalmente listas de itens. Cada item é um grupo de vários tokens de diferentes tipos: nome, sobrenome, data de nascimento, número de telefone, cidade, ocupação etc. Um token é um grupo de palavras. Os itens podem estar em várias linhas. Os itens de um...

data-mining clustering text-mining time-series correlation

12

Classificação de texto não estruturada

Vou classificar documentos de texto não estruturados, ou seja, sites de estrutura desconhecida. O número de classes para as quais estou classificando é limitado (neste momento, acredito que não haja mais que três). Alguém tem uma sugestão de como eu posso começar? A abordagem "saco de palavras" é...

machine-learning classification text-mining beginner

12

Algoritmo de correspondência de preferências

Há um projeto paralelo no qual estou trabalhando, onde preciso estruturar uma solução para o seguinte problema. Eu tenho dois grupos de pessoas (clientes). O grupo Apretende comprar e o grupo Bpretende vender um determinado produto X. O produto tem uma série de atributos x_i, e meu objetivo é...

bigdata text-mining recommender-system

12

Alternativas ao TF-IDF e Cosine Similarity ao comparar documentos de diferentes formatos

Estou trabalhando em um projeto pequeno e pessoal, que utiliza as habilidades profissionais de um usuário e sugere a carreira ideal para elas, com base nessas habilidades. Eu uso um banco de dados de listas de empregos para conseguir isso. No momento, o código funciona da seguinte maneira: 1)...

nlp text-mining similarity cosine-distance

11

Usando cluster no processamento de texto

Olá, esta é minha primeira pergunta na pilha de ciência de dados. Eu quero criar um algoritmo para classificação de texto. Suponha que eu tenha um grande conjunto de textos e artigos. Vamos dizer cerca de 5000 textos simples. Primeiro, uso uma função simples para determinar a frequência de todas as...

text-mining clustering