Minha empresa procura criar uma visualização PivotViewer das postagens do blog Wordpress 2 de um cliente nos últimos 11 anos. Para fazer isso, no entanto, precisamos editar as tags um tanto aleatórias, incompletas e geralmente ruins para usar como categorias classificáveis. Estou procurando uma ferramenta que analise as entradas do blog e faça a contagem de palavras, para nos dar uma ideia do que estamos lidando.
Idealmente, ele teria todos esses recursos:
- Lista negra de palavras (ignorar)
- Palavra stemming
- Mesclagem de sinônimos personalizados
- Contando todos os usos
- Contando o número de postagens em que uma palavra aparece.
Eu pensaria que esse tipo de análise textual seria extremamente comum, mas não consegui encontrar nenhum software que faça esse tipo de coisa em blogs inteiros. Existe software disponível para fazer isso?
software-rec
statistics
blogging
word-count
Brian Bauman
fonte
fonte
Respostas:
O software que você está procurando pode ter muitos títulos, como "Análise de conteúdo" , "Nuvem de tags" ou "Meta Tags" e muito mais, como "análise de texto" e "mineração de texto".
Existem muitas ferramentas de software para esses fins, gratuitas e comerciais.
Não tenho experiência pessoal com essas ferramentas, mas um bom lugar para começar é o Text Analysis Tools, que lista dezenas dessas ferramentas, gratuitas e comerciais.
Outra lista é a Análise de texto, Mineração de texto e Software de recuperação de informações .
fonte
Dê uma olhada no Rapidminer ou Weka
Visto que é um blog de clientes, você provavelmente tem acesso ao banco de dados. Faça o download de todos os artigos como texto sem formatação e use um dos programas acima para lidar com as questões de processamento de linguagem natural (1,2,3 e 5).
É difícil automatizar o número de utilizações, pois tem a ver com a determinação automática do significado das palavras usando o contexto.
fonte
um dos softwares de análise de mais conteúdo é o WordStat, desenvolvido pela Provalis Research
O WordStat é um módulo de análise de texto para o QDA Miner ou o SimStat. O WordStat combina o método de análise de conteúdo usando a abordagem de dicionário e a exploração de muitos algoritmos ou vários métodos de mineração de texto. O WordStat pode aplicar dicionários de categorização existentes a um novo corpus de texto. Também pode ser usado no desenvolvimento e validação de novos dicionários de categorização. Quando usado em conjunto com a codificação manual, este módulo pode fornecer assistência para uma aplicação mais sistemática das regras de codificação, ajudar a descobrir diferenças no uso de palavras entre subgrupos de indivíduos e auxiliar na revisão da codificação existente usando as tabelas KWIC (Keyword In Context). O WordStat foi projetado especificamente para estudar informações textuais, como respostas a perguntas abertas, entrevistas, títulos, artigos de periódicos, discursos públicos, comunicações eletrônicas, etc.
http://provalisresearch.com/products/content-analysis-software/
fonte
Você pode tentar o Mathematica do Wolfram . Você precisará fazer alguma programação, mas todas as ferramentas necessárias estão lá:
fonte
Algumas dessas perguntas podem ser respondidas de maneira rápida e suja usando a Pesquisa do Google em seu blog (mais fácil se ele tiver seu próprio domínio).
fonte
Zemanta faz análise e pode sugerir tags e links. É um plugin wordpress também.
Único problema: como está atualmente, requer abertura manual, seleção e salvamento de cada postagem.
Há um grande número de plugins de auto-tag para wordpress. Você deve procurar no localizador de plugins e tentar alguns.
fonte