Não tenho certeza se esta pergunta é totalmente apropriada aqui; caso contrário, exclua.
Eu sou um estudante de graduação em economia. Para um projeto que investiga questões de seguros sociais, tenho acesso a um grande número de relatórios de casos administrativos (> 200k) que lidam com avaliações de elegibilidade. Esses relatórios podem estar vinculados a informações administrativas individuais. Desejo extrair informações desses relatórios que podem ser usadas na análise quantitativa e, idealmente, mais do que simples pesquisas por palavra-chave / regex usando grep
/ awk
etc.
Quão útil é o Processamento de linguagem natural para isso? Quais são outras abordagens úteis de mineração de texto? Pelo que entendi, esse campo é amplo e, provavelmente, alguns dos relatórios precisariam ser transformados para serem usados como corpus. Vale a pena investir algum tempo para se familiarizar com a literatura e os métodos? Pode ser útil e algo semelhante já foi feito antes? Vale a pena em termos de recompensas, ou seja, posso extrair informações potencialmente úteis usando a PNL para um estudo empírico em economia?
Possivelmente, há financiamento para contratar alguém para ler e preparar alguns dos relatórios. Este é um projeto maior e existe a possibilidade de solicitar mais financiamento. Posso fornecer mais detalhes sobre o tópico, se estritamente necessário. Uma complicação potencial é que o idioma é alemão, não inglês.
Em relação às qualificações, sou formado principalmente em econometria e tenho algum conhecimento sobre estatística computacional no nível de Hastie et al. livro. Conheço Python, R, Stata e provavelmente poderia me familiarizar com o Matlab rapidamente. Dadas as bibliotecas, presumo que o Python seja a ferramenta de escolha para isso. Não há treinamento algum em métodos qualitativos, se isso for relevante, mas conheço algumas pessoas que eu poderia alcançar.
Fico feliz por qualquer contribuição sobre isso, ou seja, se isso é potencialmente útil, em caso afirmativo, por onde começar a ler e em quais ferramentas focar em particular.
Respostas:
Eu acho que seria benéfico definir quais informações você deseja extrair dos dados. Pesquisas simples de palavras-chave / regex podem realmente ser muito proveitosas para você. Trabalho em seguros e usamos esse tipo de mineração de texto com bastante frequência - é indiscutivelmente ingênuo e definitivamente imperfeito, mas é um começo relativamente bom (ou uma aproximação aproximada) do que geralmente nos interessa.
Mas, no meu ponto principal, para descobrir se o método escolhido é apropriado, recomendo definir exatamente o que você deseja extrair dos dados; essa é a parte mais difícil, na minha opinião.
Pode ser interessante encontrar as palavras exclusivas em todas as seqüências de caracteres e fazer uma frequência das 1000 palavras mais importantes. Isso pode ser caro em termos de computação (dependendo da RAM / processador), mas pode ser interessante de se ver. Se eu estivesse explorando os dados sem muito conhecimento sobre isso, é aqui que eu começaria (outros podem oferecer visualizações diferentes).
Espero que ajude.
fonte