Usando ferramentas de mineração de texto / processamento de linguagem natural para econometria

Não tenho certeza se esta pergunta é totalmente apropriada aqui; caso contrário, exclua.

Eu sou um estudante de graduação em economia. Para um projeto que investiga questões de seguros sociais, tenho acesso a um grande número de relatórios de casos administrativos (> 200k) que lidam com avaliações de elegibilidade. Esses relatórios podem estar vinculados a informações administrativas individuais. Desejo extrair informações desses relatórios que podem ser usadas na análise quantitativa e, idealmente, mais do que simples pesquisas por palavra-chave / regex usando grep/ awketc.

Quão útil é o Processamento de linguagem natural para isso? Quais são outras abordagens úteis de mineração de texto? Pelo que entendi, esse campo é amplo e, provavelmente, alguns dos relatórios precisariam ser transformados para serem usados como corpus. Vale a pena investir algum tempo para se familiarizar com a literatura e os métodos? Pode ser útil e algo semelhante já foi feito antes? Vale a pena em termos de recompensas, ou seja, posso extrair informações potencialmente úteis usando a PNL para um estudo empírico em economia?

Possivelmente, há financiamento para contratar alguém para ler e preparar alguns dos relatórios. Este é um projeto maior e existe a possibilidade de solicitar mais financiamento. Posso fornecer mais detalhes sobre o tópico, se estritamente necessário. Uma complicação potencial é que o idioma é alemão, não inglês.

Em relação às qualificações, sou formado principalmente em econometria e tenho algum conhecimento sobre estatística computacional no nível de Hastie et al. livro. Conheço Python, R, Stata e provavelmente poderia me familiarizar com o Matlab rapidamente. Dadas as bibliotecas, presumo que o Python seja a ferramenta de escolha para isso. Não há treinamento algum em métodos qualitativos, se isso for relevante, mas conheço algumas pessoas que eu poderia alcançar.

Fico feliz por qualquer contribuição sobre isso, ou seja, se isso é potencialmente útil, em caso afirmativo, por onde começar a ler e em quais ferramentas focar em particular.

machine-learning data-mining econometrics text-mining natural-language ilprincipe
fonte

O LASSO, a regressão de ângulo mínimo e a análise logística são algumas ferramentas potencialmente relevantes. Você pode conferir como eu lidei com um problema semelhante para meu doutorado. tese aqui e meu blog post sobre ferramentas da PNL em economia aqui . Se você chegou a algum lugar com isso, seria ótimo ouvir sobre o seu progresso ou qualquer desafio que possa ter encontrado.

gradstudent

Respostas:

Eu acho que seria benéfico definir quais informações você deseja extrair dos dados. Pesquisas simples de palavras-chave / regex podem realmente ser muito proveitosas para você. Trabalho em seguros e usamos esse tipo de mineração de texto com bastante frequência - é indiscutivelmente ingênuo e definitivamente imperfeito, mas é um começo relativamente bom (ou uma aproximação aproximada) do que geralmente nos interessa.

Mas, no meu ponto principal, para descobrir se o método escolhido é apropriado, recomendo definir exatamente o que você deseja extrair dos dados; essa é a parte mais difícil, na minha opinião.

Pode ser interessante encontrar as palavras exclusivas em todas as seqüências de caracteres e fazer uma frequência das 1000 palavras mais importantes. Isso pode ser caro em termos de computação (dependendo da RAM / processador), mas pode ser interessante de se ver. Se eu estivesse explorando os dados sem muito conhecimento sobre isso, é aqui que eu começaria (outros podem oferecer visualizações diferentes).

Espero que ajude.

Francisco Arceo
fonte

obrigado, eu estava definitivamente pensando em começar com algo assim. Sei que minha pergunta é vaga, mas geralmente estou interessado em que tipo de informação eu seria capaz de extrair com outros métodos. Admito que não tenho certeza se é possível responder a isso sem conhecer o contexto específico.

Ilprincipe 12/06/2013

Eu acho que esse é sempre o desafio de qualquer trabalho / profissão relacionado a dados. Eu provavelmente recomendaria examinar alguns dos seus dados. Se houver variáveis com descrições sobre os dados ou o evento do seguro, leia algumas dúzias - experimente os dados. Lembre-se de que tudo o que estamos tentando fazer é modelar o processo subjacente dos dados e realmente fazer um ótimo trabalho, de que você precisa conhecer os dados.

Francisco Arceo 12/06