Relação e diferença entre recuperação e extração de informações?

11

Da Wikipedia

Recuperação de informação é a atividade de obter recursos de informação relevantes para uma necessidade de informação de uma coleção de recursos de informação. As pesquisas podem ser baseadas em metadados ou na indexação de texto completo.

Da Wikipedia

A extração de informações (IE) é a tarefa de extrair automaticamente informações estruturadas de documentos legíveis por máquina não estruturados e / ou semiestruturados. Na maioria dos casos, essa atividade diz respeito ao processamento de textos em linguagem humana por meio do processamento de linguagem natural (PNL). Atividades recentes no processamento de documentos multimídia, como anotação automática e extração de conteúdo de imagens / áudio / vídeo, podem ser vistas como extração de informações.

Quais são as relações e diferenças entre recuperação e extração de informações?

Obrigado!

Tim
fonte

Respostas:

9

A recuperação de informações é baseada em uma consulta - você especifica quais informações são necessárias e são retornadas de forma compreensível por humanos.

A extração de informações trata da estruturação de informações não estruturadas - dadas algumas fontes, todas as informações (relevantes) são estruturadas de forma a facilitar o processamento. Isso não será necessário na forma compreensível humana - pode ser apenas para uso de programas de computador.

Algumas fontes:

Anton
fonte
7

http://gate.ac.uk/ie/ oferece uma distinção muito agradável e concisa:

Extração de informações não é recuperação de informações: a extração de informações difere das técnicas tradicionais, pois não recupera de uma coleção um subconjunto de documentos que, esperançosamente, são relevantes para uma consulta, com base na pesquisa por palavras-chave (talvez aumentada por um tesauro). Em vez disso, o objetivo é extrair dos documentos (que podem estar em uma variedade de idiomas) fatos relevantes sobre tipos pré-especificados de eventos, entidades ou relacionamentos. Esses fatos são geralmente inseridos automaticamente em um banco de dados, que pode ser usado para analisar os dados em busca de tendências, para fornecer um resumo da linguagem natural ou simplesmente para servir para acesso on-line.

Para colocá-lo pictoricamente:

A recuperação de informações obtém conjuntos de documentos relevantes:

insira a descrição da imagem aqui

A extração de informações obtém fatos dos documentos:

insira a descrição da imagem aqui

Franck Dernoncourt
fonte
2

Do ponto de vista da modelagem, a recuperação de informações é um campo profundo previsto em várias disciplinas, incluindo estatística, matemática, linguística, inteligência artificial e agora ciência de dados. Na prática, esses modelos são aplicados ao texto dentro de corpora para descobrir padrões nos dados. Os modelos de IR não apenas se sobrepõem ao uso, como podem "se associar" a outros modelos, como os meios k ou os vizinhos k mais próximos, como outros modelos podem ser aplicados do ponto de vista da linguística computacional, como LDA / LDI e modelagem de tópicos Então, o jogo final é algum tipo de visualização de informações dessa descoberta - após o trabalho de classificação, agrupamento e agregação. A recuperação de informações pode parecer uma disciplina enigmática, mas um esforço sério, muito apreciado, vai abrir a área para uma compreensão mais profunda de cada modelo e a interação entre os modelos. Cito a série "Palestras de síntese sobre conceitos, recuperação e serviços de informação" como o melhor local para se aprofundar em uma base para RI.

Embora eu não separe totalmente o IR e a Extração de informações, talvez um subconjunto do IE, a extração em nível de conceito, aplique padrões de IR junto com regras de inferência baseadas em IA para extrair ontologias relacionadas. A natureza gráfica dessas relações está sendo aprimorada com a modelagem de ontologias em OWL e RDF, e com bancos de dados de gráficos, que permitem um conjunto menos estrito ou rigoroso de modelagem de relacionamento e permitem que mais relacionamentos surjam, em vez de serem controlados per se. A capacidade de aumentar a extração de informações dinamicamente mantém sua "disciplina" fortemente interessante para os pesquisadores.

Tanto o IR quanto o IE atuam em nossas próprias "entidades do momento" significativas - algumas denominadas "ontologias dinâmicas" - algumas sendo Palantir - e precisamos dos padrões, modelos, simulações e visualizações dessas entidades significativas para fazer negócios. o rosto de transformar novas fontes de informação e alterar as informações existentes. A modelagem conceitual, relacional, de definição, padrão e ontológica deve ser flexível e suas visualizações iguais. O trabalho pesado de mecanismos de IA, como o Watson, nos campos de extração e inferência de informações destacou os campos do IE e do RI. Além disso, a onipresença do processamento de linguagem natural e do aprendizado de máquina está chamando a atenção para modelos e mecanismos de IR e IE. O impacto dos modelos de RI na pesquisa e no SEO e na modelagem semântica da Web é um desses "

MethodyM
fonte
1

A recuperação de informações é sobre o retorno de informações relevantes para uma consulta ou campo de interesse específico. Observe que essas informações também podem estar na forma de documentos gerais, com certeza os mecanismos de pesquisa são um exemplo notável dessa tarefa. Eu diria que as entidades mais importantes reconhecíveis para recuperação de informações são o conjunto inicial de documentos / informações e a consulta que especifica "o que procurar".

Por outro lado, a extração de informações trata mais de extrair (ou inferir) conhecimentos gerais (ou relações) de um conjunto de documentos ou informações. Observe que aqui todo o conteúdo dos documentos pode ser considerado como um conjunto de dados a partir dos quais extrair o conhecimento. Obviamente, também neste caso, você pode especificar de alguma forma o que deseja extrair, mas é mais sobre propriedades / relações do que assuntos / tópicos específicos. As propriedades são mais específicas do domínio, enquanto as relações geralmente abrangem cenários mais genéricos.

Novamente, com os mecanismos de pesquisa, você solicita os sites com maior probabilidade de conter informações sobre esse assunto específico. Este é um exemplo de recuperação de informações .

Para extração de informações, você poderia, por exemplo, pedir para extrair todos os nomes de cidades ou endereços de email que aparecem em um corpus de documentos. Você pode até ser muito mais genérico, pedindo simplesmente para extrair conhecimento. Como você pode ver, isso é realmente genérico, mas pode ser conseguido, por exemplo, obtendo trigêmeos do formulário sujeito-ação-objeto para cada frase válida de um texto (isso é mais adequado para textos em linguagem natural).

Se você estiver interessado, esses (e outros) tópicos serão explicados em detalhes no capítulo Processamento de linguagem natural do livro Inteligência artificial: uma abordagem moderna .

5agado
fonte