Analisar um monte de arquivos e categorizá-los de acordo com seu conteúdo, duplicatas de conteúdo possíveis com formato diferente

0

Eu tenho material como imagens, PDFs, DOC e DOCX com muitos itens duplicados, mas em formato diferente. Eu posso ter um artigo em PDF e depois também tenho em DOC e DOCX. Eu quero categorizar de alguma forma todo o material de acordo com o conteúdo do material. Se o PDF e o DOC tiverem o mesmo conteúdo, eles devem ser categorizados na mesma pasta. Minha primeira idéia foi o ssdeep e a busca do Adope PDF por arquivos PDF, mas soluções lentas.

  • Existe algum método que categorize um diretório massivo com duplicatas de acordo com seu conteúdo?

  • Por favor, note que a duplicidade é uma medida estatística de uma maneira: se houver similaridade suficiente, então categorize na mesma pasta. Como posso fazer esse tipo de categorização no Mac?

  • Algum software pronto para isso?

Por favor, adicione marcadores categorizationpara melhor corresponder este tópico. Alguns melhores rótulos?

hhh
fonte
1
Você está procurando por um software para analisar automaticamente um monte de arquivos e categorizá-los, b) software para armazenar esses documentos, c) uma proposta sobre como configurar uma estrutura de pastas etc. para armazená-los ou d) algo totalmente diferente?
nohillside
@patrix quero dizer A.
hhh