Eu tenho material como imagens, PDFs, DOC e DOCX com muitos itens duplicados, mas em formato diferente. Eu posso ter um artigo em PDF e depois também tenho em DOC e DOCX. Eu quero categorizar de alguma forma todo o material de acordo com o conteúdo do material. Se o PDF e o DOC tiverem o mesmo conteúdo, eles devem ser categorizados na mesma pasta. Minha primeira idéia foi o ssdeep e a busca do Adope PDF por arquivos PDF, mas soluções lentas.
Existe algum método que categorize um diretório massivo com duplicatas de acordo com seu conteúdo?
Por favor, note que a duplicidade é uma medida estatística de uma maneira: se houver similaridade suficiente, então categorize na mesma pasta. Como posso fazer esse tipo de categorização no Mac?
Algum software pronto para isso?
Por favor, adicione marcadores categorization
para melhor corresponder este tópico. Alguns melhores rótulos?