Analisar um monte de arquivos e categorizá-los de acordo com seu conteúdo, duplicatas de conteúdo possíveis com formato diferente

Eu tenho material como imagens, PDFs, DOC e DOCX com muitos itens duplicados, mas em formato diferente. Eu posso ter um artigo em PDF e depois também tenho em DOC e DOCX. Eu quero categorizar de alguma forma todo o material de acordo com o conteúdo do material. Se o PDF e o DOC tiverem o mesmo...