Eu estou atualmente trabalhando como estagiário de verão.
Meu primeiro objetivo é, dada uma coleção de arquivos, recuperar e identificar os tipos de arquivos presentes nele.
Para fazer o download de dados pseudo-forenses de amostra que tenho usado: Digital Corpora
Para recuperar arquivos eu tenho usado ' The Sleuthkit ', mas isso não parece fazer o trabalho como eu sempre recebo mensagens de erro sobre o formato dos dados que estão sendo usados.
Seria ótimo receber sugestões / links para tutoriais ou softwares que ajudem na recuperação de dados.
Eu também estou ansioso para links para baixar dados forenses psuedo semelhantes ao acima.
Especificamente, gostaria de recuperar todos os dados que estão em formatos de texto (word, pdf, emails, html ... etc) e depois unificá-los em um único arquivo em formato de texto e usar o processamento de linguagem natural para determinar os locais aos quais a pessoa foi associada com. Eu tenho algumas idéias com relação ao aspecto do processamento de linguagem natural do problema, mas preciso de ajuda com relação à recuperação de dados. Qual a melhor maneira de fazer essa tarefa.
fonte