Remover mensagens duplicadas do Maildir

10

Tenho várias mensagens duplicadas no Maildir do meu servidor IMAP. Qual é a melhor maneira de removê-los?

Alguns pontos relevantes:

  • O ID da mensagem compartilhada geralmente é uma definição suficientemente boa de duplicado. Um pequeno script que remove todas as mensagens duplicadas, exceto uma, funcionaria.
  • Às vezes, é necessário encontrar duplicatas com base nos corpos das mensagens compartilhadas. O que é uma definição razoável de compartilhada aqui? Bitwise equivalente? E as diferenças estranhas na quebra de linha, escape e codificação de caracteres?
  • Às vezes, há alguma diferença significativa entre mensagens 'duplicadas'. Qual é a melhor maneira de revisar as diferenças nos conjuntos de mensagens 'duplicadas'? Difícil?
Joseph Holsten
fonte

Respostas:

3

para arquivos genéricos no linux, uso os utilitários fdupes para remover arquivos duplicados. Achei que também funciona para mensagens do Maildir.

sarabande
fonte
1
O fdupes parece funcionar apenas para duplicatas exatas, enquanto o OP está (implicitamente) perguntando sobre padrões mais complexos de duplicação. Uma mensagem entregue duas vezes por causa de .forwardou com cabeçalhos ligeiramente diferentes; portanto, embora a mensagem em si seja duplicada, os dois arquivos que contêm as duas cópias podem não ser.
Tripleee
0

O Gnome's Evolution [um agente gráfico de usuário de e-mail] possui um recurso interno para remover e-mails duplicados. Conforme explicado nesta página de ajuda , ele se resume a:

  1. Selecione as mensagens suspeitas (ou apenas todas as mensagens)
  2. Vá para o menu Mensagens e escolha Remover mensagens duplicadas .

Voilà.

O PS Evolution pode acessar suas mensagens localmente (MailDir, MH, Mbox) ou pelo IMAP.

Franklin Piat
fonte
0

Melhor que eu encontrei hoje é de Kevin Deldycke maildir-desduplicar .

  • Ele ignora o X-MIMETrackcabeçalho por padrão e compara os cabeçalhos usando o SHA224resumo.
  • Exclui automaticamente duplicatas sem solicitar confirmação; no entanto, existe um modo de execução a seco que permite visualizar quais duplicatas serão excluídas.

Aposto que alguém poderia fazer algo chique com o delIMAPdups.pl de Rick Sanders , parte de suas ferramentas IMAP .

Joseph Holsten
fonte
maildir-deduplicate mudei para um novo local e atualizei o link. No entanto, suas informações estão desatualizadas.
Adam Spiers
Atualizei isso para que não haja mais informações desatualizadas e enganosas.
Adam Spiers