Obtendo a soma de verificação MD5 de um arquivo em Java

510

Eu estou olhando para usar Java para obter a soma de verificação MD5 de um arquivo. Fiquei realmente surpreso, mas não consegui encontrar nada que mostre como obter a soma de verificação MD5 de um arquivo.

Como isso é feito?

Jack
fonte
Talvez isso ajude. Você também pode procurar as especificações, mas isso exigiria mais, pois é complicado.
waynecolvin
4
Lembre-se de que, de acordo com a pesquisa recente, "o MD5 deve ser considerado criptograficamente quebrado e inadequado para uso posterior". en.wikipedia.org/wiki/MD5
Zakharia Stanley
80
O MD5 não é mais considerado criptograficamente seguro, mas ainda é suficiente para validar a consistência do arquivo e é mais rápido que o SHA.
Jiggy #
2
@ZakhariaStanley Esta é uma pergunta sobre soma de verificação.
iPherian
O uso canônico das somas de verificação MD5 nos arquivos é evitar substituições hostis de arquivos distribuídos. É aí que é inseguro. Mas em um cenário em que explorações hostis não são uma preocupação, é perfeitamente adequado.
Keith Tyler

Respostas:

541

Há um decorador de fluxo de entrada java.security.DigestInputStream, para que você possa calcular o resumo enquanto usa o fluxo de entrada como faria normalmente, em vez de precisar fazer uma passagem extra pelos dados.

MessageDigest md = MessageDigest.getInstance("MD5");
try (InputStream is = Files.newInputStream(Paths.get("file.txt"));
     DigestInputStream dis = new DigestInputStream(is, md)) 
{
  /* Read decorated stream (dis) to EOF as normal... */
}
byte[] digest = md.digest();
erickson
fonte
4
Concordo, maneira muito elegante de calcular a soma de verificação em tempo real, se você já estiver fazendo algo com os bytes (ou seja, lendo-os em uma conexão HTTP).
Marc Novakowski
2
@AlPhaba Você declarou o iscomo um InputStreamou um FileInputStream? Parece que você usou FileInputStream, o que causaria esse erro.
Erickson
1
@barwnikk Funciona bem no Java 8. MethodNotFoundnão é uma exceção do Java padrão; talvez você esteja falando de um erro do compilador? De qualquer forma, se não funcionar, é um problema de configuração local ou outro código.
21714
4
@barwnikk Novamente, esse é o seu problema de configuração local. Este é um código Java 7 e Java 8 válido. Se você está preso às ferramentas de 2006, terá que se adaptar.
21714
5
@erickson Você não está atualizando o objeto MessageDigest com o conteúdo do arquivo. Rt? Esse código sempre imprimirá o mesmo resumo.
Sunil
302

Use DigestUtils da biblioteca de códigos Apache Commons :

try (InputStream is = Files.newInputStream(Paths.get("file.zip"))) {
    String md5 = org.apache.commons.codec.digest.DigestUtils.md5Hex(is);
}
Leif Gruenwoldt
fonte
1
Não funciona para mim no meu código do Android. Eu recebo esse erro ... java.lang.NoSuchMethodError: org.apache.commons.codec.binary.Hex.encodeHexString em org.apache.commons.codec.digest.DigestUtils.md5Hex (DigestUtils.java:215)
JPM
@JPM Suponha que você baixou e colocou o commons-codec.jarcaminho de classe já?
Leif Gruenwoldt
sim lá e eu exportado no meu projeto android .. Eu posso percorrer o código e a classe está lá nos arquivos de origem ... estranho, deve haver algum problema no Android Eclipse.
JPM
1
Eu tive o mesmo problema, mas foi corrigido por este código `FileInputStream fis = new FileInputStream (new File (filePath)); dados de bytes [] = org.apache.commons.codec.digest.DigestUtils.md5 (fis); char md5Chars [] = Hex.encodeHex (dados); String md5 = String.valueOf (md5Chars); `
Dmitry_L
1
Agradável! Para novos projetos, eu sempre penso duas vezes antes de adicionar uma nova dependência, mas para o projeto existente, basta verificar se a biblioteca já existe para usá-la. 1
OscarRyz
164

Há um exemplo no Java-How-to do Real, usando a classe MessageDigest .

Verifique essa página para ver exemplos usando CRC32 e SHA-1 também.

import java.io.*;
import java.security.MessageDigest;

public class MD5Checksum {

   public static byte[] createChecksum(String filename) throws Exception {
       InputStream fis =  new FileInputStream(filename);

       byte[] buffer = new byte[1024];
       MessageDigest complete = MessageDigest.getInstance("MD5");
       int numRead;

       do {
           numRead = fis.read(buffer);
           if (numRead > 0) {
               complete.update(buffer, 0, numRead);
           }
       } while (numRead != -1);

       fis.close();
       return complete.digest();
   }

   // see this How-to for a faster way to convert
   // a byte array to a HEX string
   public static String getMD5Checksum(String filename) throws Exception {
       byte[] b = createChecksum(filename);
       String result = "";

       for (int i=0; i < b.length; i++) {
           result += Integer.toString( ( b[i] & 0xff ) + 0x100, 16).substring( 1 );
       }
       return result;
   }

   public static void main(String args[]) {
       try {
           System.out.println(getMD5Checksum("apache-tomcat-5.5.17.exe"));
           // output :
           //  0bb2827c5eacf570b6064e24e0e6653b
           // ref :
           //  http://www.apache.org/dist/
           //          tomcat/tomcat-5/v5.5.17/bin
           //              /apache-tomcat-5.5.17.exe.MD5
           //  0bb2827c5eacf570b6064e24e0e6653b *apache-tomcat-5.5.17.exe
       }
       catch (Exception e) {
           e.printStackTrace();
       }
   }
}
Bill the Lizard
fonte
70
Sim ... ainda on-line após 11 anos! :-)
RealHowTo
O exemplo no Java-How-To da Real funciona perfeitamente e foi simples de implementar.
bakoyaro
O loop de leitura é um pouco desajeitado. read()não retornará zero e a do/whilenão é realmente apropriado.
Marquês de Lorne
10
@EJP Obrigado pelo seu feedback atempado.
Bill o Lagarto
byte [] buffer = novo byte [1024]; podemos mudar o tamanho de 1024 para algo mais ideal?
Jalpesh
90

A API com.google.common.hash oferece:

  • Uma API amigável e unificada para todas as funções de hash
  • Implementações semeadas de 32 e 128 bits de sopro3
  • Os adaptadores md5 (), sha1 (), sha256 (), sha512 (), alteram apenas uma linha de código para alternar entre eles e o murmúrio.
  • goodFastHash (int bits), para quando você não se importa com o algoritmo que usa
  • Utilitários gerais para instâncias HashCode, como combineOrdered / combineUnordered

Leia o Guia do Usuário ( IO Explained , Hashing Explained ).

Para o seu caso de uso, Files.hash()calcula e retorna o valor de resumo de um arquivo.

Por exemplo, um cálculo de resumo (altere SHA-1 para MD5 para obter o resumo MD5)

HashCode hc = Files.asByteSource(file).hash(Hashing.sha1());
"SHA-1: " + hc.toString();

Observe que é muito mais rápido que então use se você não precisar de uma soma de verificação criptograficamente segura. Note também que não deve ser usado para armazenar senhas e similares, uma vez que é muito fácil usar força bruta, para usar senhas , ou em vez de.

Para proteção de longo prazo com hashes, um esquema de assinatura Merkle aumenta a segurança e o The Post Quantum Cryptography Study Group patrocinado pela Comissão Europeia recomendou o uso dessa criptografia para proteção de longo prazo contra computadores quânticos ( ref ).

Observe que tem uma taxa de colisão mais alta que as outras.

oluies
fonte
Qual parte do Files.hash, conforme declarado acima, não cobre o Files.hash?
Oluies
2
O Files.hash()é marcado como obsoleto, a maneira recomendada é:Files.asByteSource(file).hash(Hashing.sha1())
erkfel
1
E a partir de janeiro de 2018 Hashing.sha1()está marcado como obsoleto. A função Hashing.sha256()é recomendada. fonte
MagicLegend 20/0318
60

Usando o nio2 (Java 7+) e nenhuma biblioteca externa:

byte[] b = Files.readAllBytes(Paths.get("/path/to/file"));
byte[] hash = MessageDigest.getInstance("MD5").digest(b);

Para comparar o resultado com uma soma de verificação esperada:

String expected = "2252290BC44BEAD16AA1BF89948472E8";
String actual = DatatypeConverter.printHexBinary(hash);
System.out.println(expected.equalsIgnoreCase(actual) ? "MATCH" : "NO MATCH");
assilias
fonte
@ Arash sim absolutamente - obrigado. Eu misturei a classe JDK Files e a goiaba.
Assylias 23/05
I como esta solução mais de erickson de uma vez que pode ser embrulhado com Opcionais de usar estilo de programação funcional pura
Gabriel Hernandez
2
Para um arquivo grande, isso consumirá muita memória, pois o arquivo inteiro é lido e, em seguida, alimentado para o resumo, em vez de ler os pedaços e "digeri-los" à medida que são lidos.
bernie
39

O Guava agora oferece uma nova API de hash consistente e muito mais amigável ao usuário do que as várias APIs de hash fornecidas no JDK. Consulte Hashing Explained . Para um arquivo, você pode obter facilmente a soma MD5, CRC32 (com versão 14.0+) ou muitos outros hashes:

HashCode md5 = Files.hash(file, Hashing.md5());
byte[] md5Bytes = md5.asBytes();
String md5Hex = md5.toString();

HashCode crc32 = Files.hash(file, Hashing.crc32());
int crc32Int = crc32.asInt();

// the Checksum API returns a long, but it's padded with 0s for 32-bit CRC
// this is the value you would get if using that API directly
long checksumResult = crc32.padToLong();
ColinD
fonte
32

Está bem. Eu tive que adicionar. Implementação de uma linha para aqueles que já têm dependência do Spring e Apache Commons ou planejam adicioná-lo:

DigestUtils.md5DigestAsHex(FileUtils.readFileToByteArray(file))

Opção apenas para e Apache commons (credit @duleshi):

DigestUtils.md5Hex(FileUtils.readFileToByteArray(file))

Espero que isso ajude alguém.

MickJ
fonte
1
ÉDigestUtils.md5Hex(FileUtils.readFileToByteArray(file))
duleshi
A solução baseada em David Onter é melhor porque não lê um arquivo inteiro na memória.
precisa
Pelo menos para Spring 5 você ter DigestUtils.md5Digest(InputStream inputStream)que calcular o resumo MD5 e DigestUtils.md5DigestAsHex(InputStream inputStream)a representação de sequência hexadecimal dos métodos de resumo MD5 sem ler um arquivo inteiro na memória.
Mike Shauneu
24

Uma abordagem simples sem bibliotecas de terceiros usando Java 7

String path = "your complete file path";
MessageDigest md = MessageDigest.getInstance("MD5");
md.update(Files.readAllBytes(Paths.get(path)));
byte[] digest = md.digest();

Se você precisar imprimir essa matriz de bytes. Use como abaixo

System.out.println(Arrays.toString(digest));

Se você precisar de uma sequência hexadecimal desse resumo. Use como abaixo

String digestInHex = DatatypeConverter.printHexBinary(digest).toUpperCase();
System.out.println(digestInHex);

em que DatatypeConverter é javax.xml.bind.DatatypeConverter

tomar sol
fonte
Por que o toUpperCase?
EdgeCaseBerg
@edgecaseberg apenas para a cadeia hex olhar bom durante a impressão de que a consola
Sunil
Descobri que precisava usar toLowerCase () em vez de toUpperCase ().
Splendour
14

Recentemente, tive que fazer isso por apenas uma sequência dinâmica, MessageDigestpode representar o hash de várias maneiras. Para obter a assinatura do arquivo como você obteria com o comando md5sum , tive que fazer algo parecido com isto:

try {
   String s = "TEST STRING";
   MessageDigest md5 = MessageDigest.getInstance("MD5");
   md5.update(s.getBytes(),0,s.length());
   String signature = new BigInteger(1,md5.digest()).toString(16);
   System.out.println("Signature: "+signature);

} catch (final NoSuchAlgorithmException e) {
   e.printStackTrace();
}

Obviamente, isso não responde à sua pergunta sobre como fazê-lo especificamente para um arquivo, a resposta acima lida muito bem com isso. Passei muito tempo fazendo com que a soma parecesse com a maioria dos aplicativos e achei que você poderia ter o mesmo problema.

Brian Gianforcaro
fonte
A assinatura é o resumo em formato hexadecimal. Também achei que a representação hexadecimal funcionava onde, como você diz, outras representações não funcionam. Obrigado por colocar isso.
Amit
Isso é bom, mas .toString(16)jogará fora os zeros à esquerda. String.format("%032x", ...)talvez melhor.
Harold
11
public static void main(String[] args) throws Exception {
    MessageDigest md = MessageDigest.getInstance("MD5");
    FileInputStream fis = new FileInputStream("c:\\apache\\cxf.jar");

    byte[] dataBytes = new byte[1024];

    int nread = 0;
    while ((nread = fis.read(dataBytes)) != -1) {
        md.update(dataBytes, 0, nread);
    };
    byte[] mdbytes = md.digest();
    StringBuffer sb = new StringBuffer();
    for (int i = 0; i < mdbytes.length; i++) {
        sb.append(Integer.toString((mdbytes[i] & 0xff) + 0x100, 16).substring(1));
    }
    System.out.println("Digest(in hex format):: " + sb.toString());
}

Ou você pode obter mais informações http://www.asjava.com/core-java/java-md5-example/

Geléia
fonte
9
String checksum = DigestUtils.md5Hex(new FileInputStream(filePath));
Ravikiran kalal
fonte
9

Estávamos usando um código semelhante ao código acima em uma postagem anterior usando

...
String signature = new BigInteger(1,md5.digest()).toString(16);
...

No entanto, tenha cuidado ao usar BigInteger.toString()aqui, pois truncará os zeros à esquerda ... (por exemplo, tente s = "27", a soma de verificação deve ser "02e74f10e0327ad868d138f2b4fdd6f0")

Segundo a sugestão de usar o Apache Commons Codec, substituí nosso código por isso.

user552999
fonte
1
Uau, eu estava investigando um problema em que o material MD5 estava funcionando perfeitamente para tudo, exceto que um arquivo estava nos fornecendo apenas uma saída de 31 dígitos hexadecimais e estava com falha nos md5checksums. esse truncamento dos 0s principais é uma dor enorme ... Obrigado pela sua observação.
Mike
8
public static String MD5Hash(String toHash) throws RuntimeException {
   try{
       return String.format("%032x", // produces lower case 32 char wide hexa left-padded with 0
      new BigInteger(1, // handles large POSITIVE numbers 
           MessageDigest.getInstance("MD5").digest(toHash.getBytes())));
   }
   catch (NoSuchAlgorithmException e) {
      // do whatever seems relevant
   }
}
FX
fonte
8

Método Java muito rápido e limpo, que não depende de bibliotecas externas:

(Simplesmente substitua o MD5 por SHA-1, SHA-256, SHA-384 ou SHA-512, se desejar)

public String calcMD5() throws Exception{
        byte[] buffer = new byte[8192];
        MessageDigest md = MessageDigest.getInstance("MD5");

        DigestInputStream dis = new DigestInputStream(new FileInputStream(new File("Path to file")), md);
        try {
            while (dis.read(buffer) != -1);
        }finally{
            dis.close();
        }

        byte[] bytes = md.digest();

        // bytesToHex-method
        char[] hexChars = new char[bytes.length * 2];
        for ( int j = 0; j < bytes.length; j++ ) {
            int v = bytes[j] & 0xFF;
            hexChars[j * 2] = hexArray[v >>> 4];
            hexChars[j * 2 + 1] = hexArray[v & 0x0F];
        }

        return new String(hexChars);
}
David
fonte
6

Maneira padrão do Java Runtime Environment :

public String checksum(File file) {
  try {
    InputStream fin = new FileInputStream(file);
    java.security.MessageDigest md5er =
        MessageDigest.getInstance("MD5");
    byte[] buffer = new byte[1024];
    int read;
    do {
      read = fin.read(buffer);
      if (read > 0)
        md5er.update(buffer, 0, read);
    } while (read != -1);
    fin.close();
    byte[] digest = md5er.digest();
    if (digest == null)
      return null;
    String strDigest = "0x";
    for (int i = 0; i < digest.length; i++) {
      strDigest += Integer.toString((digest[i] & 0xff) 
                + 0x100, 16).substring(1).toUpperCase();
    }
    return strDigest;
  } catch (Exception e) {
    return null;
  }
}

O resultado é igual ao utilitário linux md5sum.

gotozero
fonte
6

Aqui está uma função simples que envolve o código do Sunil para que ele use um arquivo como parâmetro. A função não precisa de bibliotecas externas, mas requer o Java 7.

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;

import javax.xml.bind.DatatypeConverter;

public class Checksum {

    /**
     * Generates an MD5 checksum as a String.
     * @param file The file that is being checksummed.
     * @return Hex string of the checksum value.
     * @throws NoSuchAlgorithmException
     * @throws IOException
     */
    public static String generate(File file) throws NoSuchAlgorithmException,IOException {

        MessageDigest messageDigest = MessageDigest.getInstance("MD5");
        messageDigest.update(Files.readAllBytes(file.toPath()));
        byte[] hash = messageDigest.digest();

        return DatatypeConverter.printHexBinary(hash).toUpperCase();
    }

    public static void main(String argv[]) throws NoSuchAlgorithmException, IOException {
        File file = new File("/Users/foo.bar/Documents/file.jar");          
        String hex = Checksum.generate(file);
        System.out.printf("hex=%s\n", hex);            
    }


}

Exemplo de saída:

hex=B117DD0C3CBBD009AC4EF65B6D75C97B
stackoverflowuser2010
fonte
3

Se você estiver usando o ANT para criar, isso é simples. Adicione o seguinte ao seu build.xml:

<checksum file="${jarFile}" todir="${toDir}"/>

Onde jarFile é o JAR no qual você deseja gerar o MD5 e toDir é o diretório no qual você deseja colocar o arquivo MD5.

Mais informações aqui.

Matt Brock
fonte
3

A goiaba do Google fornece uma nova API. Encontre o abaixo:

public static HashCode hash(File file,
            HashFunction hashFunction)
                     throws IOException

Computes the hash code of the file using hashFunction.

Parameters:
    file - the file to read
    hashFunction - the hash function to use to hash the data
Returns:
    the HashCode of all of the bytes in the file
Throws:
    IOException - if an I/O error occurs
Since:
    12.0
Balaji Boggaram Ramanarayan
fonte
3

Aqui está uma variação prática que utiliza o InputStream.transferTo()Java 9 e o OutputStream.nullOutputStream()Java 11. Ele não requer bibliotecas externas e não precisa carregar o arquivo inteiro na memória.

public static String hashFile(String algorithm, File f) throws IOException, NoSuchAlgorithmException {
    MessageDigest md = MessageDigest.getInstance(algorithm);

    try(BufferedInputStream in = new BufferedInputStream((new FileInputStream(f)));
        DigestOutputStream out = new DigestOutputStream(OutputStream.nullOutputStream(), md)) {
        in.transferTo(out);
    }

    String fx = "%0" + (md.getDigestLength()*2) + "x";
    return String.format(fx, new BigInteger(1, md.digest()));
}

e

hashFile("SHA-512", Path.of("src", "test", "resources", "some.txt").toFile());

retorna

"e30fa2784ba15be37833d569280e2163c6f106506dfb9b07dde67a24bfb90da65c661110cf2c5c6f71185754ee5ae3fd83a5465c92f72abd888b03187229da29"
Conta
fonte
2
public static String getMd5OfFile(String filePath)
{
    String returnVal = "";
    try 
    {
        InputStream   input   = new FileInputStream(filePath); 
        byte[]        buffer  = new byte[1024];
        MessageDigest md5Hash = MessageDigest.getInstance("MD5");
        int           numRead = 0;
        while (numRead != -1)
        {
            numRead = input.read(buffer);
            if (numRead > 0)
            {
                md5Hash.update(buffer, 0, numRead);
            }
        }
        input.close();

        byte [] md5Bytes = md5Hash.digest();
        for (int i=0; i < md5Bytes.length; i++)
        {
            returnVal += Integer.toString( ( md5Bytes[i] & 0xff ) + 0x100, 16).substring( 1 );
        }
    } 
    catch(Throwable t) {t.printStackTrace();}
    return returnVal.toUpperCase();
}
XXX
fonte