Como decodificar sequências de escape Unicode como “\ u00ed” para caracteres codificados em UTF-8 adequados?

96

Existe uma função no PHP que pode decodificar sequências de escape Unicode como " \u00ed" para " í" e todas as outras ocorrências semelhantes?

Encontrei uma pergunta semelhante aqui, mas não parece funcionar.

Docstero
fonte

Respostas:

169

Experimente isto:

$str = preg_replace_callback('/\\\\u([0-9a-fA-F]{4})/', function ($match) {
    return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE');
}, $str);

No caso de ser C / C ++ / Java / estilo Json baseado em UTF-16:

$str = preg_replace_callback('/\\\\u([0-9a-fA-F]{4})/', function ($match) {
    return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UTF-16BE');
}, $str);
quiabo
fonte
1
Onde coloco "\ u00ed"?
Docstero
2
@Docstero: A expressão regular corresponderá a qualquer sequência de \useguida por quatro dígitos hexadecimais.
Gumbo
9
Esta função não pode lidar com caracteres suplementares, pois eles não podem ser representados no UCS-2.
Artefacto
3
@gumbo Como você chama ou usa esta função?
Demodave de
2
Eu encontrei meu caminho aqui como eu tinha \ u00ed em minha saída, mas eu estava olhando para a saída com json_encode () e curiosamente o json_encode () padrão irá destruir a saída, então use json_encode ($ theDict, JSON_PRETTY_PRINT | JSON_UNESCAPED_UNICODE);
Tom Andersen
71
print_r(json_decode('{"t":"\u00ed"}')); // -> stdClass Object ( [t] => í )
2BJ
fonte
44
Nem precisa do invólucro do objeto:json_decode('"' . $text . '"')
deceze
3
Obrigado. Este parece ser o MODO PADRÃO , ao invés de uma resposta aceita.
T.Todua
Curiosamente, isso também funciona para entidades complexas como rostos sorridentes ... json_decode('{"t":"\uD83D\uDE0A"}')é 😊
DynamicDan
2
@deceze você deve incluir o fato de que $textpode incluir aspas duplas. Assim, uma versão revisada seria: json_decode('"'.str_replace('"', '\\"', $text).'"'). Obrigado pela sua ajuda :-)
Yvan
10
$str = '\u0063\u0061\u0074'.'\ud83d\ude38';
$str2 = '\u0063\u0061\u0074'.'\ud83d';

// U+1F638
var_dump(
    "cat\xF0\x9F\x98\xB8" === escape_sequence_decode($str),
    "cat\xEF\xBF\xBD" === escape_sequence_decode($str2)
);

function escape_sequence_decode($str) {

    // [U+D800 - U+DBFF][U+DC00 - U+DFFF]|[U+0000 - U+FFFF]
    $regex = '/\\\u([dD][89abAB][\da-fA-F]{2})\\\u([dD][c-fC-F][\da-fA-F]{2})
              |\\\u([\da-fA-F]{4})/sx';

    return preg_replace_callback($regex, function($matches) {

        if (isset($matches[3])) {
            $cp = hexdec($matches[3]);
        } else {
            $lead = hexdec($matches[1]);
            $trail = hexdec($matches[2]);

            // http://unicode.org/faq/utf_bom.html#utf16-4
            $cp = ($lead << 10) + $trail + 0x10000 - (0xD800 << 10) - 0xDC00;
        }

        // https://tools.ietf.org/html/rfc3629#section-3
        // Characters between U+D800 and U+DFFF are not allowed in UTF-8
        if ($cp > 0xD7FF && 0xE000 > $cp) {
            $cp = 0xFFFD;
        }

        // https://github.com/php/php-src/blob/php-5.6.4/ext/standard/html.c#L471
        // php_utf32_utf8(unsigned char *buf, unsigned k)

        if ($cp < 0x80) {
            return chr($cp);
        } else if ($cp < 0xA0) {
            return chr(0xC0 | $cp >> 6).chr(0x80 | $cp & 0x3F);
        }

        return html_entity_decode('&#'.$cp.';');
    }, $str);
}
masakielástico
fonte
Obrigado. Isso parece funcionar com caráter suplementar, como😍
c00000fd
3

Esta é uma abordagem violenta para substituir UNICODE bruto por HTML. Não vi nenhum outro lugar para colocar essa solução, mas presumo que outros já tenham tido esse problema.

Aplique esta função str_replace ao RAW JSON , antes de fazer qualquer outra coisa.

function unicode2html($str){
    $i=65535;
    while($i>0){
        $hex=dechex($i);
        $str=str_replace("\u$hex","&#$i;",$str);
        $i--;
     }
     return $str;
}

Isso não vai demorar tanto quanto você pensa e vai substituir QUALQUER unicode por HTML.

É claro que isso pode ser reduzido se você conhecer os tipos Unicode que estão sendo retornados no JSON.

Por exemplo, meu código estava recebendo muitas setas e unicode dingbat. Eles estão entre 8448 e 11263. Portanto, meu código de produção se parece com:

$i=11263;
while($i>08448){
    ...etc...

Você pode pesquisar os blocos de Unicode por tipo aqui: http://unicode-table.com/en/ Se você sabe que está traduzindo árabe ou telegu ou qualquer outra coisa, pode apenas substituir esses códigos, não todos os 65.000.

Você pode aplicar esta mesma marreta à codificação simples:

 $str=str_replace("\u$hex",chr($i),$str);
Nemo Noman
fonte
1

Também existe uma solução:
http://www.welefen.com/php-unicode-to-utf8.html

function entity2utf8onechar($unicode_c){
    $unicode_c_val = intval($unicode_c);
    $f=0x80; // 10000000
    $str = "";
    // U-00000000 - U-0000007F:   0xxxxxxx
    if($unicode_c_val <= 0x7F){         $str = chr($unicode_c_val);     }     //U-00000080 - U-000007FF:  110xxxxx 10xxxxxx
    else if($unicode_c_val >= 0x80 && $unicode_c_val <= 0x7FF){         $h=0xC0; // 11000000
        $c1 = $unicode_c_val >> 6 | $h;
        $c2 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2);
    } else if($unicode_c_val >= 0x800 && $unicode_c_val <= 0xFFFF){         $h=0xE0; // 11100000
        $c1 = $unicode_c_val >> 12 | $h;
        $c2 = (($unicode_c_val & 0xFC0) >> 6) | $f;
        $c3 = ($unicode_c_val & 0x3F) | $f;
        $str=chr($c1).chr($c2).chr($c3);
    }
    //U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x10000 && $unicode_c_val <= 0x1FFFFF){         $h=0xF0; // 11110000
        $c1 = $unicode_c_val >> 18 | $h;
        $c2 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c3 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c4 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4);
    }
    //U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x200000 && $unicode_c_val <= 0x3FFFFFF){         $h=0xF8; // 11111000
        $c1 = $unicode_c_val >> 24 | $h;
        $c2 = (($unicode_c_val & 0xFC0000)>>18) | $f;
        $c3 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c4 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c5 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4).chr($c5);
    }
    //U-04000000 - U-7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    else if($unicode_c_val >= 0x4000000 && $unicode_c_val <= 0x7FFFFFFF){         $h=0xFC; // 11111100
        $c1 = $unicode_c_val >> 30 | $h;
        $c2 = (($unicode_c_val & 0x3F000000)>>24) | $f;
        $c3 = (($unicode_c_val & 0xFC0000)>>18) | $f;
        $c4 = (($unicode_c_val & 0x3F000) >>12) | $f;
        $c5 = (($unicode_c_val & 0xFC0) >>6) | $f;
        $c6 = ($unicode_c_val & 0x3F) | $f;
        $str = chr($c1).chr($c2).chr($c3).chr($c4).chr($c5).chr($c6);
    }
    return $str;
}
function entities2utf8($unicode_c){
    $unicode_c = preg_replace("/\&\#([\da-f]{5})\;/es", "entity2utf8onechar('\\1')", $unicode_c);
    return $unicode_c;
}
Jianyong
fonte
1

corrigir valores json, é adicionado \ antes de u {xxx} a todos + ""

  $item = preg_replace_callback('/"(.+?)":"(u.+?)",/', function ($matches) {
        $matches[2] = preg_replace('/(u)/', '\u', $matches[2]);
            $matches[2] = preg_replace('/(")/', '&quot;', $matches[2]); 
            $matches[2] = json_decode('"' . $matches[2] . '"'); 
            return '"' . $matches[1] . '":"' . $matches[2] . '",';
        }, $item);
orel
fonte