Ao tentar converter um arquivo de texto em seu equivalente ASCII, recebo uma mensagem de erro iconv: illegal input sequence at position
.
O comando que eu uso é iconv -f UTF-8 -t ascii//TRANSLIT file
O personagem ofensivo é æ
.
O próprio arquivo de texto está presente aqui .
Por que diz sequência ilegal? O caractere de entrada é o caractere UTF-8 adequado (U + 00E6).
text-processing
character-encoding
unicode
user13107
fonte
fonte
hexdump -C file
comando e tenho0002b220 72 75 69 6e e6 0a 20 2d 2d 20 48 6f 72 61 63 65 |ruin.. -- Horace|
como saída.O arquivo que você vinculou parece ser UTF-8 dentro de um documento HTML
Se você executá-lo através de um conversor de HTML para texto primeiro, por exemplo,
então o fragmento UTF-8 com o qual você parece estar tendo problemas parece transliterar sem erros, ou seja,
torna-se
O
html2text
utilitário pode não estar instalado no seu sistema - se você não conseguir localizar / instalar, existem outros conversores, incluindo um módulo python.fonte
file
comando diz ASCII, mas a razão é que ele só olha para o início do arquivo, eo caráter ISO-8859-1 parece muito longe, na posição 181536.