CentOS
Existe uma maneira fácil de converter entidades especiais HTML de um fluxo de dados? Estou passando dados para um script bash e, às vezes, esses dados incluem entidades especiais. Por exemplo:
"teste" & amp; test $ test! teste @ # $% ^ & amp; *
Não sei por que alguns caracteres aparecem bem e outros não, mas infelizmente não tenho controle sobre os dados recebidos.
Acho que posso usar o SED aqui, mas isso parece complicado e possivelmente propenso a falsos positivos. Existe um comando do Linux para o qual eu possa canalizar que é especializado em decodificar esse tipo de dados?
recode parece disponível em repositórios de pacotes padrão das principais distribuições GNU / Linux. Por exemplo, para decodificar entidades HTML em UTF-8:
fonte
Com o Python 3:
fonte
Retorna o arquivo de texto do stdin:
Provavelmente precisa do bash> = versão 4
fonte