Às vezes, os documentos do Word parecem mais ou menos interrompidos, geralmente quando o layout se torna bastante complexo e o documento muda de mãos e / ou versões algumas vezes. Os sintomas podem ser que nada acontece ao pressionar as teclas Backspaceou Enterem um determinado local do documento onde ele realmente deve funcionar, ou que a formatação parece se aplicar e redefinir a si mesma mais ou menos aleatoriamente. Eu acho que todos nós estivemos lá.
Muitas vezes, pode ser muito difícil saber exatamente o que está errado, pois o que acontece sob o capô do Word é bastante opaco. Você pode ter um documento que parece vazio, mas, na realidade, o estado subjacente em relação à formatação etc pode ser bastante complexo.
Nesses casos, seria útil espiar o código fonte por trás do que é mostrado na página; como você em um navegador pode fazer o View Source e, idealmente, fazer edições diretamente no código fonte, como faria ao usar o Latex.Existe um comando ou utilitário do tipo View Source para documentos do Microsoft Word?
Meu palpite é que não existe esse comando, ou eu teria ouvido falar sobre isso. Se for esse o caso, alguém tem uma boa abordagem quando se trata de controlar a "formatação oculta" irritante em um documento do Word ?
Eu suspeito que possa haver algumas diferenças nos formatos .doc e .docx; Estou interessado nos dois casos.
fonte
Eu acho que o formato .doc é muito difícil, então não posso ajudá-lo aqui. No entanto, .docx é realmente um arquivo zip com todos os detalhes armazenados nos arquivos XML. Assim, renomeie o arquivo para .zip e dê uma olhada na fonte!
fonte
Quando se trata de um formato binário como * .doc, as coisas são mais complicadas. Você pode usar o mso-dumper do LibreOffice . Apenas clone a solução na sua máquina local e execute
Agora, todas as coisas no arquivo binário serão convertidas para xml no formato exato descrito em Formato de arquivo binário do Word (.doc)
Há também o WordFileDump, que é mais simples, mas não tão poderoso quanto o mso-dumper
Infelizmente, esses são apenas para analisar a estrutura e não há ferramenta para remontar a saída xml para um arquivo * .doc; portanto, depois de encontrar a causa raiz, você precisará usar o Word para editá-la. Portanto, seria mais fácil converter para * .docx, examine o arquivo * .docx e depois converta novamente para * .doc, se necessário
Ou você também pode salvar o arquivo como rtf, que é um arquivo de texto "legível por humanos" em vez do xml do office. Como alternativa, salve o arquivo do word como html
fonte