Иногда документы Word кажутся более или менее сломанными, обычно, когда макет стал довольно сложным, и документ несколько раз переходил из рук в руки и / или версии. Симптомы могут заключаться в том, что ничего не происходит при нажатии клавиш Backspaceили Enterв определенном месте документа, где он действительно должен работать, или что форматирование, по-видимому, применяется и сбрасывается сам более или менее случайным образом. Я думаю, что мы все были там.
Зачастую бывает очень трудно точно понять, что не так, поскольку то, что происходит в Word, скрыто от глаз. Вы можете иметь документ, который выглядит пустым, но в действительности базовое состояние относительно форматирования и т. Д. Может быть довольно сложным.
В этих случаях было бы полезно взглянуть на исходный код за тем, что показано на странице; как то, как вы в браузере могли бы делать View Source , и в идеале иметь возможность вносить изменения непосредственно в исходный код, например, как это было бы при использовании Latex. Существует ли команда или утилита View Source-type для документов Microsoft Word?
Я думаю, что нет такой команды, или я бы услышал об этом. Если это так, есть ли у кого-нибудь хороший подход, когда дело доходит до контроля над раздражающим «скрытым форматированием» в документе Word ?
Я подозреваю, что могут быть некоторые различия в форматах .doc и .docx; Я заинтересован в обоих случаях.
источник
Я думаю, что формат .doc довольно сложный, поэтому я не могу вам здесь помочь. Однако на самом деле .docx - это zip-файл, в котором все данные хранятся в XML-файлах. Таким образом, переименуйте файл в .zip и посмотрите на источник!
источник
Когда дело доходит до двоичного формата, такого как * .doc, все становится сложнее. Вы можете использовать mso-dumper LibreOffice . Просто клонируйте решение на свой локальный компьютер и запустите
Теперь все вещи в двоичном файле будут преобразованы в xml в точном формате, описанном в двоичном формате Word (.doc).
Есть также WordFileDump, который проще, но не такой мощный, как mso-dumper.
К сожалению, они предназначены только для анализа структуры, и нет инструмента для повторной сборки вывода xml обратно в файл * .doc, поэтому, как только вы найдете причину, вам придется использовать Word для ее редактирования. Поэтому было бы проще преобразовать в * .docx, изучить файл * .docx, а затем преобразовать обратно в * .doc, если это необходимо.
Или вы также можете сохранить файл как rtf, который является «читаемым человеком» текстовым файлом вместо офисного xml. Или сохраните файл слова как HTML
источник