«Просмотр исходного кода» - эквивалент документов Word?

11

Иногда документы Word кажутся более или менее сломанными, обычно, когда макет стал довольно сложным, и документ несколько раз переходил из рук в руки и / или версии. Симптомы могут заключаться в том, что ничего не происходит при нажатии клавиш Backspaceили Enterв определенном месте документа, где он действительно должен работать, или что форматирование, по-видимому, применяется и сбрасывается сам более или менее случайным образом. Я думаю, что мы все были там.

Зачастую бывает очень трудно точно понять, что не так, поскольку то, что происходит в Word, скрыто от глаз. Вы можете иметь документ, который выглядит пустым, но в действительности базовое состояние относительно форматирования и т. Д. Может быть довольно сложным.

В этих случаях было бы полезно взглянуть на исходный код за тем, что показано на странице; как то, как вы в браузере могли бы делать View Source , и в идеале иметь возможность вносить изменения непосредственно в исходный код, например, как это было бы при использовании Latex. Существует ли команда или утилита View Source-type для документов Microsoft Word?

Я думаю, что нет такой команды, или я бы услышал об этом. Если это так, есть ли у кого-нибудь хороший подход, когда дело доходит до контроля над раздражающим «скрытым форматированием» в документе Word ?

Я подозреваю, что могут быть некоторые различия в форматах .doc и .docx; Я заинтересован в обоих случаях.

Godsmith
источник

Ответы:

11

Если форматирование - это то, что вас в первую очередь интересует, тогда в Word есть хороший выбор для проверки всех типов форматирования, применяемых к тексту и объектам, которые называются « Отображать форматирование» . В Word 2007 и 2010 ярлык для этой панели Shift+ F1.

введите описание изображения здесь

В противном случае, если вы ищете более глубокое понимание формата документа, вы можете посмотреть на XML для файлов DOCX.

  1. Найдите документ DOCX на диске.
  2. Измените расширение документа с .docx на .zip.
  3. Дважды щелкните файл и откройте его в менеджере архивов по умолчанию.
  4. Перейдите в папку «Word» в программе zip и откройте Document.xml . Это код, который составляет основную часть содержимого документа, хотя другие файлы также используются другими способами, например, для стилей или информации о шрифтах.

Вам определенно понадобится приличный редактор XML только для просмотра данных, и даже тогда он довольно сложный и для большого документа будет очень очень длинным.

Когда дело доходит до DOC, нет простого способа «просмотреть исходный код», поскольку это двоичный файл, состоящий из отдельных потоков, и, следовательно, нет простого способа просмотра содержимого.

Адам
источник
Это очень удобно, я этого не знал. Жаль, что вы не можете сделать то же самое для .doc-файлов, поскольку моя компания все еще этим занимается. Спасибо за объяснение, хотя!
Кузнец
1
@Godsmith Вы можете сохранить DOC как DOCX, используя более новую версию Word, а затем вернуться в DOC после внесения любых изменений. В этом процессе происходит потеря формата, поэтому будьте осторожны, но вы можете обнаружить, что можете вносить изменения или исправлять проблемы в типах DOC, делая это в DOCX.
ThisClark
Вы также можете сохранить любые файлы непосредственно в формате HTML в MS Word. В качестве альтернативы вы можете сохранить как RTF и открыть файл RTF как текст
phuclv
3

Я думаю, что формат .doc довольно сложный, поэтому я не могу вам здесь помочь. Однако на самом деле .docx - это zip-файл, в котором все данные хранятся в XML-файлах. Таким образом, переименуйте файл в .zip и посмотрите на источник!

Питер Альберт
источник
0

Когда дело доходит до двоичного формата, такого как * .doc, все становится сложнее. Вы можете использовать mso-dumper LibreOffice . Просто клонируйте решение на свой локальный компьютер и запустите

python doc-dump.py \path\to\file.doc >output.xml

Теперь все вещи в двоичном файле будут преобразованы в xml в точном формате, описанном в двоичном формате Word (.doc).

Есть также WordFileDump, который проще, но не такой мощный, как mso-dumper.

К сожалению, они предназначены только для анализа структуры, и нет инструмента для повторной сборки вывода xml обратно в файл * .doc, поэтому, как только вы найдете причину, вам придется использовать Word для ее редактирования. Поэтому было бы проще преобразовать в * .docx, изучить файл * .docx, а затем преобразовать обратно в * .doc, если это необходимо.

Или вы также можете сохранить файл как rtf, который является «читаемым человеком» текстовым файлом вместо офисного xml. Или сохраните файл слова как HTML

phuclv
источник