Поисковые системы сканируют PDF-файлы и, если да, существуют ли какие-либо правила, которым нужно следовать при их создании?

22

Веб-сайт, над которым я работаю, содержит несколько сотен PDF-файлов. Я не думаю, что когда-либо видел, чтобы кто-то из них возвращался в поиске, но есть ссылки на него непосредственно с нашего сайта. Они также полны ключевых слов, потому что они являются документами продукта.

Что нам нужно сделать, чтобы Google или другие поисковые системы сканировали их?

Существуют ли жесткие и быстрые правила для создания PDF-файлов, чтобы они больше нравились Google? Например, должен ли я запустить их через ghostscript, чтобы очистить поврежденные теги PDF, которые Adobe создает во время генерации?

Бен Хоффман
источник
Добавить в свой XML-файл сайта, чтобы убедиться, что они знают о них?
artlung

Ответы:

17

Google определенно индексирует PDF-файлы, и вы можете искать только PDF-файлы, добавляя их filetype:pdfв свой поисковый запрос ( пример ).

Я бы сказал, что основные вещи, которые нужно сделать для оптимизации PDF-файла, чтобы его можно было легко проиндексировать:

  • Дайте ему осмысленное имя файла
  • Заполните все свойства метаданных документа (заголовок, автор, ключевые слова и т. Д.)
  • Убедитесь, что ваш PDF состоит из реального текста, а не отсканированных изображений
  • Убедитесь, что у вас есть хороший контент с правильным использованием заголовков, так же, как вы бы HTML-документ

Дополнительные советы читайте в статье «Оптимизация PDF-документов» и « Одиннадцать советов по оптимизации PDF-файлов для поисковых систем».

Дэн Диплом
источник
ссылка labs.justsearching.co.uk/optimizing-pdf-documents-621.html больше не работает
@Christofian Спасибо - я обновил ссылку. Я предоставлю читателю возможность оценить иронию SEO-компании, переименовывающей свои ссылки без переадресации 301!
Дэн Дипломат
@DanDiplo в отношении SEO файлов PDF. Я бы предложил добавить ссылку на контент, если это применимо.
Анаджо
1

Я не уверен насчет других поисковых систем, но что касается Google, главное правило - не исключать их через robots.txt.

Это было их первое объявление о поддержке поиска в PDF.

intlect
источник
1

Точно так же, как совместимость веб-сайта не повредит вашему SEO, так и доступность вашего PDF не повредит. Встроенная программа проверки доступности Adobe далека от совершенства, но, по крайней мере, исправление этих областей поможет вам начать работу.

Я, вероятно, трачу 5 минут на каждые 4 или 5, в основном текстовые PDF-файлы, которые мы размещаем в Интернете. Время увеличивается равномерно в зависимости от количества страниц и сложности этих страниц.

Предполагая, что у вас есть Adobe Acrobat Pro для редактирования:

  • Запустите полную проверку доступности. (Быстрая проверка довольно бессмысленна для меня)
  • Обновите метаинформацию в свойствах документа (ключевые слова, тема, язык и т. Д.)
  • Убедитесь, что теги добавлены
  • Убедитесь, что текст помечен как текст, изображения как изображения, фоновый материал как фон
  • Отметьте бесполезный пух (как украшение или дизайн) в качестве фона
  • Добавить хороший альтернативный текст к изображениям
  • Убедитесь, что в порядке чтения текст упорядочен правильно
  • На панели инструментов содержимого убедитесь, что текст не продублирован или неправильно переведен
  • Используйте сканер OCR на отсканированных страницах

Для более сложного редактирования, такого как таблицы и действительно странные ошибки Adobe, мы используем плагин CommonLook. CommonLook выполняет свою работу, но я ненавижу ее почти так же сильно, как ненавижу инструменты Adobe.

Ознакомьтесь с инструментом «Задание порядка чтения», панелью инструментов «Теги», панелью «Порядок чтения» и панелью «Содержимое». Моя работа требует полностью соответствующих документов, прежде чем выходить в Интернет, но любой может получить пользу от некоторых простых тегов и свойств документа.

MrChrister
источник
На нашем сайте было более 5000 PDF-файлов, которые мы должны были вернуть и довести до полного соответствия 508. Для изучения потребовалось некоторое время, Adobe предложила, чтобы тренер не помог, но как только вы выучите его, вы действительно сможете разархивировать его.
MrChrister