Веб-сайт, над которым я работаю, содержит несколько сотен PDF-файлов. Я не думаю, что когда-либо видел, чтобы кто-то из них возвращался в поиске, но есть ссылки на него непосредственно с нашего сайта. Они также полны ключевых слов, потому что они являются документами продукта.
Что нам нужно сделать, чтобы Google или другие поисковые системы сканировали их?
Существуют ли жесткие и быстрые правила для создания PDF-файлов, чтобы они больше нравились Google? Например, должен ли я запустить их через ghostscript, чтобы очистить поврежденные теги PDF, которые Adobe создает во время генерации?
Ответы:
Google определенно индексирует PDF-файлы, и вы можете искать только PDF-файлы, добавляя их
filetype:pdf
в свой поисковый запрос ( пример ).Я бы сказал, что основные вещи, которые нужно сделать для оптимизации PDF-файла, чтобы его можно было легко проиндексировать:
Дополнительные советы читайте в статье «Оптимизация PDF-документов» и « Одиннадцать советов по оптимизации PDF-файлов для поисковых систем».
источник
Я не уверен насчет других поисковых систем, но что касается Google, главное правило - не исключать их через robots.txt.
Это было их первое объявление о поддержке поиска в PDF.
источник
Точно так же, как совместимость веб-сайта не повредит вашему SEO, так и доступность вашего PDF не повредит. Встроенная программа проверки доступности Adobe далека от совершенства, но, по крайней мере, исправление этих областей поможет вам начать работу.
Я, вероятно, трачу 5 минут на каждые 4 или 5, в основном текстовые PDF-файлы, которые мы размещаем в Интернете. Время увеличивается равномерно в зависимости от количества страниц и сложности этих страниц.
Предполагая, что у вас есть Adobe Acrobat Pro для редактирования:
Для более сложного редактирования, такого как таблицы и действительно странные ошибки Adobe, мы используем плагин CommonLook. CommonLook выполняет свою работу, но я ненавижу ее почти так же сильно, как ненавижу инструменты Adobe.
Ознакомьтесь с инструментом «Задание порядка чтения», панелью инструментов «Теги», панелью «Порядок чтения» и панелью «Содержимое». Моя работа требует полностью соответствующих документов, прежде чем выходить в Интернет, но любой может получить пользу от некоторых простых тегов и свойств документа.
источник