Как я могу заставить Google индексировать мои PDF документы?

14

У нас проблемы с тем, чтобы Google проиндексировал файлы PDF на нашем сайте. Существует около 50 PDF и размером от 20 КБ до двух мегабайт. Они не защищены, их можно читать анонимно, а внутри PDF Reader вы можете искать документ.

Они перечислены в SiteMap.xml. Я даже могу посмотреть журналы IIS и увидеть, как робот Google читает файлы PDF, но, кроме пяти, они никогда не включаются в результаты поиска.

Если я сделаю filetye: pdf, появятся только пять PDF-файлов. Если я ищу текст, который, как я знаю, находится внутри PDF-файла, PDF-файлы никогда не отображаются (кроме пяти проиндексированных).

Кто-нибудь знает, почему более 45 документов PDF не включены в индекс, даже если они есть в карте сайта и робот Googlebot их читает?

danlefree
источник
Вы указываете тип контента для Google?
Крис Балланс

Ответы:

4

все PDF-файлы расположены в одном месте? Однажды у меня была проблема, что одно из моих pdf-местоположений было внутри папки, которая была исключена из robots.txt. Отправьте свою карту сайта непосредственно на сайт инструментов google-webmaster, и вы можете получить ценную информацию о причинах отсутствия PDF-файлов. в моем случае Google сказал мне: «Эй, эти 54 PDF-документа есть в твоей карте сайта, но из-за ограничений robots.txt мы не можем их проиндексировать». так что это было довольно полезно. но помните, что говорит комментатор, может пройти некоторое время, пока эта информация не появится.

Инструменты Google для веб-мастеров: https://www.google.com/webmasters/tools

Markus
источник
Я просто добавлю, что Инструменты Google для веб-мастеров не предоставляют всю информацию в режиме реального времени. Это все еще жизненно важный ресурс, хотя.
Лиам
Нет, файлы PDF находятся в нескольких разных местах на сайте. Я проверил, и ни один из них не блокируется robots.txt. Я использую Инструменты для веб-мастеров и отправляю файлы Sitemap и буду делать это. Спасибо за ваш отзыв. Джим
1

Между начальным чтением вашего контента в Google и появлением его в индексе может быть довольно большой разрыв. Недавно мы повторно запустили сайт, отправив карты сайта в Google при запуске, и потребовалось около 3 недель, чтобы новые страницы начали появляться в результатах поиска.

Как давно вы отправляли эти PDF-файлы через карту сайта?

(кроме пяти, которые проиндексированы)

Похоже, ваши PDF-файлы индексируются, но это занимает некоторое время. Предполагая, что нет никакой разницы в том, как были сгенерированы неиндексированные PDF-файлы, тогда я подозреваю, что обновление индекса занимает некоторое время.

Если немного коснуться, одним из полезных инструментов, на который я бы порекомендовал подписаться, является Google Webmaster - он показывает скорость сканирования, проблемы с вашим сайтом, карты сайта и индексацию в течение дня или около того, когда робот Google попал на ваш сайт. Это может сэкономить вам немного времени при просмотре журналов IIS.

ConroyP
источник
Прошло около четырех недель с тех пор, как мы впервые представили нашу карту сайта. Я только заметил, что прошлой ночью они проиндексировали еще четыре; так что, может быть, мне просто нужно продолжать ждать :)
Когда вы повторно запускали сайт, если потребовалось 3 недели, чтобы новые страницы начали появляться в результатах поиска, не означало ли это, что в течение 3 недель поиск возвращал результаты на страницы, которых больше не было на вашем сайте? разве это не привело к большому количеству условий «страница не найдена»?
В нашей ситуации перезапуск совпал с запуском нового раздела, старые ссылки все еще работали - 3 недели были временем, когда новый раздел начал появляться. Случайное время ожидания может быть немного расстраивает хорошо!
ConroyP
0

Ваши файлы PDF OCR сканируются, чтобы текст можно было выбирать и искать? Или файлы PDF сканируются без распознавания текста, и в этом случае текст будет сохранен в виде большого изображения? Если PDF - это все изображения, я не думаю, что Google может проиндексировать его (пока). Или Google уже нашел ваши страницы?


источник