У нас проблемы с тем, чтобы Google проиндексировал файлы PDF на нашем сайте. Существует около 50 PDF и размером от 20 КБ до двух мегабайт. Они не защищены, их можно читать анонимно, а внутри PDF Reader вы можете искать документ.
Они перечислены в SiteMap.xml. Я даже могу посмотреть журналы IIS и увидеть, как робот Google читает файлы PDF, но, кроме пяти, они никогда не включаются в результаты поиска.
Если я сделаю filetye: pdf, появятся только пять PDF-файлов. Если я ищу текст, который, как я знаю, находится внутри PDF-файла, PDF-файлы никогда не отображаются (кроме пяти проиндексированных).
Кто-нибудь знает, почему более 45 документов PDF не включены в индекс, даже если они есть в карте сайта и робот Googlebot их читает?
google
search-engine-indexing
search
pdf
danlefree
источник
источник
Ответы:
все PDF-файлы расположены в одном месте? Однажды у меня была проблема, что одно из моих pdf-местоположений было внутри папки, которая была исключена из robots.txt. Отправьте свою карту сайта непосредственно на сайт инструментов google-webmaster, и вы можете получить ценную информацию о причинах отсутствия PDF-файлов. в моем случае Google сказал мне: «Эй, эти 54 PDF-документа есть в твоей карте сайта, но из-за ограничений robots.txt мы не можем их проиндексировать». так что это было довольно полезно. но помните, что говорит комментатор, может пройти некоторое время, пока эта информация не появится.
Инструменты Google для веб-мастеров: https://www.google.com/webmasters/tools
источник
Между начальным чтением вашего контента в Google и появлением его в индексе может быть довольно большой разрыв. Недавно мы повторно запустили сайт, отправив карты сайта в Google при запуске, и потребовалось около 3 недель, чтобы новые страницы начали появляться в результатах поиска.
Как давно вы отправляли эти PDF-файлы через карту сайта?
Похоже, ваши PDF-файлы индексируются, но это занимает некоторое время. Предполагая, что нет никакой разницы в том, как были сгенерированы неиндексированные PDF-файлы, тогда я подозреваю, что обновление индекса занимает некоторое время.
Если немного коснуться, одним из полезных инструментов, на который я бы порекомендовал подписаться, является Google Webmaster - он показывает скорость сканирования, проблемы с вашим сайтом, карты сайта и индексацию в течение дня или около того, когда робот Google попал на ваш сайт. Это может сэкономить вам немного времени при просмотре журналов IIS.
источник
Ваши файлы PDF OCR сканируются, чтобы текст можно было выбирать и искать? Или файлы PDF сканируются без распознавания текста, и в этом случае текст будет сохранен в виде большого изображения? Если PDF - это все изображения, я не думаю, что Google может проиндексировать его (пока). Или Google уже нашел ваши страницы?
источник
Вы можете вручную отправить его в Google , что иногда ускоряет процесс.
источник