Чтобы ваш файл PDF (или любой другой файл, кроме HTML) не отображался в результатах поиска, единственным способом является использование X-Robots-Tag
заголовка ответа HTTP , например:
X-Robots-Tag: noindex
Это можно сделать, добавив следующий фрагмент в корневой файл .htaccess сайта или файл httpd.conf:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Обратите внимание, что для того, чтобы описанное выше работало, вы должны иметь возможность изменять заголовки HTTP рассматриваемого файла. Таким образом, вы не сможете сделать это, например, на страницах GitHub .
Также обратите внимание , что robots.txt никак не предотвратить страницу от быть перечислены в результатах поиска.
Что он делает, это запрещает роботу сканировать вашу страницу, но если третьи лица ссылаются на ваш файл PDF со своего веб-сайта, ваша страница все равно будет в списке.
Если вы не позволите боту сканировать вашу страницу с помощью robots.txt , у него не будет возможности увидеть X-Robots-Tag: noindex
тег ответа. Поэтому никогда не запрещайте страницу в robots.txt, если вы используете X-Robots-Tag
заголовок. Более подробную информацию можно найти в Google Developers: Robots Meta Tag .
Files
директиву regex enabled , вам следует вместоFilesMatch
этого использовать вместо этого, как это предлагается здесь stackoverflow.com/q/14792381/1262357Есть несколько способов сделать это (объединение их, очевидно, является верным способом сделать это):
1) Используйте robots.txt, чтобы заблокировать файлы из поисковых роботов поисковых систем:
2) Используйте
rel="nofollow"
ссылки на эти PDF-файлы3) Используйте
x-robots-tag: noindex
заголовок HTTP, чтобы сканеры не могли их проиндексировать. Поместите этот код в ваш файл .htaccess :источник
x-robots-tag
иrobots.txt
в то же время это не очень хорошая идея , и может привести содержание индексироваться в любом случае. Если вы используете обаrobots.txt
иx-robots-tag: noindex
, сканер никогда не будет сканировать или видеть,x-robots-tag
потому что он сначала соблюдаетrobots.txt
.robots.txt
не препятствует индексированию ресурсов, а только сканируется, поэтому наилучшим решением является использованиеx-robots-tag
заголовка, но при этом поисковые системы могут сканировать и находить этот заголовок, оставляя вас вrobots.txt
покое.Вы можете использовать файл robots.txt . Вы можете прочитать больше здесь .
источник
Не уверен, что этот подоконник может принести кому-то какую-то ценность, но недавно мы столкнулись с проблемой, из-за которой наш локальный блок GSA не хочет индексировать PDF-файл.
Служба поддержки Google работала над этой проблемой, и ее ответ заключается в том, что это связано с тем фактом, что этот документ PDF имеет настраиваемый набор свойств (Файл -> Свойства документа -> Пользовательский (вкладка)).
что препятствовало тому, чтобы это было должным образом проиндексировано GSA.
Если у вас есть доступ к документу и вы можете изменить его свойства, это может сработать ... на правах аренды для GSA.
источник
Если в результатах поиска Google появляются экземпляры разработки на основе nginx, существует быстрый и простой способ запретить поисковым системам сканировать ваш сайт. Добавьте следующую строку в блок местоположения вашего файла конфигурации виртуального хоста для блока, который вы хотите предотвратить сканирование.
источник
Вы можете использовать файл robots.txt. Поисковые системы, использующие этот файл, не будут индексировать PDF. Просто используйте команду для запрета индексации файла и укажите, какую папку или файл PDF вы не хотите, чтобы поисковые системы индексировали.
источник