Вопросы с тегом «web-crawlers»

11
Каков наилучший способ исключить ботов из числа просмотров?

Мой веб-сайт считает количество посетителей на определенных страницах. Я заметил, что Google и другие боты «щелкают» по моему сайту как сумасшедшие, и некоторые страницы получают нереалистичное количество просмотров (по сравнению с теми, что созданы людьми). Я прошу лучшую практику, чтобы исключить...

11
Google не сканирует файлы CDN

Я заметил, что Google Webmaster Tools сообщает о большом количестве заблокированных ресурсов на моем веб-сайте. Прямо сейчас все "заблокированные ресурсы" - это .css, .js и изображения (.jpg, .png), которые я обслуживаю из Cloudfront CDN. Я потратил много времени на тестирование и пытался выяснить,...

10
Робот Google отправляет тысячи запросов в наш локатор карт и использует квоту API

У нас есть страница поиска магазина на сайте нашего клиента. Конечный пользователь вводит свой почтовый индекс и радиус поиска, и мы отображаем результаты на карте Google. Недавно мы начали замечать, что сайт достигает лимита бесплатного поиска по карте (примерно 25 000 в сутки) без заметного...

10
Знак плюс перед URL в пользовательских агентах

Я запустил небольшой веб-сканер и должен был решить, какой пользовательский агент использовать для него. Списки агентов поиска и Wikipedia предлагают следующий формат: examplebot/1.2 (+http://www.example.com/bot.html) Однако некоторые боты опускают знак плюс перед URL. И мне интересно, что это...

10
Объединение пользовательских агентов в robots.txt

Могут ли пользовательские агенты быть перечислены вместе, а затем следовать их общим правилам, как в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent:...

10
Как правильно (де) разрешить боту archive.org? Изменились ли вещи, если и когда?

У меня есть веб-сайт, который я не хочу индексировать поисковыми системами, но я хочу сохранить его навеки на сайте archive.org. Итак, мой robots.txtначинается с этого: User-agent: * Disallow: / Сегодня, согласно archive.org, я должен добавить следующее в мои, robots.txtчтобы позволить их ботам:...

10
Как Google удалось сканировать мои 403 страницы?

У меня было несколько личных файлов в папке в школьной папке. Вы можете увидеть, что файлы существуют, перейдя по адресу myschool.edu/myusername/myfolder, но попытка получить доступ к самим файлам через myschool.edu/myusername/myfolder/myfile.html возвращает ошибку 403. И все же Google каким-то...

10
Разрешить сканировать сайт могут только боты Google и Bing

Я использую следующий файл robots.txt для сайта: Цель - разрешить googlebot и bingbot доступ к сайту, кроме страницы, /bedven/bedrijf/*и запретить всем остальным роботам сканировать сайт. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow:...

10
Как работает «Noindex:» в robots.txt?

Я наткнулся на эту статью в моих новостях SEO сегодня. Кажется, подразумевается, что вы можете использовать Noindex:директивы в дополнение к стандартным Disallow:директивам в robots.txt . Disallow: /page-one.html Noindex: /page-two.html Похоже, что это помешает поисковым системам сканировать первую...

9
Должен ли я опубликовать пустой файл ads.txt для сайта, на котором нет рекламы?

Я видел несколько 404 ошибок при запросе ads.txt на некоторых сайтах, которыми я управляю. Я думаю, что ответ может быть идентичен вопросу о пустом файле robots.txt или об отсутствии файла вообще (просто предотвратите некоторые ошибки 404). Однако у меня есть трудности с пониманием основополагающих...

9
Должны ли мы отказаться от схемы сканирования AJAX?

Так что теперь Google отказался от схемы сканирования AJAX . Они говорят, что не стоит внедрять его на новых веб-сайтах, потому что он больше не нужен, поскольку у робота Google теперь нет проблем с просмотром динамического контента. Должны ли мы немедленно доверять этому утверждению или лучше...

9
Тактика борьбы с плохо себя ведущими роботами

У меня есть сайт, который по нормативным причинам не может быть проиндексирован или произведен автоматический поиск. Это означает, что мы должны держать всех роботов подальше и не дать им спайдеринг сайта. Очевидно, у нас был файл robots.txt, который запрещает все с самого начала. Однако наблюдение...

9
Спросить карту сайта Ask.com (навсегда)?

Я использовал в Ask.comкачестве одной из поисковых систем для проверки связи с моей картой сайта. Когда я сегодня отправил эхо-запрос на мою карту сайта для повторной индексации карты сайта, веб-сайт ( http://submissions.ask.com/ping ) сказал, что его больше не существует? Я выполнил поиск DNS,...

9
Disqus поток миграции. Gotchas?

Я перенес сайт на новый домен. Сам сайт довольно прост (использует Jekyll), и все прошло хорошо, кроме миграции потоков Disqus. У меня был частичный успех - некоторые потоки успешно перенесены, но не все. Я пробовал мастер миграции домена (который поймал несколько), преобразователь URL-адресов...

8
Какой метатег «робот» получает предпочтение?

Моя жена работает в средней школе в Германии. Недавно я заметил, что с помощью Google очень трудно найти домашнюю страницу этой школы . Я посмотрел на исходный код страницы и считаю, что нашел причину: есть два <meta name="robots">тега; один <meta name="robots" content="all"> и второй,...