Вопросы с тегом «web-crawlers»

Компьютерная программа, которая обращается к веб-страницам для различных целей (для очистки содержимого, для предоставления поисковым системам информации о вашем сайте и т. Д.)

28
Запрос Bingbot для трафикаbasedsspsitemap.xml, который не существует

Этот вопрос был перенесен из-за сбоя сервера, поскольку на него можно ответить в Web-мастерах Stack Exchange. Мигрировал 6 лет назад . Журналы веб-сайта, которым я управляю, показывают запрос на несуществующий файл от Bingbot. Детали запроса Путь: /trafficbasedsspsitemap.xml Useragent: «Mozilla /...

28
Есть ли разница между пустым robots.txt и вообще без robots.txt?

На веб-сервере, который я теперь должен сообщить, я заметил, что robots.txt пуст. Я задавался вопросом, есть ли разница между пустым robots.txt и никаким файлом вообще. По-разному ли ведут себя сканеры в этих двух случаях? Итак, безопасно ли просто удалить пустой файл...

28
Запретить роботам сканировать определенную часть страницы

Как веб-мастер, отвечающий за крошечный сайт, на котором есть форум, я регулярно получаю жалобы от пользователей на то, что как внутренняя поисковая система, так и внешние поисковые запросы (например, при использовании Google) полностью загрязнены подписями моих пользователей (они используют...

25
Yahoo Search - это то же самое, что Bing Search сейчас?

У нас были некоторые серьезные проблемы с (невероятно) плохо написанным пауком в прошлом , и в результате мы заблокировали их. Марко Армент из Tumblr также поделился с нами своими разочарованиями 31.08.2009, что послужило причиной того, что мы заблокировали их. [Паук Yahoo] затопляет нас 70-200...

22
Паук Google рендерит JavaScript?

Этот вопрос был перенесен из Stack Overflow, потому что на него можно ответить в Webmasters Stack Exchange. Мигрировал 9 лет назад . Знает ли паук Google, как отображать JavaScript или только...

21
Хороший инструмент для сканирования моего сайта и помощи в поиске мертвых ссылок и несвязанных файлов [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он подходил для веб-мастеров Stack Exchange. Закрыто 6 лет назад . У меня довольно большой устаревший сайт с буквально тысячами PDF-файлов, которые иногда учитываются в базе...

18
Можно ли замедлить частоту сканирования Baiduspider?

Много было сделано из частоты ползания паука Baidu. Это правда: «Baiduspider ползает как сумасшедший». Я испытал это явление на сайтах, с которыми я работаю. По крайней мере, в одном случае я обнаружил, что Baiduspider сканирует примерно с той же частотой, что и робот Googlebot, несмотря на то, что...

18
Какой пользовательский агент я должен установить?

Есть бот Ask, который устанавливает этот заголовок: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Учитывая это, у меня есть следующие вопросы: Если я пишу веб-сканер с именем Goofy, какой пользовательский агент мне следует использовать? Какая разница, если я поставлю Mozilla/2.0или Mozilla/5.0? Любые...

16
Может ли robots.txt находиться в подкаталоге сервера?

У меня есть подкаталог, который я хотел бы скрыть от поисковых роботов поисковых систем. Один из способов сделать это - использовать robots.txtв корневом каталоге сервера (стандартный способ). Однако любой, кто знает URL-адрес веб-сайта и имеет некоторые базовые знания в Интернете, может получить...

16
SEO - адаптивный веб-сайт и дублированные меню

Каждый раз, когда я создаю адаптивный веб-сайт, я обычно создаю 2 меню: 1 скрытое и используемое для мобильных устройств, а другое отображается как главное меню, а затем скрывается для отображения мобильного меню. Всякий раз, когда речь заходит о SEO и о том, как пауки перемещаются по веб-сайту,...

15
Как заблокировать пауков Baidu

Большинство моих посещений происходят от пауков байду. Я не думаю, что это помогает поисковым системам вообще, поэтому я думаю о том, как их заблокировать. Может ли это быть сделано через iptables? Я использую nginx в качестве своего...

15
Запретить вредоносным ботам публиковать спам

Я помню сайт, закрытый из-за неправильного использования, и мне интересно, есть ли у ботов его часть. Если бот размещает что-то на моем сайте, как я могу с этим бороться? Я думал о настройке некоторых файлов cookie и об изменении файлов cookie с помощью JavaScript + отметка времени и знак (поэтому...

13
Как Google находит домен без ссылок на него?

Я недавно зарегистрировал новый домен, указал его на свой существующий сервер и настроил минимальную страницу с надписью «тест» и больше ничего. Сегодня вечером я обнаружил, что страница уже проиндексирована в Google! На сайте нет ссылок (я даже никому не говорил о домене, так как пока ничего с ним...

12
Могут ли файлы robots.txt и sitemap.xml быть динамическими с помощью перенаправления .htaccess?

У меня есть мультиязычный и многодоменный сайт. Он проходит через уникальную установку CMS (Drupal), поэтому у меня есть один корневой каталог. Поэтому, если у меня есть статический файл robots.txt, я могу показать файлы только для одного домена, насколько я знаю. Могу ли я поставить строку в...

12
Почему baidu сканирует мой сайт как сумасшедший?

Когда я проверяю свой журнал Apache, я вижу, что baidu сканировал мой сайт 10 раз в день в течение последних 2 недель. Не то чтобы я беспокоился об этом, но мне действительно любопытно, почему он это делает. Это действительно маленький одностраничный сайт с небольшим количеством входящих ссылок....

12
Стоит ли блокировать ботов с моего сайта и почему?

Мои журналы полны посетителей ботов, часто из Восточной Европы и Китая. Боты идентифицированы как Ahrefs, Seznam, LSSRocketCrawler, Yandex, Sogou и так далее. Должен ли я заблокировать этих ботов с моего сайта и почему? Какие из них имеют законную цель в увеличении трафика на мой сайт? Многие из...

12
Статус Crawlable Ajax?

Я увидел, что у Google было хорошее предложение / стандарт для обеспечения возможности сканирования приложений Ajax через #! (хэш бэнг). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Мои вопросы: Они уже используют это «предложение» в реальном мире?...

11
Каков наилучший способ исключить ботов из числа просмотров?

Мой веб-сайт считает количество посетителей на определенных страницах. Я заметил, что Google и другие боты «щелкают» по моему сайту как сумасшедшие, и некоторые страницы получают нереалистичное количество просмотров (по сравнению с теми, что созданы людьми). Я прошу лучшую практику, чтобы исключить...

11
Adsense click bot - это бомба с кликом моего сайта

У меня есть сайт, который получает примерно 7 000 - 10 000 просмотров страниц в день прямо сейчас. Начиная с 1 часа ночи 01.07.12 я заметил, что CTR резко вырос. Эти клики будут зачислены на счет, а затем списаны вскоре после этого. Таким образом, они были явно мошенническими кликами. На следующий...

11
Какие боты действительно стоит пускать на сайт?

Написав несколько ботов и увидев огромное количество случайных ботов, которые сканируют сайт, я задаюсь вопросом, как веб-мастер, каких ботов действительно стоит пускать на сайт? Сначала я подумал, что размещение ботов на сайте потенциально может принести на него реальный трафик. Есть ли какая-либо...