Если я не хочу устанавливать какое-либо специальное поведение, это нормально, если я не хочу иметь файл robots.txt?

29

Если я не хочу устанавливать какое-либо специальное поведение, это нормально, если я не хочу иметь файл robots.txt?

Или может быть отсутствие одного вредно?

Дан Думитру
источник

Ответы:

30

Отсутствие файла robots.txt не будет вредным. С веб-сайта robotstxt.org :

Разрешить всем роботам полный доступ

Пользователь-агент: *
Disallow:

(или просто создайте пустой файл "/robots.txt", или не используйте его вообще)

Однако, даже если вы ничего не указали в своем файле robots.txt, это хороший способ информировать поисковые системы о местонахождении вашего XML- файла Sitemap . Вы можете сделать это, добавив строку в верхней части файла robots.txt, которая выглядит примерно так:

Карта сайта: http://www.example.com/sitemap-host1.xml

Вы также должны знать, что отсутствие этого создаст много 404 записей в ваших веб-журналах.

JasonBirch
источник
+1 - хорошее резюме, хотя я бы действительно подчеркнул, что Кинопико уже правильно подчеркнул : просто создайте самый простой или даже пустой, чтобы избежать этих 404-х и (в зависимости от обработки страниц вашего сайта 404) потенциально довольно некоторый трафик / пропускную способность , поскольку поисковые системы будут применять надлежащий контроль HTTP-кэша, чтобы пропустить загрузку файла снова, если он не изменился, будет он пустым или нет.
Штеффен Опель
Помечено как вики, пожалуйста, отредактируйте, как считаете нужным.
JasonBirch
21

Если у вас нет файла «robots.txt», в вашем журнале ошибок появится 404 файла, что может быть раздражением, похожим на то, что у вас нет значка.


источник
1
отличный момент ..
Джефф Этвуд
1
+1 - я хотел бы добавить, что вы не просто сохраняете себя от больших и шумных файлов журналов, но можете (в зависимости от обработки страниц 404 вашего сайта) потенциально избежать довольно некоторого трафика / пропускной способности, так как большинство страниц 404 являются больше, чем простой robots.txtфайл, который, кроме того, будет загружаться реже из-за того, что поисковые системы применяют надлежащий контроль HTTP-кэша .
Штеффен Опель
6

Я думаю, что все должно быть в порядке, иначе огромные полосы Интернета не будут индексироваться веб-пауками.

Нет robots.txt- это то же самое, что «разрешить индексацию всем» robots.txtпочти по определению.

Джефф Этвуд
источник
2

Отсутствие файла robots.txt оставляет сканеру право решать, что он может и что не может делать. Поскольку для избежания двусмысленности требуется всего несколько секунд, почему бы не создать такой, который позволил бы всем агентам получить доступ ко всему?

Тим Пост
источник
0

Ну, так как robots.txtсодержит адрес вашей карты сайта , его отсутствие потенциально опасно.

Томас Бонини
источник
Карта сайта полезна только для определенных типов сайтов, хотя, IMO
Джефф Этвуд
Я также видел, что сканеры (в частности, Google) искали /sitemap.xml или /sitemap.gz в отсутствие robots.txt
Tim Post
Вам не нужно иметь карту сайта в файле robots.txt, вы все равно можете отправить ее в Google / Yahoo / Bing. Это определенно не «потенциально вредно».
Рассерженная шлюха
0

В зависимости от вашего контента не должно быть проблем с отсутствием файла роботов, если вы хотите, чтобы каждая страница на вашем сайте была проиндексирована поисковыми системами.

seanl
источник