Руководство по использованию robots.txt

robots.txt — файл с ограничениями доступа к веб-серверу для поисковых роботов.
Должен находится только в корневой директории сайта, и содержать буквы только нижнего регистра, то есть «robots.txt», а не «Robots.txt».

Приведу несколько примеров.
Чтобы запретить доступ всем поисковым роботам, то есть чтобы сайт не индексировался, укажем в robots.txt:

User-agent: *
Disallow: /

Разрешить индексацию всем:

User-agent: *
Disallow:

Допустим мы хотим сообщить поисковым ботам, что не нужно индексировать некоторые директории, например ixnfo.com/dir/ и ixnfo.com/dir2/ , для этого в robots.txt укажем:

User-agent: *
Disallow: /dir/
Disallow: /dir2/

Заметьте если например указать:

Disallow: /dir

То мы запретим индексировать директорию ixnfo.com/dir/, а также другие файлы с именем dir, например ixnfo.com/dir.php и т.д.

Пример запрета индексации файлов:

Disallow: /file1.html
Disallow: /file2.html

В User-agent можно указывать имя поискового бота, тем самым можно определить правила для каждого по отдельности, например чтобы разрешить индексацию сайта роботам «Googlebot», «AdsBot-Google» и «Yandex», а всем остальным запретить:

User-agent: Googlebot
User-agent: AdsBot-Google
Disallow:

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

В конце robots.txt можно также указать путь к карте сайта, например:

Sitemap: https://ixnfo.com/sitemap.xml

Смотрите также мою статью:
Контроль доступа Apache2

Оставьте комментарий

Добавить комментарий