robots.txt — файл с ограничениями доступа к веб-серверу для поисковых роботов.
Должен находится только в корневой директории сайта, и содержать буквы только нижнего регистра, то есть «robots.txt», а не «Robots.txt».
Приведу несколько примеров.
Чтобы запретить доступ всем поисковым роботам, то есть чтобы сайт не индексировался, укажем в robots.txt:
User-agent: *
Disallow: /
Разрешить индексацию всем:
User-agent: *
Disallow:
Допустим мы хотим сообщить поисковым ботам, что не нужно индексировать некоторые директории, например ixnfo.com/dir/ и ixnfo.com/dir2/ , для этого в robots.txt укажем:
User-agent: *
Disallow: /dir/
Disallow: /dir2/
Заметьте если например указать:
Disallow: /dir
То мы запретим индексировать директорию ixnfo.com/dir/, а также другие файлы с именем dir, например ixnfo.com/dir.php и т.д.
Пример запрета индексации файлов:
Disallow: /file1.html
Disallow: /file2.html
В User-agent можно указывать имя поискового бота, тем самым можно определить правила для каждого по отдельности, например чтобы разрешить индексацию сайта роботам «Googlebot», «AdsBot-Google» и «Yandex», а всем остальным запретить:
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow:
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
В конце robots.txt можно также указать путь к карте сайта, например:
Sitemap: https://ixnfo.com/sitemap.xml
Смотрите также мою статью:
Контроль доступа Apache2