robot.txt
Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем
"robots.txt" (http://www.mydomain.com/robots.txt).
Этот файл (robots.txt) сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.
robots.txt - должен создаваться в текстовом формате Unix.
Директивы - команды для стандартный robot.txt:
Всем роботам можно индексировать весь сайт:
User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml
*sitemap. xml - можно указать несколько файлов с новой строки.
Полностью запрещает индексацию!:
User-agent: *
Disallow: /
запрещает всем роботам заходить в каталоги "cgi-bin" і "images":
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
запрещает сканирование файлов с окончанием pdf
Disallow: /*.pdf$
запрещается сканировать все URL-адреса в подпапке /product/ со знаком вопроса.
Disallow: /products/*?
Запрещает роботу Roverdog индексировать все файлы сервера:
User-agent: Roverdog
Disallow: /
Запрещает роботу googlebot индексировать только файл cheese.htm:
User-agent: Googlebot
Disallow: cheese.htm
Если яндекс индексирует страницы с метками типа ?source=vk.com:
User-agent: Yandex
Disallow:
Clean-param: utm_source&utm_medium&utm_campaign&utm_content&utm_term&yclid
Clean-param: placement /
Clean-param: source /
Clean-param: added /
Disallow: /404$
Disallow: /*yclid=
Disallow: /*utm_
Disallow: /*appid=