~~736~~ 0 20-11-2020, 03:19

robot.txt

Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем

"robots.txt" (http://www.mydomain.com/robots.txt).

Этот файл (robots.txt) сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

robots.txt - должен создаваться в текстовом формате Unix.

Директивы - команды для стандартный robot.txt:

Всем роботам можно индексировать весь сайт:

User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml

*sitemap. xml - можно указать несколько файлов с новой строки.

Полностью запрещает индексацию!:

User-agent: *
Disallow: /

запрещает всем роботам заходить в каталоги "cgi-bin" і "images":

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

запрещает сканирование файлов с окончанием pdf

Disallow: /*.pdf$

запрещается сканировать все URL-адреса в подпапке /product/ со знаком вопроса.

Disallow: /products/*?

Запрещает роботу Roverdog индексировать все файлы сервера:

User-agent: Roverdog
Disallow: /

Запрещает роботу googlebot индексировать только файл cheese.htm:

User-agent: Googlebot
Disallow: cheese.htm

Если яндекс индексирует страницы с метками типа ?source=vk.com:

User-agent: Yandex
Disallow:
Clean-param: utm_source&utm_medium&utm_campaign&utm_content&utm_term&yclid

Clean-param: placement /
Clean-param: source /
Clean-param: added /

Disallow: /404$
Disallow: /*yclid=
Disallow: /*utm_
Disallow: /*appid=

‹ Попередня сторінка Наступна сторінка ›

Досвід у веброзробці:

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

2024

2025

2026

2027

2028