Настройка robots.txt на примере CMS Joomla

Настройка robots.txt на примере CMS Joomla

В этой статье покажем Вам, какой должен быть robots.txt на примере CMS joomla, что бы поисковые системы не индексировали ничего лишнего для посторонних глаз.

Ниже мы напишем для Яндекс и Google инструкцию обхода страниц, пропишем зеркало сайта (основной хост) и так же пропишем путь к карте сайта для файла sitemap.xml.

robots.txt - это текстовый файл, в котором хранятся записи, а точнее инструкции для поисковиков, указывающие им, какие разделы (ссылки), страницы сайта обходить и добавлять в поисковый индекс, а какие нет, т.е. закрывать от поисковых систем, т.е. данные инструкции позволяют сократить время индексации сайта, избавляют нас от дублей страниц сайта, сокращают работу для поисковых систем.

Данный файл должен находиться в корневой папки сайта и должен открываться по адресу, например vashdomen.by/robots.txt

Чтобы создать robots.txt, нужно сделать следующее (Внимание! эта инструкция только для того, у кого данный файл отсутствует, т.к. в Joomla по умолчанию он всегда есть):

  1. Заходим через любой фтп менеджер (например FileZilla) на наш сайт;
  2. Заходим в корень сайта;
  3. Создаём там новый файл (в случае его отсутствия) robots.txt. После данных действий открываем файл и туда прописываем следующее:
    Disallow - запрещаем индексировать все, что в ссылке/папке и Allow - разрешаем индексацию.
User-agent:
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /templates/
Allow: /templates/*.css Allow: /templates/*.js Allow: /components/*.css Allow: /components/*.js Allow: /media/*.js Allow: /media/*.css Allow: /plugins/*.css Allow: /plugins/*.js Allow: /cache/plg_jch_optimize/*.css Allow: /cache/plg_jch_optimize/*.js
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /templates/
Allow: /templates/*.css Allow: /templates/*.js Allow: /components/*.css Allow: /components/*.js Allow: /media/*.js Allow: /media/*.css Allow: /plugins/*.css Allow: /plugins/*.js Allow: /cache/plg_jch_optimize/*.css Allow: /cache/plg_jch_optimize/*.js
Host: https://vashsite.by
Sitemap: https://vashsite.by/sitemap.xml

Обратите внимание на следующие конструкции:

  • Host: https://vashsite.by вместо vashsite.by впишите название вашего сайта, а также если вы не используете защищенный протокол https то тогда пишем просто:
  • Host: vashsite.by
  • Sitemap: http://vashsite.by/sitemap.xml

Заметьте для хоста протокол http опускается, а вот для sitemap – нет.

Host указывает поисковым системам ваше главное зеркало сайта, т.е. либо с www, либо без www

Чтобы узнать ваше главное зеркало, посмотрите как ваш сайт проиндексирован поисковиками с www или без.

Примечания

  • *. - означает любое имя файла;
  • plg_jch_optimize - это если будет установлен сторонний одноименный плагин для сжатия кода.
  • Разрешаем все расширения шаблона дизайна *.js, *.jpg, *.png, *.CSS и т.д., т.к. для Google - это важно для оценки качества и юзабилити сайта, средствами Google Console.
  • Sitemap - xml карту сайта можно сгенерировать любым доступным онлайн-сервисом например, через xml-sitemaps.com и закачать в корень сайта с именем sitemap.xml.