robots.txt – текстовый файл, расположенный в корне сайта, содержащий специальные инструкции для поисковых роботов, служит для запрета от индексации дублей страниц, админки, страниц регистрации пользователлей, ссылок на печать и т.п.
Создание файла robots.txt
Для создания используйте любой текстовый редактор, в нем создаем пустой файл с именем robots.txt.
Открываем созданный файл и вписываем в него инструкции:
User-agent: * Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1 Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /404 Disallow: /*? Disallow: /*% Disallow: /*& Disallow: /index.php? Disallow: /index.html Disallow: /index2.php Disallow: /index.php Disallow: /*pop= Disallow: /*task=vote Disallow: /*=watermark Disallow: /*=download Disallow: /*tag Disallow: /*.pdf Disallow: /*.swf Disallow: /*print=1 Disallow: /*=atom Disallow: /*=rss Host: ВАШ_САЙТ Sitemap: http://BAШ-сайт/index.php?option=com_xmap&view=xml&tmpl=component&id=1
Сохраняемся и загружаем файл в корневой каталог сайта.
Описание параметров файла robots.txt
Разрешаем обращатся любым роботам (вместо * можно указать имя конкретного поискового робота например Yandex).
User-agent: *
Разрешает доступ к карте сайта для индексирования.
Allow: /index.php?option=com_xmap&view=xml&tmpl=component&id=1
Запрещает индексацию директорий CMS Joomla - панели управления, компонентов, модулей, плагинов, временных файлов, логов, шаблонов и т.п, оставляем открытой для индексирования только папку /images/ для индексирования изображений на Вашем сайте.
Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /includes/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/
Запрещаем индексацию 404 ошибки.
Disallow: /404
Запрещаем индексацию всех ссылкок содержащих знаки ?, &.
Disallow: /*? Disallow: /*&
Запрещаем индексацию кириллических ссылок.
Disallow: /*%
Закрываем от индексации дубли главной страницы (если у вас нет этих дублей то пропустите этот пункт).
Disallow: /index.php? Disallow: /index.html Disallow: /index2.php Disallow: /index.php
Закрываем от индексации файлы pdf и swf.
Disallow: /*.pdf Disallow: /*.swf
Закрываем от индексации ссылку на печать.
Disallow: /*print=1
Закрываем от индексации RSS.
Disallow: /*=atom Disallow: /*=rss
Закрываем от индексации всплывающие окона.
Disallow: /*pop=
Закрываем от индексации ссылки на водяные знаки.
Disallow: /*=watermark
Закрываем от индексации ссылки на скачивание.
Disallow: /*=download
Закрываем от индексации облака тегов (если вы его используете).
Disallow: /*tag
Задаем главное зеркало вашего сайта.Поисковый робот индексирует сайты только по адресу главного зеркала т.е с www или без www.
Host: ВАШ_САЙТ
Задаем адрес карты сайта для Вашего сайта (пишем в одну строку).
Sitemap: http://BAШ-сайт/index.php?option=com_xmap&view=xml&tmpl=component&id=1
Примечание:
Если необходимо закрыть страницу от индексации (например /page), но при этом разрешить индексировать вложенные страницы (/page/links).
Disallow: /page$
Чтобы найти какие страницы попали в индекс введите в строку поиска в Яндексе: host:ВАШ-САЙТ или site:ВАШ-САЙТ , а в Google: site:ВАШ-САЙТ
Пример: site:admin-gu.ru
На этом все. Всем пока.
Компонент комментариев CComment