Перейти к содержимому

MOAB

* * * * * 3 Голосов

Правильное составление файла robots.txt и его проверка

robots.txt

  • Войдите, чтобы ответить
Сообщений в теме: 5

#1 uniks

uniks

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 2 945 сообщений
2 810
  • ИзИркутск

Отправлено 04 Апрель 2015 - 14:53

Файл robots.txt является обязательным для всех типов сайтов, и его правильное составление является ключевым для верной индексации страниц вашего ресурса. Первое, куда обращаются поисковые боты - файл robots.txt, в котором вы можете запретить или разрешить индексацию как всего сайта, так и отдельных страниц или разделов; в этом и заключается его основная функция.

При отсутствии файла robots.txt поисковики могут замедлить индексацию сайта, особенно если он только появился в сети. Поэтому как только выкладываете первые страницы в интернет, сразу добавьте его в корень сайта: www.адрес.ru/robots.txt


Основные директивы файла robots.txt:

1. User-agent: указывает, для каких поисковых ботов предназначены команды. Если поставить *, то будет означать, что для всех.

Пример:
User-agent: *


2. Disallow: позволяет закрыть от индексации определенные страницы или разделы сайта.

Пример:
User-agent: *
Disallow: /test*

Все адреса, содержащие конструкцию вида www.адрес.ru/test, будут исключены из поисковой выдачи.


3. Allow: требуется, когда вам необходимо открыть доступ поисковым системам только к нескольким разделам сайта.

Пример:
User-agent: *
Disallow: /
Allow: /test*

Весь сайт будет исключен из поисковой выдачи, за исключением адресов, содержащих конструкцию вида www.адрес.ru/test


4. Символ #: используется для комментирования в файле. Все, что идет после него до новой строки, не учитывается поисковыми роботами.

Пример:
User-agent: *
Disallow: /
Allow: /test*
# Запретили к индексации весь сайт, кроме раздела test.
# Надо не забыть потом убрать, когда запустим остальные.


5. Sitemap: используется для указания адреса карты сайта.

Пример:
User-agent: *
Disallow: /
Allow: /test*
# Запретили в индексации весь сайт, кроме раздела test
# Надо не забыть потом убрать, когда запустим остальные.
Sitemap: http://www.адрес.ru/sitemap.xml


6. Host: используется Яндексом для определения главного зеркала сайта. В данном случае ставим с www. Обязательно после директив disallow или allow.

Пример:
User-agent: *
Disallow: /
Allow: /test*
Host: www.адрес.ru
# Запретили к индексации весь сайт, кроме раздела test
# Надо не забыть потом убрать, когда запустим остальные.
Sitemap: http://www.адрес.ru/sitemap.xml


Что важно учесть при правильном составлении файла robots.txt:

1. Отсутствие пустых строк: поисковые системы могут посчитать, что пустая строка является концом файла и не учесть все, что идет ниже. Пустая строка по стандартам может идти только перед User-agent: это требуется, когда для разных поисковых ботов вы указываете разные директивы.

2. Верные названия директив и их порядок: если вы сделаете опечатку или перепутаете порядок, то роботы не поймут команду и проигнорируют ее. Дополнительно используйте сервис проверки robots.txt от Яндекса: https://webmaster.yandex.ru/robots.xml.

3. Код 200: при обращении робота к robots.txt сервер должен возвращать код 200, тем самым указывая, что файл доступен для загрузки.


Что дает использование файла robots.txt:

1. Возможность закрыть от индексации технические страницы и дубликаты: если нет иной возможности убрать их с сайта или скрыть для поисковых роботов через js-скрипты. Обычно сюда попадают страницы поиска по сайту, фильтров и сортировок, страницы для печати, профили пользователей и т. п. Дополнительно можно использовать мета теги noindex, follow.

2. Возможность целиком закрыть сайт от индексации: требуется, когда выкладывают в интернет еще не до конца наполненную версию. Это крайний случай, когда горят сроки или прошли дедлайны, в остальных вариантах лучше отладку проводить на поддомене, в robots.txt которого также стоит запрет на индексацию.

3. Возможность указания Яндексу на главное зеркало: рекомендуется прописывать, хотя в приоритете все равно стоит 301 редирект.

4. Карта сайта: позволяет ускорить индексацию сайта.


После подведения итогов, становится понятно, что файл robots.txt играет важную роль, и его использование оправданно для решения различных задач, направленных на продвижение сайта в поисковых системах.


Вернуться к содержанию SEO-курса

Мои услуги: Консультации по SEO от 15000 р. | Продвижение сайтов от 29000 р. | Разработка сайтов под SEO

Алексей Благих

#2 Дартаньян

Дартаньян

    во имя матана

  • Участник
  • PipPipPipPipPip
  • 4 573 сообщений
5 534
  • ИзКрии

Отправлено 04 Апрель 2015 - 23:40

пара комментариев :)

Просмотр сообщенияuniks сказал:

1. Отсутствие пустых строк:
Давно не критично.

Просмотр сообщенияuniks сказал:

2. Верные название директив и их порядок
Гугл и Яндекс сейчас используют самый длинный шаблон из предложенных. При конфликте между Allow и Disallow при одинаковой длине шаблона, Яндекс разрешит индексацию, в Гугле будет "неопределённая" ситуация.

Просмотр сообщенияuniks сказал:

Дополнительно можно использовать мета теги noindex, follow.
Для Гугла желательно открывать сайт полностью, т.е. совсем, а для управления индексацией использовать как раз мета-теги. В противном случае удаленные страницы, закрытые в robots.txt никогда не переиндексируются и не пропадут из индекса.

Просмотр сообщенияuniks сказал:

3. Возможность указания яндексу на главное зеркало: рекомендуется прописывать, хотя в приоритете все равно стоит 301 редирект.
301 редирект - единственные железобетонный способ убедить поисковики ходить куда надо. Host считается просто рекомендацией, т.е. если сайты сильно различаются - инструкция будет проигнорирована.
Плачет барсук над трупом лося...
Тихону пить нельзя!

#3 DEREK

DEREK

    вебмастер

  • Старая гвардия
  • PipPip
  • 148 сообщений
23
  • Изdeeptown

Отправлено 29 Июнь 2015 - 13:48

uniks, исправь в инструкции этот момент

Sitemap: www.адрес.ru/sitemap.xml

мне и Гугл-панель и Яндекс панель выдали ошибку на такую конструкцию.
Нужно
Sitemap: http://webimho.ru/sitemap.xml

в инструкции даже на http://robotstxt.org...robotstxterrors ничего про sitemap не сказано.

А себе я сделал такого формата robots.txt
Надеюсь он допустим. Спорный момент в директиве Host для секции User-agent: * (прочитал на том же robotstxt.org.ru)
User-agent: *
Disallow: /
Sitemap: http://site.ru/sitemap.xml

User-agent: Yandex
Disallow: /
# Directories
Disallow: /includes/
Disallow: /misc/
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

....умный грабли обойдет....мудрый грабли уберет.

#4 uniks

uniks

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 2 945 сообщений
2 810
  • ИзИркутск

TC Отправлено 29 Июнь 2015 - 17:59

DEREK, в Яндексе вот подробно http://help.yandex.r...xt.xml#sitemap. В первом посту поправил, спасибо.

#5 Llicelile

Llicelile

    Новенький

  • Новичок
  • Pip
  • 10 сообщений

Отправлено 06 Август 2015 - 16:23

Вы добавили Sitemap: http://webimho.ru/sitemap.xml это обезательный пункт? вроде сайтмапы можно через аккаунт добавить просто или добавочно нужно в роботе прописывать?

#6 uniks

uniks

    Почетный

  • Основатель
  • PipPipPipPipPip
  • 2 945 сообщений
2 810
  • ИзИркутск

TC Отправлено 07 Август 2015 - 09:52

Llicelile, лишним точно не будет, учитывая, как порой долго работают панели вебмастера.



Похожие темы



Также с тегом robots.txt

Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных



© 2017 SMO&SEO форум «WEBIMHO» — продвижение и создание сайтов, интернет-маркетинг

По вопросам рекламы на форуме и цены на рекламу
Все материалы SEO форума разрешены к копированию только с установкой гиперактивной ссылки на webimho.ru,
тем, кто этого не сделает, мы оторвем руки и ноги и поменяем местами,
а когда выйдем из тюрьмы, опять оторвем и опять поменяем.


Россия, г. Москва

Мы в соцсетях: twitter | вконтакте | facebook | livejournal