Создание и анализ robots.txt, с помощью сервисов от Яндекс и Google

Как создать robots.txt?

Здравствуйте, уважаемые читатели блога SdelaemBlog.ru. Сегодня хочу продолжить тему, что делать дальше после создания своего блога или сайта? Конечно уже хочется приступить к работе над блогом: начать писать посты, приглашать читателей на свой сайт, но это все впереди. Для начала нужно подготовить наш сайт к приему не только посетителей, но и поисковых систем или поисковых роботов. Главные поисковые роботы это конечно же Google и Яндекс. А как подготовиться к приему на нашем блоге  роботов? Ведь, когда они придут на наш блог, они начнут индексировать не только те страницы, которые нам нужно, но и все остальное, то чему не место в индексе поисковых систем. Поэтому для роботов нужно написать рекомендации, какие страницы мы хотим, добавить в индекс, а какие нет.

Эти рекомендации или правила для роботов будут содержаться в одном текстовом файле, который называется  robots.txt. Вот вам и тема сегодняшнего поста.

Итак, начнем с того что создать robots.txt лучше перед тем, как добавлять сайт или блог в поисковые системы, чтобы потом не было никаких ненужных проблем с индексированием вашего сайта.

Видеокурс "Технические секреты групп Вконтакте" доступен для скачивания!

Не получается сделать меню в группе Вконтакте? Устали платить другим за добавление меню в Вашу группу? Хотели бы научится всем техническим тонкостям и экономить свои деньги? Тогда скачайте курс прямо сейчас!

Создать robots.txt можно, я думаю, не одним способом, но я приведу пример конкретного способа создания правил для поисковых роботов. Не ждите здесь готового файла, потому как robots.txt подбирается для каждого сайта индивидуально и на это требуется время и анализ. Но я расскажу основные моменты на которые стоит обратить внимание при создании данного файла и продемонстрирую примеры для WP и DLE.

Как создать robots.txt для WordPress (WP).

Для создания файла robots.txt для wordpress нужно создать обычный текстовый документ на компьютере. И дать ему имя robots. А txt-это формат документа, но вы ведь знаете об этом. :twisted: Документ готов, что нужно сделать дальше?

Для начала обратимся ко всем роботам или к отдельным роботам, для этого напишем:

1
2
3
User-agent: * (обращение ко всем поисковым роботам)
User-agent: yandex (робот поисковой системы Яндекс)
User-agent: googlebot (робот поисковой системы Google)

После того, как вы написали обращение к определенному роботу (User-agent), нужно прописать сначала то что вы разрешаете индексировать поисковым машинам:

1
2
User-agent: *
Allow: /wp-content/uploads/  (нужно для индексирования картинок на сайте или блоге)

Еще можно указать задержку индексирования в самом начале robots.txt. Указывается она в секундах, но я ее не использую, так как не совсем я догнал для чего она конкретно нужна. Когда начал искать в сети, оказалось есть еще куча всяких задержек, поэтому бросил я это, да и не нужно оно мне. Но все же выглядит она так:

Crawl-delay: 4 (или 5, или 2, как хотите)

Также обращения к роботам можно прописать по-другому, обратившись именно к роботам, которые индексируют картинки, например:

1
2
3
User-agent: googlebot-image  (поисковый робот - Google, который индексирует картинки)
 Allow: /wp-content/uploads/  (разрешение индексировать папку в которой находятся картинки)
 Disallow: (нужно прописать, но можно оставить пустым)
1
2
3
User-agent: yandeximages  (поисковый робот - Яндекс, который индексирует картинки)
 Allow: /wp-content/uploads/  (разрешение индексировать папку в которой находятся картинки)
 Disallow: (нужно прописать, но можно оставить пустым)

Затем нужно прописать в файле, куда роботу не следует совать свой нос, делаем это с помощью команды

Disallow:  (запретить)

Что запрещать, решать только вам, но я рекомендую пользователям WordPress обязательно запретить индексировать следующее:

1
2
3
4
5
6
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Чтобы в индекс не попадали всякие служебные данные и данные о ваших пользователях.

Также в robots.txt следует указать директиву Host, для избежания проблем с зеркалами. Она указывает на главное зеркало сайта и предназначена для поискового робота — Яндекс. Выглядит она так:

Host: Ваш_сайт.ru

То есть  robots.txt для WordPress (WP) с применением минимума функций должен выглядеть примерно так:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
 
User-agent: yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: ваш сайт.ru

А также не забудьте указать пути к картам сайта для вашего блога. Если вы еще не сделали карту сайта для своего блога — не беда, скоро рассмотрим эту тему, если вам интересно подписывайтесь:

1
2
Sitemap: http://sdelaemblog.ru/sitemap.xml.gz
Sitemap: http://sdelaemblog.ru/sitemap.xml

Вот в принципе и все, файл robots.txt для WordPress (WP) готов, конечно это минимум функций, но должно быть хотя бы это. У меня на блоге robots.txt выглядит пока так:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /tags/
Disallow: /page/
Disallow: /wp-login
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /search/*/feed
Disallow: /search/*/*
 
User-agent: yandex
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /tags/
Disallow: /page/
Disallow: /wp-admin
Disallow: /wp-login
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /search/*/feed
Disallow: /search/*/*
Host: sdelaemblog.ru
 
Sitemap: http://sdelaemblog.ru/sitemap.xml.gz
Sitemap: http://sdelaemblog.ru/sitemap.xml

Да, и обратите внимание, что разрывы строчек означают начало нового блока, ну или конец, кому как удобнее. То есть пришел Яндекс, нашел правила для себя (User-agent: yandex) и читает до тех пор пока не появляется разрыв, который сообщает ему о том, что правила для него закончились. Надеюсь, это понятно. И как вы заметили новое правило нужно писать с новой строки.

Как создать robots.txt для DLE (DataLife Engine).

Отличатся от WP пожалуй будет только само построение файла и названия папок и адресов.

Также нужно создать текстовый документ и назвать его robots. И поместить в него примерно следующий код (даю код, так как сам не изучал robots.txt для dle (datalife engine), пока):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
User-agent: *
 Disallow: /*print
 Disallow: /user/
 Disallow: /backup/
 Disallow: /engine/
 Disallow: /language/
 Disallow: /templates/
 Disallow: /upgrade/
 Disallow: /uploads/
 Disallow: /autobackup.php
 Disallow: /admin.php
 Disallow: /index.php?do=addnews
 Disallow: /index.php?do=feedback
 Disallow: /index.php?do=lostpassword
 Disallow: /index.php?do=pm
 Disallow: /index.php?do=register
 Disallow: /index.php?do=stats
 Disallow: /index.php?do=search
 Disallow: /index.php?subaction=newposts
 Disallow: /?do=lastcomments
 Disallow: /statistics.html
 Sitemap: http://Ваш_сайт/sitemap.xml
 Host: Ваш_сайт

После того как файл с инструкциями для роботов готов нужно залить его на хостинг в корневую папку. Если по адресу http://Ваш_сайт.ru/robots.txt, вы видите свой robots.txt, значит вы все сделали правильно. И поисковые роботы найдут для себя правила и проиндексируют ваш сайт или блог более правильно.

Анализ robots.txt

Как я уже написал, этот файл для каждого индивидуальный и его нужно анализировать для достижения оптимальных результатов. То есть, чтоб нужные страницы были в индексе, а не нужные… ну сами понимаете. И для этого можно воспользоваться сервисом от Google и Яндекс.

Анализ robots.txt с помощью сервиса Google. Для анализа с помощью Google нужно перейти в инструменты для вебмастера от гугл. Там нужно выбрать ваш сайт или блог(если он не один), анализ которого нужно провести. Затем слева (в панели инструментов) выбираем конфигурация сайта и выбираем доступ для сканера.

Инструменты для веб-мастеров от Google.

 Там вы обнаружите свой robots.txt (еще прямо в этом разделе можно создать rotots.txt). Под окошком где будет содержимое вашего файла нужно вписать ссылки, которые вы хотели бы проверить на индексирование:

Анализ robots.txt с помощью Google.

После нажатия на кнопку Проверить, Google выдаст вам список адресов, которые разрешено индексировать, а какие нет. Вот таким образом можно анализировать robots.txt и если в выдаче вы нашли то чего не должно там быть, нужно запретить индексировать роботу эту страницу или папку в robots.txt и проверить с помощью данного анализа запретилась индексация этой страницы или нет. Если адрес или папка открыты для индексирования проверяем, что сделано не так и т.д.

Теперь давайте рассмотрим анализ robots.txt с помощью сервиса от Яндекса. Для анализа с помощью Яндекса нужно перейти в Яндекс.Вебмастер. Там выбираем сайт из списка  ваших сайтов. Затем слева в меню выбираем настройка индексирования и анализ robots.txt.

Анализ robots.txt от Яндекс.

После этого вы попадете на страницу анализа вашего robots.txt. Если ваши правила еще не загружены в окно нажмите загрузить robots.txt с сайта. Затем, внизу, нажмите на кнопку добавить. После нажатия появится второе окно в которое, также как и в Google, нужно вставить или вписать адреса или папки, которые вы хотели бы проверить. И нажимаем на кнопку проверить.

Анализ robots.txt с помощью Яндекс.

После нажатия на кнопку вы наглядно увидите, какие страницы или папки запрещены к просмотру в robots.txt, а какие нет.

Ну вот пожалуй и все. Спасибо, если вы дочитали этот пост до конца. Надеюсь эта информация будет полезной для вас.

Подписывайтесь на новые статьи моего блога и рекомендуйте их своим друзьям, и Гуглу. Дальше будет больше.

                                                                                                                                                                        Сделаем блог, вместе!

 

Видеокурс "Технические секреты групп Вконтакте" доступен для скачивания!

Не получается сделать меню в группе Вконтакте? Устали платить другим за добавление меню в Вашу группу? Хотели бы научится всем техническим тонкостям и экономить свои деньги? Тогда скачайте курс прямо сейчас!

VN:F [1.9.22_1171]
Оценка статьи: 0.0/10 (0 голосов)
Автор: Михаил Веб Дата публикации: 26.03.2012