Просмотров: 2901

robots.txt VS meta robots

...или как ограничить доступ поисковиков к страницам сайта.
Сейчас тяжело представить себе серьезный интернет проект без CMS. Соответственно система управления контентом должна быть доступна только для администраторов и контент-менеджеров сайта, пользователям и поисковым роботам доступ к страницам данного раздела должен быть закрыт. Ограничения от "любопытных" пользователей заслуживают отдельной темы, сегодня мы поговорим о том как дать понять гуглам, яндексам и пр. что определенные страница нашего сайта в индексации не нуждаются. Для этого существуют два способа: robots.txt и meta robots.

При этом robots.txt является самым популярным - заслуженно ли, вот в чем вопрос. Давайте разберемся.

robots.txt

Синтаксис:
User-agent: *
Disallow: /admin/
Disallow: /admin

User-agent: *
Указываем всем поисковым роботам (возможно и конкретизировать - googlebot например)
Disallow: /admin/
Запрещаем для индексации все станицы раздела admin
Disallow: /admin
Указываем если генерируется таже страница что и в примере выше, как правило так оно и есть.

meta robots

Синтаксис:
<meta name="robots" content="noindex,nofollow" />

noindex
Запрещаем индексацию страницы
nofollow
Запрещаем индексацию ссылок данной страницы

В рамках данной статьи мы не будем рассматривать дополнительный синтаксис обоих способов, об этом написано достаточно много.
Теперь вернемся к главной теме нашего разговора - какой из способов лучше для ограничения доступа к определенным страницам сайта?
Основным недостатком robots.txt является прозрачность служебных линков, не предназначенных для "любопытных" пользователей.
Т.е. Для того чтобы просмотреть содержимое robots.txt достаточно набрать в адресной строке браузера http://site.com/robots.txt
Возьмем к примеру http://israbox.com/robots.txt - сразу видно что вход в CMS /admin.php

Поэтому несмотря на большую "популярность" способа robots.txt считаю более безопасным указывать запрещенные для индексации страницы через meta robots.

]]>twitter.com Google Buzz google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru]]>


Теги: , , ,
Куклы клоуны детям.
Эта запись опубликована: Четверг, 30 июля 2009 в рубрике CSS + XHTML.

3 комментария

Следите за комментариями по RSS
  1. Согласен. Но это касается лишь админки. А вообще доступ к админке надо прятать по нестандартной ссылке.

    robots.txt хорош тем, что роботы даже не будут ломиться по тем путям, которые запрещены. А следовательно, не будут генерироваться страницы на PHP в пустую для них c META. Нет смысла заходить роботу на страницу, чтобы потом прочитать, что туда доступ запрещен.

  2. Что мешает "плохому" юзеру прочитать robots.txt и узнать что хотят скрыть разработчики?

  3. 1.Согласен с первым постом.

    2.Если даже скрывать от юзера c помощью , то ведь можно и исходный код HTML прочитать прямо из браузера.wink

Оставьте комментарий!

Не регистрировать/аноним

Используйте нормальные имена. Ваш комментарий будет опубликован после проверки.

Зарегистрировать/комментатор

Для регистрации укажите свой действующий email и пароль. Связка email-пароль позволяет вам комментировать и редактировать данные в вашем персональном аккаунте, такие как адрес сайта, ник и т.п. (Письмо с активацией придет в ящик, указанный при регистрации)

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake excaim question

(обязательно)