Noindex и nofollow: все что нужно знать

В данной статье мы разберем зоны применения и все варианты использования тега , атрибута ссылок rel=”nofollow”, мета-тега “robots” со значением “noindex”, а также HTTP-заголовка x-robots noindex.

Содержание статьи:

Тег
– Что такое тег
– Тег – для закрытия от индексации части контента
– Тег для ссылок
– Сочетание тега и атрибута ссылок rel=”nofollow”
– Распространенные ошибки
Mета-тег “robots” со значением “noindex”
– Что такое мета-тег “robots” со значением “noindex”
– Варианты использования meta robots noindex
– Отличия meta robots noindex от noindex в robots.txt
– Распространенные ошибки
Атрибут rel=“nofollow”
– Что такое атрибут rel=“nofollow”
– Атрибут Nofollow для закрытия внешних ссылок
– Атрибут Nofollow для закрытия внутренних ссылок
– Передает ли nofollow вес
Заголовок x-robots noindex
Как использовать совместно тег и rel=”nofollow”
Заключение

1. Тег <noindex>

– Что такое тег <noindex>

Тег noindex – это тег, который используется для запрета индексации части контента, который в него заключен. Данный тег не входит в спецификацию языка гипертекстовой разметки HTML.

Правильное использование тега:

<noindex>тут текст</noindex>

Важно:

Тег noindex был предложен поисковой системой Яндекс как альтернатива атрибуту rel=“nofollow”. Данный тег распознают только поисковые системы Яндекс и Рамблен. Google его не учитывает.
С мая 2010 года Яндекс учитывает атрибут rel=“nofollow”.
Данный тег несовместим с HTML-валидаторами, которые считают его ошибкой. Чтобы сделать код валидным, используйте конструкцию:
тут текст

Теперь давайте разберемся, в каких случаях уместно использование тега <noindex>

– Тег <noindex> – для закрытия от индексации части контента

Пример 1.
Основная область применения данного тега – это закрытия от индексации текстового контента или его части. Предположим, вам необходимо разместить на странице SEO текст, а также дополнительную текстовую информацию, которую вы не хотите индексировать, в таком случае – отключите данную часть контента с помощью тега <noindex>.

Пример 2.
Яндекс и Гугл имеет разное отношение к переспаму и количеству употреблений ключевых фраз в тексте. Если вам необходимо сократить количество употреблений ключевых фраз для Яндекса – сократите часть контента с помощью данного тега в глазах Яндекса.

– Тег <noindex> для закрытия текстовых ссылок

Не используйте данный тег для этой цели, почему:

данный тег не учитывает поисковая система Google;
он сможет скрыть только текст ссылки (анкор) для поисковой системы Яндекс.

Установите атрибут для таких ссылок: rel=”nofollow”.

– Сочетание тега <noindex> и атрибута ссылок rel=”nofollow”

Тег <noindex> можно использовать в сочетание с rel=”nofollow”. Данная комбинация ограничивает передачу ссылочного веса ссылки, также Яндекс не обратит внимание на текст ссылки (анкор).

Конструкция:
<noindex><a href="http://site.com/">текст ссылки</a></noindex>

– Распространенные ошибки

Как правило, основная ошибка связанная с тегом <noindex> – это неучитывание факта того, что Google не распознает данный тег. Таким образом текст не будет проиндексирован в Яндекс, но будет полностью проиндексирован Google.

2. Mета-тег “robots” со значением “noindex”

– Что такое мета-тег “robots” со значением “noindex”

Мета-тег – это тег, который применяется только для роботов поисковых систем с целью закрытия от индексации (не сканирования).

Как использовать данный тег:

Мета-тег роботс устанавливается в секцию на той страницы, которую необходимо закрыть индексации или которая не должна индексироваться поисковыми системами.

<!DOCTYPE html> <html><head> <meta name="robots" content="noindex" /> (…) </head> <body>(…)</body> </html>

Конструкция тега:

<meta name="robots" content="директива" />

Какие директивы могут быть использованы в Google:

Директива	Описание
all	Нет ограничений на индексирование и показ контента. Эта директива используется по умолчанию и не влияет на работу поисковых роботов, если нет других указаний.
noindex	Не показывать эту страницу, а также ссылку “Сохраненная копия” в результатах поиска.
nofollow	Не выполнять переход по ссылкам на этой странице.
none	Аналогично метатегам noindex, nofollow.
noarchive	Не показывать ссылку “Сохраненная копия” в результатах поиска.
nosnippet	Не показывать фрагмент текста этой веб-страницы в результатах поиска. При этом уменьшенное статическое изображение (если оно есть) останется видимым.
notranslate	Не предлагать в результатах поиска перевод этой страницы.
noimageindex	Не индексировать изображения на этой странице.
unavailable_after: [RFC-850 date/time]	Не отображать эту страницу в результатах поиска после указанного времени/даты. Время/дату следует указать в формате RFC 850.

*данные из справки Google.

Директива	Описание
noindex	Не индексировать текст страницы. Страница не будет участвовать в результатах поиска
nofollow	Не переходить по ссылкам на странице
none	Соответствует директивам noindex, nofollow
noarchive	Не показывать ссылку на сохраненную копию в результатах поиска
noyaca	Не использовать сформированное автоматически описание
index \| follow \| archive	Отмена соответствующих запрещающих директив
all	Соответствует директивам index и follow — разрешено индексировать текст и ссылки на странице

*Данные из справки Яндекс.

Как видим, основная часть директив одинаковые.

– Варианты использования meta robots noindex

Можно выделить наиболее частые конструкции, которые используются SEO-оптимизаторами на практике:

– если не нужно, чтобы страница индексировалась, но нужно, чтобы роботы могли ходить по ссылкам на странице.
ИЛИ- если не нужно, чтобы страница индексировалась и роботы переходили по ссылкам на странице.
ИЛИ- если нужно, чтобы страница индексировалась, но не нужно, чтобы роботы переходили по ссылкам на странице.

При этом, если вам нужно закрыть страницу от индексации в Яндекс, используем:

<meta name="yandex" content="noindex"/>

В Google:

<meta name="googlebot" content="noindex" />

– Отличия meta robots noindex от noindex в robots.txt

Основное отличие в следующем:

Мета-тег предназначен для закрытия страницы от индексации (запрет индексации).
Директива Disallow в файле robots.txt предназначена для закрытия от сканирования (не индексации).

Также, стоит отметить, что с помощью директивы Disallow можно закрыть от сканирования не только конкретную страницу, но и целую папку, в отличие от мета-тега роботс, который может запретить индексацию только той страницы, на которой он размещен.

В каких случаях нужно использовать мета-тег “robots”:
Для исключения из индекса поисковой системы страницы, которая уже проиндексирована, а также точечного или массового удаления из индекса или запрета ненужных страниц.

В каких случаях нужно использовать Disallow в файле robots.txt:
Для запрета сканирования служебных файлов и документов, а также нежелательных страниц: динамические страницы фильтра, страницы с результатами поиска и тд.

Воспользуйтесь развернутой инструкцией: Robots.txt: полное руководство по настройке

Важно:

Для поисковой системы Яндекс файл robots.txt – обязательная директива, для Google – рекомендация.
Поисковый робот может обращаться к файлу роботс не при каждом заходе на ваш сервер.

– Распространенные ошибки

Ошибка 1. Удаление страницы из индекса с помощь Disallow в файле robots.txt
Почему это ошибка? Страница уже проиндексирована и находиться в индексе – вы установили запрет сканирования в файле робот, теперь робот не будет заходить на нее, но она останется в индексе.
Ошибка 2. Удаление страницы из индекса с помощь Disallow в файле robots.txt + установка мета-тега роботс
Почему это ошибка? Страница уже проиндексирована и находиться в индексе – вы установили запрет сканирования в файле робот, теперь робот не будет заходить на нее, т.е. робот не сможет зайти на страницу и увидеть, что на ней установлен запрет индексации, следовательно, он не сможет исключить ее из индекса.

3. Атрибут rel=“nofollow”

– Что такое атрибут rel=“nofollow”

Атрибут Nofollow предназначен для запрета перехода по ссылке роботам поисковых систем. Данный атрибут распознает как Яндекс, так и Google.

Конструкция:

<a href=“http://www.example.com“ rel=“nofollow“>Анкор (текст ссылки)</a>

Данный атрибут ссылок может использоваться:

Для внутренних ссылок на сайте. Допустим, у вас есть необходимость запретить переходы поискового робота по определенным ссылкам на сайте, а также исключить передачу внутреннего ссылочного веса со страницы на страницу.
Для внешних ссылок на сайт. Для ограничения передачи ссылочного веса на ваш сайт.

Важно:

В конце 2019 года Google опубликовал обновленную инструкцию по настройке атрибута Nofollow для внешних ссылок, в последствие чего появились новые атрибуты, такие как rel=”ugc” (для ссылок из комментариев) и rel=”sponsored” (для платных ссылок).
Поисковый робот Google сканирует только ссылки типа a href=, и не сканирует ссылки a routerLink=, span href= и a onclick=.

– Атрибут Nofollow для закрытия внешних ссылок

Как правило, данный атрибут используется SEO-оптимизатором в 2 случаях:

для для “разбавления” ссылочной массы сайта;
точечная необходимость, чтобы конкретную ссылку не учитывали поисковые системы и вес ссылки не передавался.

Часто используется для ссылок из комментариев на форумах, статьях (крауд-ссылок).

– Атрибут Nofollow для закрытия внутренних ссылок

Данный атрибут необходимо использовать только для точечного ограничения передачи ссылочного веса, а также перехода по ссылке роботом внутри сайта. Не массово.

В основном, данный атрибут используется в следующих случаях:

для ограничения передачи ссылочного веса на все внешние ссылки;
для ограничения передачи ссылочного веса на точечные ссылки (например, ссылка на страницу регистрации, входа на сайт и другие страницы интерфейса сайта).

– Передает ли nofollow вес

Google утверждает следующее: «…Как правило, переход не производится. Это означает, что по этим ссылкам Google не передает ни PageRank, ни текст ссылки…»

4. Заголовок x-robots noindex

Продвинутый метод закрытия от индексации с помощью HTTP-заголовок X-Robots-Tag

С помощью данного заголовка можно настроить закрытие от индексации страницы. Параметры указываеются в специальном мета-теге на страницах (X)HTML или в HTTP-заголовке.

Данный формат поддерживает как Яндекс, так и Google.

Важно:
У поискового робота должен быть полный доступ странице.

Как это работает:
Пример HTTP ответа документа, который запрещает индексирование такого документа:

HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…)

С помощью данного заголовка также можно ограничить индексирование для конкретной поисковой системы:

HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)

Тут можно найти список директив.

Заключение

Используйте тег <noindex> исключительно по назначению, учитывайте, что данный тег применим только для поисковой системы Яндекс. Последующие 3 решения применимы для обоих поисковых систем:

Мета-тег “robots” со значением “noindex” выполняет запрет от индексации конкретной страницы, не допускайте ошибку с закрытием страницы от сканирования через файл робот.
Атрибут ссылок rel=”nofollow” применим как для внутренних (прежде чем применять это решение – проанализируйте ссылочные веса внутренних страниц – примите взвешенное решение), так и для внешних ссылок.
Применяйте HTTP-заголовок x-robots noindex как альтернативу запрета индексации страницы, если это необходимо с технической точки зрения.