В данной статье мы разберем зоны применения и все варианты использования тега , атрибута ссылок rel=”nofollow”, мета-тега “robots” со значением “noindex”, а также HTTP-заголовка x-robots noindex.
Содержание статьи:
- Тег
– Что такое тег
– Тег – для закрытия от индексации части контента
– Тег для ссылок
– Сочетание тега и атрибута ссылок rel=”nofollow”
– Распространенные ошибки - Mета-тег “robots” со значением “noindex”
– Что такое мета-тег “robots” со значением “noindex”
– Варианты использования meta robots noindex
– Отличия meta robots noindex от noindex в robots.txt
– Распространенные ошибки - Атрибут rel=“nofollow”
– Что такое атрибут rel=“nofollow”
– Атрибут Nofollow для закрытия внешних ссылок
– Атрибут Nofollow для закрытия внутренних ссылок
– Передает ли nofollow вес - Заголовок x-robots noindex
- Как использовать совместно тег и rel=”nofollow”
Заключение
1. Тег <noindex>
– Что такое тег <noindex>
Тег noindex – это тег, который используется для запрета индексации части контента, который в него заключен. Данный тег не входит в спецификацию языка гипертекстовой разметки HTML.
Правильное использование тега:
<noindex>тут текст</noindex>
Важно:
- Тег noindex был предложен поисковой системой Яндекс как альтернатива атрибуту rel=“nofollow”. Данный тег распознают только поисковые системы Яндекс и Рамблен. Google его не учитывает.
- С мая 2010 года Яндекс учитывает атрибут rel=“nofollow”.
- Данный тег несовместим с HTML-валидаторами, которые считают его ошибкой. Чтобы сделать код валидным, используйте конструкцию:
<!--noindex-->тут текст<!--/noindex-->
Теперь давайте разберемся, в каких случаях уместно использование тега <noindex>
– Тег <noindex> – для закрытия от индексации части контента
Пример 1.
Основная область применения данного тега – это закрытия от индексации текстового контента или его части. Предположим, вам необходимо разместить на странице SEO текст, а также дополнительную текстовую информацию, которую вы не хотите индексировать, в таком случае – отключите данную часть контента с помощью тега <noindex>.
Пример 2.
Яндекс и Гугл имеет разное отношение к переспаму и количеству употреблений ключевых фраз в тексте. Если вам необходимо сократить количество употреблений ключевых фраз для Яндекса – сократите часть контента с помощью данного тега в глазах Яндекса.
– Тег <noindex> для закрытия текстовых ссылок
Не используйте данный тег для этой цели, почему:
- данный тег не учитывает поисковая система Google;
- он сможет скрыть только текст ссылки (анкор) для поисковой системы Яндекс.
Установите атрибут для таких ссылок: rel=”nofollow”.
– Сочетание тега <noindex> и атрибута ссылок rel=”nofollow”
Тег <noindex> можно использовать в сочетание с rel=”nofollow”. Данная комбинация ограничивает передачу ссылочного веса ссылки, также Яндекс не обратит внимание на текст ссылки (анкор).
Конструкция:
<noindex><a href="http://site.com/">текст ссылки</a></noindex>
– Распространенные ошибки
Как правило, основная ошибка связанная с тегом <noindex> – это неучитывание факта того, что Google не распознает данный тег. Таким образом текст не будет проиндексирован в Яндекс, но будет полностью проиндексирован Google.
2. Mета-тег “robots” со значением “noindex”
– Что такое мета-тег “robots” со значением “noindex”
Мета-тег – это тег, который применяется только для роботов поисковых систем с целью закрытия от индексации (не сканирования).
Как использовать данный тег:
Мета-тег роботс устанавливается в секцию на той страницы, которую необходимо закрыть индексации или которая не должна индексироваться поисковыми системами.
<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>
Конструкция тега:
<meta name="robots" content="директива" />
Какие директивы могут быть использованы в Google:
Директива | Описание |
all | Нет ограничений на индексирование и показ контента. Эта директива используется по умолчанию и не влияет на работу поисковых роботов, если нет других указаний. |
noindex | Не показывать эту страницу, а также ссылку “Сохраненная копия” в результатах поиска. |
nofollow | Не выполнять переход по ссылкам на этой странице. |
none | Аналогично метатегам noindex, nofollow. |
noarchive | Не показывать ссылку “Сохраненная копия” в результатах поиска. |
nosnippet | Не показывать фрагмент текста этой веб-страницы в результатах поиска. При этом уменьшенное статическое изображение (если оно есть) останется видимым. |
notranslate | Не предлагать в результатах поиска перевод этой страницы. |
noimageindex | Не индексировать изображения на этой странице. |
unavailable_after: [RFC-850 date/time] | Не отображать эту страницу в результатах поиска после указанного времени/даты. Время/дату следует указать в формате RFC 850. |
*данные из справки Google.
Директива | Описание |
noindex | Не индексировать текст страницы. Страница не будет участвовать в результатах поиска |
nofollow | Не переходить по ссылкам на странице |
none | Соответствует директивам noindex, nofollow |
noarchive | Не показывать ссылку на сохраненную копию в результатах поиска |
noyaca | Не использовать сформированное автоматически описание |
index | follow | archive | Отмена соответствующих запрещающих директив |
all | Соответствует директивам index и follow — разрешено индексировать текст и ссылки на странице |
*Данные из справки Яндекс.
Как видим, основная часть директив одинаковые.
– Варианты использования meta robots noindex
Можно выделить наиболее частые конструкции, которые используются SEO-оптимизаторами на практике:
- – если не нужно, чтобы страница индексировалась, но нужно, чтобы роботы могли ходить по ссылкам на странице.
- ИЛИ- если не нужно, чтобы страница индексировалась и роботы переходили по ссылкам на странице.
- ИЛИ- если нужно, чтобы страница индексировалась, но не нужно, чтобы роботы переходили по ссылкам на странице.
При этом, если вам нужно закрыть страницу от индексации в Яндекс, используем:
<meta name="yandex" content="noindex"/>
В Google:
<meta name="googlebot" content="noindex" />
– Отличия meta robots noindex от noindex в robots.txt
Основное отличие в следующем:
- Мета-тег предназначен для закрытия страницы от индексации (запрет индексации).
- Директива Disallow в файле robots.txt предназначена для закрытия от сканирования (не индексации).
Также, стоит отметить, что с помощью директивы Disallow можно закрыть от сканирования не только конкретную страницу, но и целую папку, в отличие от мета-тега роботс, который может запретить индексацию только той страницы, на которой он размещен.
В каких случаях нужно использовать мета-тег “robots”:
Для исключения из индекса поисковой системы страницы, которая уже проиндексирована, а также точечного или массового удаления из индекса или запрета ненужных страниц.
В каких случаях нужно использовать Disallow в файле robots.txt:
Для запрета сканирования служебных файлов и документов, а также нежелательных страниц: динамические страницы фильтра, страницы с результатами поиска и тд.
Воспользуйтесь развернутой инструкцией: Robots.txt: полное руководство по настройке
Важно:
- Для поисковой системы Яндекс файл robots.txt – обязательная директива, для Google – рекомендация.
- Поисковый робот может обращаться к файлу роботс не при каждом заходе на ваш сервер.
– Распространенные ошибки
- Ошибка 1. Удаление страницы из индекса с помощь Disallow в файле robots.txt
Почему это ошибка? Страница уже проиндексирована и находиться в индексе – вы установили запрет сканирования в файле робот, теперь робот не будет заходить на нее, но она останется в индексе. - Ошибка 2. Удаление страницы из индекса с помощь Disallow в файле robots.txt + установка мета-тега роботс
Почему это ошибка? Страница уже проиндексирована и находиться в индексе – вы установили запрет сканирования в файле робот, теперь робот не будет заходить на нее, т.е. робот не сможет зайти на страницу и увидеть, что на ней установлен запрет индексации, следовательно, он не сможет исключить ее из индекса.
3. Атрибут rel=“nofollow”
– Что такое атрибут rel=“nofollow”
Атрибут Nofollow предназначен для запрета перехода по ссылке роботам поисковых систем. Данный атрибут распознает как Яндекс, так и Google.
Конструкция:
<a href=“http://www.example.com“ rel=“nofollow“>Анкор (текст ссылки)</a>
Данный атрибут ссылок может использоваться:
- Для внутренних ссылок на сайте. Допустим, у вас есть необходимость запретить переходы поискового робота по определенным ссылкам на сайте, а также исключить передачу внутреннего ссылочного веса со страницы на страницу.
- Для внешних ссылок на сайт. Для ограничения передачи ссылочного веса на ваш сайт.
Важно:
-
В конце 2019 года Google опубликовал обновленную инструкцию по настройке атрибута Nofollow для внешних ссылок, в последствие чего появились новые атрибуты, такие как rel=”ugc” (для ссылок из комментариев) и rel=”sponsored” (для платных ссылок).
-
Поисковый робот Google сканирует только ссылки типа a href=, и не сканирует ссылки a routerLink=, span href= и a onclick=.
– Атрибут Nofollow для закрытия внешних ссылок
Как правило, данный атрибут используется SEO-оптимизатором в 2 случаях:
- для для “разбавления” ссылочной массы сайта;
- точечная необходимость, чтобы конкретную ссылку не учитывали поисковые системы и вес ссылки не передавался.
Часто используется для ссылок из комментариев на форумах, статьях (крауд-ссылок).
– Атрибут Nofollow для закрытия внутренних ссылок
Данный атрибут необходимо использовать только для точечного ограничения передачи ссылочного веса, а также перехода по ссылке роботом внутри сайта. Не массово.
В основном, данный атрибут используется в следующих случаях:
- для ограничения передачи ссылочного веса на все внешние ссылки;
- для ограничения передачи ссылочного веса на точечные ссылки (например, ссылка на страницу регистрации, входа на сайт и другие страницы интерфейса сайта).
– Передает ли nofollow вес
Google утверждает следующее: «…Как правило, переход не производится. Это означает, что по этим ссылкам Google не передает ни PageRank, ни текст ссылки…»
4. Заголовок x-robots noindex
Продвинутый метод закрытия от индексации с помощью HTTP-заголовок X-Robots-Tag
С помощью данного заголовка можно настроить закрытие от индексации страницы. Параметры указываеются в специальном мета-теге на страницах (X)HTML или в HTTP-заголовке.
Данный формат поддерживает как Яндекс, так и Google.
Важно:
У поискового робота должен быть полный доступ странице.
Как это работает:
Пример HTTP ответа документа, который запрещает индексирование такого документа:
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
С помощью данного заголовка также можно ограничить индексирование для конкретной поисковой системы:
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)
Тут можно найти список директив.
Заключение
Используйте тег <noindex> исключительно по назначению, учитывайте, что данный тег применим только для поисковой системы Яндекс. Последующие 3 решения применимы для обоих поисковых систем:
- Мета-тег “robots” со значением “noindex” выполняет запрет от индексации конкретной страницы, не допускайте ошибку с закрытием страницы от сканирования через файл робот.
- Атрибут ссылок rel=”nofollow” применим как для внутренних (прежде чем применять это решение – проанализируйте ссылочные веса внутренних страниц – примите взвешенное решение), так и для внешних ссылок.
- Применяйте HTTP-заголовок x-robots noindex как альтернативу запрета индексации страницы, если это необходимо с технической точки зрения.