Стоп-слова в контенте сайта и отношение к ним поисковиков
Как правило, шумовыми словами (или стоп—словами) называют слова или целые фразы, которые несут в себе очень маленькую смысловую нагрузку. В некоторых случаях смысловая нагрузка может и вовсе отсутствовать.Традиционно к стоп—словам относят союзы, предлоги, частицы, вводные слова и прочие синтаксические конструкции, которые не содержат в себе ценной и уникальной информации.
Что касается поисковых систем и их отношения к шумовым словам, то здесь все обстоит весьма неоднозначно. В большинстве случаев поисковики исключают стоп—слова из контента сайта при его индексации. Допустим, есть следующая строка текста – «сквозь кусты было видно высокое дерево». Слова «сквозь» и «было» вполне могут быть отброшены при индексации данного текста. Кроме того, может быть не учтено слово «кусты» (из—за того, что находится между двумя стоп—словами). При исключении шумовых слов в контенте остаются лишь значимые слова, формирующие так называемый «каркас текста» (смысловую основу). Это позволяет поисковым системам гораздо быстрее и эффективнее производить анализ текста, искать ключевые слова и фразы, а затем на основании всего этого определять степень релевантности статьи конкретным запросам.
Однако исключение шумовых слов из контента происходит далеко не всегда. В некоторых случаях шумовые слова вполне нормально индексируются и даже становятся ключевыми словами для данной страницы. Обычноэто происходит в том случае, когда слово не используется отдельно, а входит в состав какого—то устойчивого фразеологического оборота (часто употребляемая фраза, пословица, поговорка и т.д.). К примеру, в словосочетании «кабы не было зимы» два первых слова вряд ли будут отнесены к стоп—словам, так как данная фраза является частью известной песни из мультфильма. Если же слово не входит в состав подобной фразеологической конструкции, то с большой долей вероятности оно будет отброшено при индексации контента.
Теперь расскажем о том, какие конкретно слова могут быть отнесены к шумовым.
1. Простые цифры, записанные в любой форме. К примеру, 2, 4, 7 и т.д. Что касается формы записи, то есть стандартная числовая форма (пример выше) и буквенная форма — два, четыре, семь и т.д. Обычно к стоп—словам не относят числа, которые стоят вплотную к существительным, к примеру, два стула, четыре времени года и т.д. Также из индекса не исключаются сложные числа, состоящие из нескольких цифр — 678, 5679 и т.д., комбинации из цифр и знаков (к примеру, банковские счета, номера телефонов и т.д.). А вот цифры, после которых стоят знаки препинания (точка, запятая или что—то другое), чаще всего относят к стоп—словам. Характерный пример — цифры, используемые в нумерованных списках.
2. Специальные символы и знаки препинания. Сюда можно отнести практически все служебные символы — восклицательный и вопросительный знаки, скобки (обычные, фигурные, квадратные), точку, тире, запятую, точку с запятой, кавычки, наклонную черту и т.д. Исключение данных символов обусловлено тем, что они не несут почти никакой смысловой нагрузки.
3. Одиночные буквы алфавита (русского, английского или какого—то другого). Предлоги и союзы, состоящие из одной буквы, тоже сюда относятся. К примеру, «а«, «и«, «в«.
4. Разнообразные служебные слова и их части. К примеру, те же предлоги, союзы, местоимения, частицы, междометия, приставки и суффиксы (ты, мы, вот, здесь, какой, чей—либо, почему, ах, уж и т.д.). Собственно, шумовые слова на большую часть состоят как раз из служебных слов.
5. Высокочастотные ключевые слова. Есть такие слова, частота использования которых может быть очень высокой для отдельно взятого сайта. К примеру, если сайт посвящен SEO, то слова «SEO«, «оптимизация» и некоторые другие могут быть отнесены к стоп—словам (потому что являются ключевыми практически для каждой страницы). Хотя многое зависит от конкретной ситуации и конкретного сайта.