Секретные записки WEB-программиста




100mbru, bitrix, CentOS, cms, drupal, java, joomla, LAMP, linux, mysql, nicru, Open-Source, php, Red Hat, seo, Typo3, ubuntu, win, windows, авто, администрирование, алгоритмы, алкоголь, бизнес, битрикс, видео, военмех, выборы, германия, джино, домены, интересности, исследования, картинки, кино, компьютеры, ливия, магазин, маразм, мастерхост, обработка-изображений, пейнтбол, политика, политэкономия, прикольное-видео, программирование, путешествия, работа, религия, рунет, сайтостроение, сео, сми, технологии, украина, форум, хиханьки, холивары, хостинг

4 группы факторов определяющих результат ранжирования в поисковых системах

27.11.2009

Внимательный читатель обратит внимание, что статья достаточно старая, но пусть его это не пугает - я стараюсь обновлять информацию в ней боле-менее регулярно (гораздо чаще, чем раз в полгода).

Последний (на момент написания статьи 12.11.2009) алгоритм Яндекса учитывает нескольких тысяч поисковых параметров для одного документа (одной страницы сайта в нашем случае). Причём, алгоритм не линейный а древовидный – методика использования или неиспользование параметров документа зависит от других параметров.

Описание этого последнего алгоритма («Снежинск») тут: http://www.buyfish.ru/articles/69/ . В этом описании нет перечисления используемых факторов - только математическая модель ранжирования. Собрать все заявленные тысячи параметров мне не удалось, но кое-что могу предьявить.

Важное замечание: в данной статье практически не затрагиваются вопросы доступности информации на сайте для поисковика. Предполагается, что вся информация сайта - доступна. В реальности это не всегда так - фреймы, JavaScript-навигация, использование флеш-меню, использование Ajax и т.п. - могут закрыть от поисковика часть контента сайта. Чтобы этого не случилось, при использовании этих технологий необходимо предусматривать "обходные пути" по сайту - специально для поискового робота, который ходит только по активным индексируемым ссылкам.

А здесь пока считаем, что эти вопросы решены.

Второе Важное замечание: считаем, что все HTTP-заголовки корректны. В своей практике я сталкивался с ситуацией, когда из-за неправильной настройки веб-сервера внешне красиво работающий сайт отдавал на всех страницах 404-й статус ("страница не найдена") - и что по-вашему должен был индексировать поисковик?

Итак - группы факторов ранжирования:

1 – Использование ключевых слов & Текстовая релевантность

- Обратите внимание – это №1. Отсутствие релевантного текста (ключевого слова) является достаточной причиной по которой сайт (страница) исключается из дальнейшей обработки по заданному ключевому слову.

Все компании, реально занимающиеся продвижением (а не сбором бабла с лохов - как это бывает - читать к примеру: ТУТ и ТУТ ) советуют начинать с этого (оптимизировать сайт под заданные ключевые слова).

Третье Важное замечание: надо понимать, что СЕО-шник, которому Вы отдали сайт на продвижение, или сотрудник Вашей компании, который занимается этими вопросами не может знать всей специфики вашего бизнеса (откуда к Вам могут приходить клиенты и какие именно их потребности Вы можете удовлетворить), поэтому первоначальный список ключевых слов ему необходимо предоставить. В дальнейшем он должен с помощью сервиса статистики поисковых запросов расширить этот список так, стобы учесть (по-максимуму) все формы их использования, учесть синонимы и родственные запросы. Список ключевых слов не должен быть коротким - современные поисковые машины анализируют статистику слов на сайте и если применять ключевое слово в одной и той же форме, в одном и том же контексте или использовать очень короткий список ключевиков - это немедленно вызовет подозрение и возможно - санкции. По моему мнению - нормальный список ключевых слов - порядка 50 (но никак не менее 20-30).

Вернёмся к теме: Группа факторов №1 - это - общее количество ключевых слов (т.е. тех слов, по которым продвигаем сайт) на странице и то, где и как они расположены.

Применение ключевых слов в порядке уменьшения значимости:

  • В теге TITLE – один или, возможно, два раза, если того требует конкуренция и title остается читабельным
  • Один раз в заголовке H1
  • Один раз в заголовке H2
  • В основном тексте странице – по крайней мере три раза (иногда большее количество, если позволяет объем текста на странице или того требует конкуренция), существует ряд рекомендаций согласно которым необходимо использовать ключевые слова на странице в районе 2-3% от общего количества текста (4-5%-это уже спам).
  • По крайней мере один раз ключевую фразу в тексте рекомендую выделить жирным
  • В теге alt к картинкам – рекомендуется применить по крайней мере один раз
  • В теге description – рекомендуется применить один или два раза, сам тег description - должен быть уникальным для каждой страницы сайта.
  • Ключевые слова внутри текста весят тем больше, чем они ближе к началу страницы.
  • Чем больше разнообразие слов на странице - тем лучше.

Не следует пытаться запихнуть в каждую страницу все ключевые слова сайта! Оптимальный вариант – когда каждая страница оптимизирована под 1-2 ключевых слова. Если у Вас больше ключевых слов, чем 2 (а их обычно больше) - нужно создавать страницы оптимизированные под разные ключи. Неестественная оптимизация (я называю её " оптимизация в грубой и извращённой форме "), когда текст не похож на нормальную человеческую речь - приводит к противоположным результатам.

Учитывается уникальность контента – владельцу сайта необходимо бороться с его воровством или тупым копированием. Если есть зеркала у сайта (в том числе - сайт с www и без www) - желательно склеить их файлом robots.txt, чтобы поисковик с первого раза понял, что это один и тот же сайт. Также, дубликаты страниц должны быть удалены с сайта (в том числе и "технические" дубликаты, возникающие из-за того, что CMS нестрого принимает адрес страницы).

  • Использование на сайте не уникального контента, позаимствованного с других сайтов (ворованный контент) приводит к понижению сайта в выдаче. Работает принцип – кто первый разместил, тот и главный. Проблема в том, что у поисковиков часто возникают проблемы с определением первоисточника. Если Ваш сайт уже под подозрением у поисковика за использование "запрещённых приёмов" продвижения, то Вы можете быть наказаны за то, что Ваш контент позаимствовали.
  • Проверить уникальность контента можно воспользовавшись сервисом http://copyscape.com/ , или тем же поиском Яндекса - задать в поиске абзац текста.
  • Владельцам сайтов, использующим Ваш контент, следует предложить поставить ссылку на первоисточник (индексируемую!!! -проверять!!!). C одной стороны - Ваш контент для поисковика останется вашим, а ссылка будет только полезна.
  • Если необходимо размножить контент на разные сайты (например, анонс события), то следует его максимально уникализировать , партнёрам для публикации следует передавать уникализированный текст (если Вы хотите, чтобы текст действительно был уникальный - лучше не полагаться на обещание партнёра, а уникализировать текст самому).
  • После выкладки информации на основной ресурс, до публикации его на других ресурсах следует выждать время, достаточное для индексации поисковиками.

Учитывается частота обновления страниц сайта – поисковики любят новый, уникальный контент. Система смотрит за жизнью ваших сайтов и выявляет из них самые активные – двигая их выше в поисковой выдаче. В идеале - ежедневно на сайте должна появляться хотя бы одна страница с уникальным релевантным контентом.

Учитывается размер текста на странице - страницы менее 1000 символов - практически бесполезны, независимо от наличия на них ключевых слов (цифры интуитивно-предположительные - см. далее "вес параметров"). Оптимальный размер контента страниц (по моим представлениям) - 2500...5000 символов (без тегов).

При этом нужно учитывать, что в поисковиках есть фильтры, пессимизирующие страницы, содержащие следующее :

  • Спам ключевыми словами (слова и фон одного цвета, слишком много одинаковых слов и т.п.). Текст должен быть естественным. Если частота какого-либо слова выше 3-5% - это уже вызывает подозрение,
  • Неестественное для языка распределение частоты слов в контенте. Текст должен восприниматься человеком как естественный.
  • Массовое дублирование контента в пределах самого сайта приводит к выпадению станиц с скопированным контентом и понижению всего сайта.
  • Размещение сео-ссылок на ресурсе (платных ссылок) – видимо, поисковик запоминает сайт, массово скупающий ссылки (неестественно много) и понижает уровень страницы, на которой размещена такая ссылка
  • Подобие сайта каталогу ссылок (слишком много ссылок на страницах).

Все поисковики используют общий принцип: страница должна быть полезна человеку, попавшему на неё по поисковому запросу. Собственно, сам алгоритм работы поисковика и является попыткой формализовать эту полезность.

2 – Чистый ссылочный вес

Те страницы в интернете, на которые ссылаются многие тысячи других страниц, имеют большую важность, и поэтому страницы, на которые ссылаются страницы с большой важностью, также должны иметь большую важность.

Используются такие параметры:

  • количество внешних ссылок на Ваш сайт.
  • вес каждой из ссылок ( PR и ТИЦ ссылающегося сайта, место размещения ссылки на доноре)
  • количество ссылок на ссылающейся странице (вес передаваемый по каждой ссылке делится на общее количество внешних ссылок)
  • если на Вашей странице стоит ссылка на сторонний сайт, то вес страницы понижается (страница "делится" своим весом), поэтому не стоит без крайней, острой необходимости ставить ссылки на сторонние ресурсы на продвигаемом сайте. Теряемый по ссылке вес, похоже, меньше передаваемого, но этот момент требует уточнения. .
  • - разнообразие адресов входящих ссылок (если указывают на разные страниы - это +)
  • - разнообразие внутриссылочного текста (иначе может посчитаться спамом)

Для оценки важности каждой из ссылок используются следующие параметры:

  • длительность размещения ссылки на сайт:
  • - самые свежие ссылки – должны «отлежаться» - (они могут ведь и быстро удалиться) – т.е. прежде чем поисковик начнёт их учитывать он должен убедится, что это постоянные а не временные ссылки (на страницу он заходит неоднократно).
  • важно! – постоянное и естественное увеличение ссылочной массы , тогда – все проиндексированные ссылки имеют максимальный вес
  • релевантность донора и акцептора (при отсутствии релевантности результат стремится к 0, при массовой нерелевантности внешних ссылок сайт может попасть в бан).
  • месторасположение ссылки на странице - чем выше ссылка, тем больше её вес (не следует покупать ссылки в нижнем блоке)

Компании, нанимающиеся раскруткой, советуют не покупать слишком много ссылок сразу (не больше 100 в месяц), в противном случае ресурс рискует попасть в бан

При покупке ссылок необходимо учитывать и общее количество ссылок с сайта-источника и количество ссылок со страницы размещения. "Вес страницы" и "вес сайта" делится на общее количество исходящих ссылок.

Кроме фильтра по неестественно быстрому приросту ссылочной массы применяются следующие фильтры:

  • фильтр по IP доменов-источников - если большинство ссылок идут с одного IP, то это вызывает сомнение в их естественности - скорее всего это аффилированные сайты.
  • фильтр по владельцу домена - используются Whois-данные (аналогично пред.)
  • типичный адрес (адреса созданы по единой маске)
  • применение дорвеев
  • встречные и кольцевые ссылки - современные алгоритмы поисковиков их "взаимоуничтожают", поэтому смысла в ранее популярном прямом обмене ссылками нет.

3 – Анкорная составляющая ссылок (текст внутри ссылок)

Ссылки не нужно размещать в чистом виде , необходим анкор – фраза, содержащая ключевое слово или словосочетание (ключевики), представляющие собой гипертекст: кликнув на них, пользователь попадает на Вашу страницу.

В идеале анкоры должны отличаться друг от друга , либо околоссылочный текст в каждом из случаев должен быть уникальным.

Стоит отметить, что для расчёта веса страниц внутри сайта - анкор-текст учитывается как с внутренних, так и внешних ссылок.

Понятно, для позиционирования сайта целиком – используются прежде всего внешние ссылки, но внутренняя перелинковка важна для расчёта веса страниц внутри сайта. И, в конечном счёте, это может повлиять и на положениии в серпе (в выдаче поисковой машины).

Моим клиентам: размещение ключей в заголовках страниц автоматически размещает их и в навигационных ссылках (в навигационных меню), автоматически создаваемых моими движками.

4 – Авторитетность домена

  • · Имеет ли домен историю в поисковой системе?
  • · сколько страниц на сайте? чем больше - тем выше авторитет (авторитет, но не релевантность!).
  • · в какой зоне домен. Не все зоны индексируются одинаково часто (Яндекс некоторые зоны вообще не индексирует). Не стоит брать домены третьего уровня (это не значит, что они не будут проиндексированы, это значит, что на продвижение потребуется больше усилий).
  • · в каком регионе домен – последний алгоритм Яндекса в первую очередь выдаёт ресурсы того региона, откуда был поисковый запрос
  • · как долго размещена информация на страницах (свежий - важнее позапрошлогоднего, слишком часто сменяемый контент менее весом, чем постоянный) – для себя делаю вывод - смена контента первоначально понижает вес страницы , даже если она после этого стала более релевантной или - возможно - поисковик проверяет - не является ли контент страницы случайной выборкой (??? - открытым остаётся вопрос – каковы критерии отличия естественной смены контента от автогенерированного контента - он в выдаче обычно не появляется). Известно, что робот неоднократно посещает страницу, прежде чем страница появится в индексе, видимо - требуется подтверждение (может быть-неоднократного) нахождения информации на странице.
  • · Много ли людей ищут и используют домен? (используется статистика кликов из поисковика, учитывается время нахождения посетителя на сайте)
  • · Имеет ли домен высококачественные ссылки или дешёвые покупные, к примеру – в каталогах (Если вы хотите заработать высокий уровень доверия на ранней стадии жизни домена, необходимо получить много ссылок с сайтов, которые поисковые системы уже считают трастовыми.) Наличие ссылок с «черных сайтов» - отрицательный фактор – быстрая покупка множества ссылок, тем более - дешёвых - вредна и может привести к понижению в выдаче или к бану сайта.
  • · Соответствует ли аналитика посещаемости, регистрационная информация и временной прирост ссылочной массы ожидаемым моделям поведения сайтов? (т.е. необходимо анализировать эти параметры у сайтов-конкурентов и не сильно от них отличаться).
  • · Плохие ссылки с сайта (Если вы хотите испортить уровень доверия сайта, ссылайтесь на “плохое” окружение, используйте манипулятивные техники роста ссылочной массы, которые не соответствуют запросам на странице или моделям распределения трафика на сайте в представлении поисковика.)
  • · Использование сайтом шаблонных урлов (урлов с шаблонными параметрами общеизвестных движков) – само по себе не является плохим фактором, но в сочетании с другими отрицательными факторами может понизить вес страниц сайта и сайта целиком
  • · Использование сайтом рекламы в автоматически всплывающих окнах понижает его в выдаче
  • · Сайты, часто недоступные поисковику по техническим причинам и долго загружающиеся ( большое время отклика сервера ) – понижаются в выдаче или исключаются совсем.
  • · Потерянные страницы на сайте (ошибки групп 4 XX и 5 XX ) понижают доверие поисковика к сайту.

Вес каждого из параметров

Оценить вес каждого из параметров в универсальном, общем для всех запросов, виде невозможно - вес зависит от состояния сайтов во всём проиндексированном интернете по каждому из запросов на момент последней индексации. Этого Вам не скажут даже владельцы поисковой машины.

Судя по опубликованному алгоритму, вес параметра зависит в том числе от разброса значений каждого из параметров по всем проиндексированным сайтам и меняется во времени вместе с изменением сайтов в индексе.

Другими словами говоря - если, к примеру, все сайты-конкуренты (в том числе и ваш) имеют примерно одинаковое количество ключевых слов (ключей) в заголовках страниц, то вес этого фактора на результат ранжирования - минимален, если у одних имеются ключи выделенные жирным, а у других - нет, то вес фактора "жирности" повышается.

Вывод: При продвижении необходимо контролировать вышеназванные параметры продвигаемого сайта в сравнении с сайтами-конкурентами и править прежде всего параметры по которым имеет место отставание.

Использование программ по раскрутке

Использование программ по раскрутке облегчает SEO-шнику его труд, также как замена напильника фрезерным станком облегчает труд слесаря. Надо понимать, что программы не подменяют участие человеческой головы в процессе, а только делают эффективнее его руки.

На программы по раскрутке следует взглянуть в свете вышеперечисленного перечня параметров - если программа не контролирует важные факторы в той области, где она работает - от неё следует отказаться.

Например, если вы не можете контролировать релевантность контента на тех сайтах, где вы размещаете ссылки на продвигаемый сайт с помощью программы для массового постинга - то лучше этого не делать совсем, а то навешаете кучу ссылок с порнушников. И - в бан.

И в заключение

Даже если все автоматические фильтры не приведут к пессимизации сайта остаётся ещё "шанс" - если кто-то пожалуется на Ваш сайт - в этом случае он попадает на ручное рассмотрение модератору поисковика (по крайней мере - так заявляет Яндекс) . И если модератор посчитает, что по "совокупности факторов" вы заслуживаете пессимизации или бана - спорить бесполезно.

Существует стандартный ответ модератора - "наша поисковая система - это наш авторский проект и только мы решаем кого включать в выдачу, а кого - нет". Эта фраза взята не с потолка - из личного опыта.

Если вы всё-таки получили наказание - лучше потратить время на приведениет сайта в порядок, а не на споры. Попробовать получить объяснения, конечно, можно, но расчитывать на них не стоит - поисковики скрывают детали своей работы, поэтому целиком полагаться на ответы модератора я бы не стал, но и игнорировать - тоже.

Примерный план работ по раскрутке - тут: http://z-i-v.ru/articles/000041.htm

PS: Всё ли это, что нужно поисковику для ранжирования?

Перечислено меньше полусотни факторов, где остальные несколько тысяч девятьсот пятьдесят с лишним?

Интересное продолжение темы здесь: http://www.z-i-v.ru/articles/000015.htm

И здесь: http://blogerator.ru/page/za-stenoj-filtrov-chto-internet-skryvaet-ot-nas

PPS: UPDATE-2012 - пятая группа факторов

В последние годы всё большее значение получают т.н. "Поведенческие Факторы".

Поисковые алгоритмы анализируют:

  • - сколько людей заходят на сайты,
  • - сколько времени они проводят на каждом сайте,
  • - как часто они вновь возвращаются на сайт снова
  • - ...

Понятно, что чем интереснее, содержательнее ресурс - тем больше времени Вы на него потратите, тем выше он будет поднят в выдаче поисковика.

Как они это делают? Для этого есть масса возможностей:

  • - Яндекс-бар, Mail.ru-бар,
  • - браузеры от поисковиков,
  • - учёт кликов в выдаче поиска,
  • - учёт времени возврата на поиск после перехода по ссылке в поиске,
  • - ...