пройти авторизацию: 

Подробный разбор фильтров Google
UPD
590 1 1

Подробный разбор фильтров Google

Google SandBox

На старте 2004-го обозначилось среди оптимизаторов таинственное понятие — Google SandBox, или «Песочница» Google. Такое обозначение дали новому спам-фильтру Google, направленному на выделение из выдачи созданных новых сайтов

Подробный разбор фильтров Google

Фильтр SandBox проявляется в том, что молодые сайты отсутствуют в поисковой системе при выдаче по всем фразам. Происходит это, даже, несмотря на верно проведенную раскрутку (причем, без подключения спам-методов) и на наличие уникального и качественного информационного содержимого.

На сегодняшний момент SandBox касаемо лишь англоязычного сегмента, а сайты на русском и иных языках обработке этого фильтра не подвергаются. Но вероятно, фильтр сможет расширить влияние.

Предположим, цель SandBox-фильтра — исключить из выдачи спам-сайтов — действительно, появления результатов не сможет ожидать месяцами ни один спамер поиска. Но, вместе с этим, страдает большое количество качественных, новых сайтов.

Достоверная информация до сих пор отсутствует, мы конкретно не понимаем, что собой представляет SandBox-фильтр.

Имеется ряд предположений, что получены на основе опыта, которые привожу ниже:

  1. SandBox — фильтр молодых сайтов. Новый сайт падает в «Песочницу», находясь неопределенное время в ней, пока система поиска переводит его в «обычные».
  2. SandBox — фильтр на ссылки, что проставляются на новые сайты. Постараемся заметить от предположения предыдущего принципиальное отличие — накладывается фильтр не на возрасты сайтов, а на возрастные ссылки на сайты. Иными словами, у Google к сайту нет претензий, но он учитывать ссылки внешние на него отказывается, если с даты их появления не прошло десяти месяцев. Потому как основными факторами ранжирования являются внешние ссылки, то игнорирование их равносильно в выдаче системы поиска отсутствию сайта. Какое из приведенных предположений верно, сложно сказать, но вероятно, что они оба верны.
  3. Сайт может содержаться в «Песочнице» от трех месяцев до одного года и дольше. Наблюдается, что выходят сайты из «Песочницы» массово. То есть сроки «Песочницы» определяются индивидуально не для каждого сайта, а для групп (сайты, которые созданы в диапазоне времени, попадают в единую группу). Затем фильтр сразу для группы снимается, таким образом, сайты из одной группы будут в «песке» разное время.

Как определить, находится ли в «Песочнице» Гугла сайт

Типичные признаки, когда вы подозреваете сайт:

  1. Ваш сайт регулярно посещается поисковым роботом и проиндексирован Google.
  2. Ваш сайт получил PageRank, а система поиска узнает и отображает корректно внешние ссылки на него.
  3. Поиски по адресу сайта (www.site.com) выдают правильные результаты, с верным заголовком, описанием ресурса (сниппетом).
  4. Ваш сайт находят по уникальным и редким словосочетаниям, которые содержатся в тексте страничек.
  5. Ваш сайт не обнаруживается по другим запросам в 1-ой тысяче результатов, по тем даже, под которые изначально он создавался. Порой бывают исключения, и сайт находится на 500 — 600 позициях по нескольким запросам, что, конечно, суть не меняет.

Практически нет методов для обхода фильтра. Имеется ряд предположений, как такое можно сделать. Но это предположения, не более того, для обычного вебмастера малоприемлемые, в Рунете работающего мастера. Основной метод — работать над сайтом (важнейшее место по-прежнему занимает исходного кода внутренняя оптимизация). И, безусловно, — ждать окончания действия фильтра.

После снятия фильтра резко растут рейтинги, примерно на 400 — 500 позиций и выше.

Google LocalRank

25 февраля 2003-го компанией Google запатентован новый алгоритм по ранжированию страниц, который получил название LocalRank. А в его основе лежит замечательная идея, чтобы страницы ранжировать не по глобальной их ссылочной цитируемости, а в группах страниц, что тематически связаны с запросом, по цитируемости.

Алгоритм LocalRank на практике не используется (в крайнем случае, в виде, описанном в патенте), но патенты содержат ряд великолепных идей, с которыми должен ознакомиться каждый оптимизатор. Учет тематики по ссылающимся страницам используется почти каждой поисковой системой. Хоть происходит это, по-видимому, по иным алгоритмам. Коды-исходники поисковых роботов ни Google, ни Яндекс не предоставляют. Мало распространяются они по принципам их работ. Поэтому лишь тщательное изучение патентов позволит общие идеи уяснить, как может реализоваться их работа на деле.

Во время чтения поста учитывайте, тут представлена информация теоретическая, а не руководство к действию на практике.

Основные идеи алгоритма LocalRank выражаются тремя пунктами:

  1. Используя алгоритм, выбирается необходимое количество документов, что релевантны запросу поиска (обозначим его числом N). Изначально эти документы отсортированы согласно критерию (может быть это PageRank, либо релевантности оценка или какой-то иной критерий иль их группировка). Численное выражение критерия обозначим, к примеру, OldScore.
  2. Каждая из N-страниц проходит ранжирование, в итоге которой каждая получает новый ранг. Обозначаем ранги LocalScore.
  3. На третьем шагу величины LocalScore и OldScore перемножаются, в итоге получается NewScore (новая величина), согласно которой происходит ранжирование страниц итоговое.

Ключевой в алгоритме будет процедура нового ранжирования, в итоге которой каждой страничке присваивается новые ранги LocalScore. Описываем эту процедуру подробней.

0. Используя алгоритм ранжирования, отбирают N страниц, что отвечают запросу поиска. Новый алгоритм ранжирования действует лишь с N-страниц. У каждой в этой группе есть ранг OldScore.

1. Для страницы при расчетах LocalScore выделяют все странички из N, которые имеют внешние ссылки на данную страницу. Обозначаем множество страниц M. Примечательно, что во множество M не подпадают странички идентичного хоста (host, фильтрация проходит по IP-адресу), а также странички, которые являются зеркалами исходной.

2. На подмножества Li разобьем множество M. В подмножества входят страницы, которые объединены признаками:

  1. Принадлежность сходным хостам или одному. Так, странички, у которых первых три октета IP-адреса идентичны, попадают в одну группу. Словом, страницы, IP-адрес которых принадлежит диапазону xxx.xxx.xxx.0 — xxx.xxx.xxx.255, будут принадлежать одной группе.
  2. Странички, у которых похожее или адекватное содержание (зеркала, mirrors).
  3. Странички одного сайта (домена).

3. У каждой странички во множестве Li имеется ранг (OldScore). От каждого из множеств отбирают по единственной странице, у которой самый крупный OldScore, другие — исключены из рассмотрения. Так, получается определенное множество K-страниц, которые дают ссылки на данную страницу.

4. Во множестве K страницы сортируются согласно параметрам OldScore, затем во множестве K остаются лишь k первых страниц (k — определенное заданное число), другие — из рассмотрения исключаются.

5. На пятом шагу рассчитываем LocalScore. По оставшимся k-страницам суммируются их значение OldScore. Это выражается формулой:

Тут m — параметр заданный, он может варьироваться от единицы до трех (к сожалению, информация, содержащаяся в патенте на описываемый алгоритм, подробного описания на данный параметр не дает).

После, как расчет LocalScore из множества N для каждой странички завершен, рассчитываются значения NewScore и пересортируются страницы согласно новому критерию. Для расчетов NewScore используют формулу:

NewScore(i)= (a+LocalScore(i)/MaxLS)*(b+OldScore(i)/MaxOS)

i — страничка, для которой рассчитывается новый ранг;
a и b — некоторые числа (патенты не дают исчерпывающей информации об этих параметрах);
MaxLS — максимально рассчитанное значение LocalScore;
MaxOS — максимальное значение OldScore.

Постараюсь от математики отвлечься и повторю выше сказанное понятным языком. 🙂

На первоначальном этапе отбираются некоторое количество страниц, что соответствуют запросу. Делают это по алгоритмам, которые не учитывают тематику ссылок (например, по обобщенной ссылочной популярности и релевантности).

После определения группы страниц будет рассчитана локальная ссылочная популярность каждой. Все странички, так или иначе, связаны с темой запроса поиска и, естественно, имеют схожую тематику отчасти. Проанализировав в отобранной группе ссылки страниц (игнорируя остальные странички в Интернете), получаем локальную или тематическую ссылочную популярность.

После проделанных шагов у нас имеются значения OldScore (рейтинги страницы на основании релевантности, общей ссылочной популярности и иных факторов) и LocalScore (рейтинг странички среди тематически связанных страниц). На основе сочетания двух факторов проводится ранжирование страниц и выводится итоговый рейтинг.

Опубликовано:
Обсуждение

Чтобы оставить своё мнение, необходимо

пройти авторизацию: 

Комментарии и Отзывы: 1

Очень познавательно. До этого лишь слышал о песочнице, да и как-то проносило, но знать не помешает. Спасибо за материал.

0

Чтобы оставить своё мнение, необходимо

пройти авторизацию: