Раскрутка: секреты эффективного продвижения сайтов
Шрифт:
Оптимизаторы часто слышат о появлении новых факторов ранжирования сайтов. А какие факторы ушли в прошлое? На что «Яндекс» перестал обращать внимание?
С. Л.: Например, на содержимое метатега keywords, учет которого имел место в начале 2000 — х. А если серьезно, дело в том, что алгоритм машинного обучения может счесть часть факторов незначащими и присвоить им в конечной формуле нулевые веса. Сегодня набор незначащих факторов будет одним, завтра, после пересчета формулы по новой обучающей коллекции, другим. Наверняка разработчики отслеживают, какие факторы остаются незначащими на протяжении нескольких пересчетов, и впоследствии принимается решение об их физическом исключении из алгоритма. Но извне достоверно определить, с каким весом тот или иной фактор
Предположим, наша задача – проверить влияние того или иного фактора. Как правильно поставить эксперимент, чтобы не принять совпадение за тенденцию? Каким должен быть объем выборки?
С. Л.: Многое зависит от того, какой именно фактор вы собираетесь исследовать. И есть ли вообще он в алгоритме. Увы, сейчас проверить влияние большинства факторов нельзя ввиду невозможности убрать шум, даже если вы наверняка знаете, что представляет собой тот или иной фактор. Дело в том, что для чистой проверки работы одного фактора необходимо зафиксировать все остальные, включая временные. Иначе говоря, создать достаточное количество одинаковых тестовых страниц, которые будут различаться между собой значением одного — единственного изучаемого фактора, практически полных копий. Но зачастую и этого мало, так как результат может зависеть от комбинации искомого фактора с каким — то другим, причем вам неизвестно каким. И при разных значениях второго фактора исследуемый будет вести себя по — разному. Также нужно понимать, что, изменяя значение проверяемого фактора, вы можете изменить значение других факторов, которые вы обязаны зафиксировать. Все это сильно зашумляет эксперимент, обычно приводя к недостоверности результатов. Те же факторы, которые поддаются проверке с достаточной степенью достоверности, должны быть настолько мощными, чтобы шум не мешал их анализу. Пример – кликовые факторы.
Значит, по вашим наблюдениям, кликовые факторы играют значительно большую роль, чем многие другие? А не преувеличивает ли «Яндекс» степень их влияния?
С. Л.: Да, они играют колоссальную роль по сравнению с прочими. По крайней мере, я не знаю другой группы факторов, которая в одиночку позволяла бы, несмотря на значения всех остальных, довольно быстро выводить сайты в топ из ниоткуда. И, на мой взгляд, здесь налицо явный дисбаланс, да еще эти факторы имеют положительную обратную связь. Происходит «консервация» топов, и это еще не худшее. Худшее – то, что кликовые факторы весьма уязвимы по отношению к внешнему искусственному влиянию.
Должен ли «Яндекс» использовать только действительно нужные факторы, или можно добавлять бесконечное количество даже, казалось бы, бесполезных метрик (условно говоря, «количество гласных букв в слове»). Может ли из — за этого алгоритм выйти из — под контроля?
С. Л.: Мне трудно судить, что «Яндекс» должен, а что не должен. Я не вижу их метрик, мне неизвестно, что с ними происходит при добавлении абсурдных факторов. Но мне представляется, что безграничная вера в машинное обучение, в то, что чем больше факторов, пусть самых нелепых, тем лучше, – это не совсем правильно. Как сказал сотрудник Google Владимир Офицеров, «если формулу понять нельзя, то ее нельзя и улучшить». Эта позиция мне больше импонирует. Получается, что сотрудники «Яндекса» пытаются улучшить свою формулу, жонглируя факторами, придумывая их новые комбинации, в надежде на то, что умный алгоритм обучения сам все разложит по полочкам. Но не всегда выходит так. Вообще, машинное обучение создает опасную иллюзию, что любую проблему можно решить легко и быстро, особо не вникая в физический смысл. Нужно только придумать побольше разнообразных факторов, собрать достаточно широкую обучающую выборку и засунуть все это в MatrixNet. Получили неважный результат? Надо поколдовать с факторами. Помножить количество латинских букв в тексте документа на количество запятых на сайте и засунуть внутрь. Ого, значение метрики увеличилось на две миллионные. Хороший фактор, оставляем. Пусть будет «фактор имени меня». Так, что бы нам еще эдакое придумать?
Развитие службы асессоров
С. Л.: Асессоры – это люди, которые размечают обучающую выборку для алгоритма ранжирования. Это неотъемлемая часть машинного обучения. Не будет асессоров – не будет обучающей выборки. Не будет обучения – не будет выдачи вообще. Часто асессоров путают с сотрудниками отдела анти — SEO, с теми, кто вручную накладывает санкции на сайты. Да, есть такие специалисты, которые глазами просматривают кучу сайтов и решают, для людей те или нет, учитывать ли с них ссылки и т. д. И они уже в том числе составляют обучающие выборки для антиспам — алгоритмов.
Нужны ли вообще «Яндексу» фильтры, если теоретически MatrixNe должен сам не пускать в топ «плохие» сайты?
С. Л.: Вот — вот, только теоретически. Но возрастающее количество штрафов и фильтров свидетельствует о том, что результат далек от идеала. И итог деятельности хитрого механизма приходится по старинке править кувалдой. Не исключено, что со временем все фильтры и штрафы сольются в настолько мощную надстройку над результатом машинного обучения, что тот не будет оказывать заметного влияния на конечную выдачу. И в итоге мы опять получим вместо машинного обучения аналитическую формулу.
С чем, по — вашему, связана разница в политике поисковых систем относительно апдейтов: у Google корректировки выдачи происходят ежедневно, а у «Яндекса» – раз в пятьдесять дней?
С. Л.: Может быть, дело в мощностях?
Кстати, а что с Google? Каков общий принцип работы его алгоритма?
С. Л.: Google более закрытый, чем «Яндекс», в плане освещения особенностей алгоритма ранжирования, но, судя по тем скудным обрывкам информации, что доходят до нас от его сотрудников, там имеет место аналитическая формула ранжирования. Какие — то ее параметры могут рассчитываться с помощью машинного обучения, но не вся формула, как это происходит в «Яндексе». Может быть, Google уже прошел путь обратной эволюции от полностью машинного обучения назад к аналитической формуле?
Есть ли у «Яндекса» и Google явно противоречащие факторы? Такие, что из — за них, делая страницу «хорошей» для одной поисковой системы (ПС), мы ухудшаем показатели для другой. Как тогда быть?
С. Л.: Возьмем, к примеру, один из последних штрафов «Яндекса» – за переоптимизацию. Штрафуются документы, которые имеют достаточно большое количество подзаголовков (h1)… (h6) и тегов логической и физической разметки (b), (strong), (i), (em). В Google за такое не штрафуют. Наоборот, это может сработать в плюс.
И как же поступить несчастному оптимизатору, чтобы угодить всем? Ведь не секрет, что среднестатистический сайт гораздо быстрее может оказаться в топе Google, но в перспективе «Яндекс» способен обеспечить больший трафик.
С. Л.: В русскоязычном поиске осталось всего два поисковых движка. Ситуация еще не самая плохая. Конечно, как и вообще в жизни, приходится искать разумные компромиссы.
Чего сейчас больше в SEO – математики или маркетинга? Ведь, с одной стороны, сами ПС действуют по математическим формулам и хорошо бы их разгадать, с другой же – по мнению ряда специалистов, если делать сайты для людей (полезные, интересные, юзабельные), ни к чему думать о формулах, сайт поднимется и так.
С. Л.: Без математики пока никуда. Полезные и интересные сайты, может, и поднимутся без специальных технических действий, но не очень быстро. Если вообще когданибудь поднимутся.
После того как оптимизаторы «разгадывают» какой-то фактор и начинают им злоупотреблять (поведенческие факторы, например), «Яндекс» усложняет его алгоритм. А усложняет ли он себе тем самым жизнь? Получается, вместо учета большого объема данных ему приходится отсеивать шум. С другой стороны, если бы не было оптимизаторов, алгоритмы ПС развивались бы значительно медленнее? Можно ли сказать, что SEO – двигатель прогресса в поиске?