Google. Прорыв в духе времени, Малсид Марк

Google. Прорыв в духе времени

на обложку

Малсид Марк

Шрифт:

К методикам статистического анализа данных тогда прибегали главным образом для того, чтобы определить, какие сочетания продуктов покупатели приобретают в супермаркетах чаще всего и, соответственно, какие коррективы следует внести в схему размещения продуктов. Брин и Мотвани решили поэкспериментировать – применить эти методики к только-только появившемуся, неорганизованному Интернету. В середине 1990-х годов Всемирная паутина смахивала на Дикий Запад – такая же неконтролируемая, не стесненная нормами приличий и неуправляемая. Миллионы пользователей, конечно, были довольны: появилась электронная почта, существенно упростившая общение, а вот ученые, надеявшиеся черпать из Интернета информацию, быстро в нем разочаровались. Первые поисковые системы, призванные помогать

осуществлять в Сети поиск, – Web-Crawler, Lycos, Magellan, Infoseek, Excite, HotBot – не оправдали надежд. «Поисковые системы того времени не впечатляли, – вспоминает Мотвани. – Вы получали абсолютно бесполезный список сайтов». В 1995 году Мотвани протестировал поисковую систему Inktomi, разработанную в университете Калифорнии (г. Беркли), в котором он сам защищал докторскую. Он ввел слово «Inktomi» и нажал кнопку «Поиск». «Чуда не произошло. Ее адреса в результатах не было – она не могла найти саму себя».

Тем временем Джерри Янг и Дэвид Фило, докторанты Стэнфорда, готовившиеся к защите диссертации, взяли на вооружение несколько иной подход к поиску: они привлекли редакторов, которые составили каталог веб-сайтов в алфавитном порядке. Своей компании Янг и Фило дали название Yahoo!. Их подход действительно упростил процесс поиска нужной информации, однако и он был несовершенен, а количество сайтов росло не по дням, а по часам. Брин и Мотвани перепробовали множество других каталогов и поисковых систем, но всякий раз получали сотни или даже тысячи результатов в совершенно произвольной последовательности. Чтобы найти нужную информацию, им приходилось вручную отсеивать лишние ссылки, что отнимало уйму времени. Брин и Мотвани утвердились во мнении, что должен быть более совершенный способ поиска информации в Интернете.

Пейдж, работавший над проектом «Цифровые библиотеки», как-то случайно наткнулся в Сети на AltaVista, новую поисковую систему. Она выдавала результаты быстрее других поисковиков, и, кроме того, в ней была функция-новинка: помимо списка адресов веб-сайтов, на страницах с результатами поиска появлялись выделенные цветом слова – так называемые «ссылки». Это значительно ускоряло работу в Сети: пользователь, кликнув по выделенному в тексте слову или фразе, моментально попадал на другую веб-страницу, содержавшую больше информации на интересующую его тему. Пейдж задумался: а что же можно почерпнуть из анализа ссылок?

Гектор Гарсия-Молина, один из научных консультантов Пейджа, согласился, что анализ данных о ссылках может дать интересную информацию. AltaVista не производила с ними никаких операций – просто помещала их на страницах с результатами. Пейдж с помощью тщательного анализа хотел выяснить, как еще их можно использовать. Но для того чтобы иметь возможность проверять свои предположения, ему нужно было обзавестись большой базой данных.

Выполнив необходимые расчеты, Пейдж заявил своему научному консультанту, что собирается загрузить на свой компьютер всю Всемирную сеть.

Эта идея казалась не столь дерзкой, сколь абсурдной. Но Пейдж, ничтоже сумняшеся, объявил, что загрузит весь Интернет довольно быстро и без особых проблем. Гарсия-Молина и его коллеги лишь снисходительно улыбнулись. Ларри, однако, был полон решимости осуществить задуманное. Он не был одинок в оценке значимости ссылок: Тим Бернерс-Ли, британский специалист по компьютерным технологиям, который в 1989 году разработал Всемирную сеть, еще в начале 1980 годов утверждал, что, щелкая по выделенным словам, компьютерные пользователи смогут переходить с одной веб-страницы на другую, а ссылки будут ключевым элементом Сети.

Осенью 1996 года, объединив усилия, Пейдж и Брин приступили к загрузке и анализу веб-страниц со ссылками. На сбор информации ушло гораздо больше времени, чем предполагалось (Пейдж даже подсчитал, что каждая отправка программы-«паука» в Интернет стоила кафедре компьютерных технологий 20 тыс. долл.), но Ларри очень хотел довести начатое до конца. Его стремление определить, насколько важны перекрестные ссылки, привлекло к проекту внимание не только Брина, но и Мотвани – ведь проект

Пейджа открывал новые возможности для исследования Сети. Брина же привлекала не только перспектива работать со своим другом, но и чисто научный интерес к проблеме извлечения информации из больших массивов случайных данных. Всемирная сеть была для Брина идеальным объектом применения его математических способностей и навыков программирования.

У Пейджа возникла идея: подсчитав количество ссылок на отдельно взятый веб-сайт, можно было приблизительно определить степень его популярности. Да, популярность и содержание – это не одно и то же. Но и в его семье, и в семье Брина ценили опубликованные в научных журналах статьи, которые были снабжены ссылками на другие работы. Ссылки на веб-страницах напоминали Пейджу ссылки в статьях. Ученые ссылались на ранее опубликованные научные работы, изученные ими, и количество ссылок в научной среде служило мерилом влияния и авторитета автора. «Ссылки очень важны, – говорил Пейдж. – Имена лауреатов Нобелевской премии фигурируют в ссылках десяти тысяч научных работ». Большое количество ссылок в научной литературе «говорит о значимости вашей работы, раз ее сочли необходимым упомянуть».

То же можно сказать и о веб-сайтах, заключил Пейдж. Вскоре его осенила мысль: ссылки обладают разной степенью значимости! Одни являются более важными, другие – менее. Больше веса, вероятно, имеют ссылки, размещенные на важных веб-сайтах. А как определить, какие сайты относятся к числу «важных», а какие – нет? Очень просто: сайты, на которые ведет большее количество ссылок, более значимы, и наоборот. Иными словами, веб-сайт, ссылка на который появляется на главной странице популярного поискового ресурса Yahoo! автоматически становится более значимым. Своей программе определения степени значимости ссылок Ларри дал название PageRank: page – это часть слова webpage (веб-страница) и одновременно его фамилия, a rank означает «ранжировать».

Профессор Стэнфорда Терри Виноград, другой научный консультант Пейджа, отмечает, что путь к нахождению способа ранжирования веб-страниц базировался на анализе ссылок. «Ведь сначала Ларри намеревался просто бессистемно бродить по Сети. Выработать алгоритм <систему математических уравнений> его побудило желание облегчить жизнь интернет-пользователям. Он заходил на страницы, щелкал по ссылкам и отмечал, на какие сайты попадает чаще всего. Так и появилась PageRank».

Ларри и Сергей были уверены, что результаты практического применения PageRank послужат основой для их докторской диссертации. К началу 1997 года Пейдж разработал примитивную поисковую систему под названием BackRub, обрабатывавшую ссылки на веб-страницы. Ее логотипом стало черно-белое изображение ладони левой руки Ларри, сделанное с помощью сканера. Брин и Мотвани тоже внесли свою лепту в развитие проекта. Мотвани даже предположил, что плоды их трудов скоро выйдут за рамки университетских исследований. В итоге они получили программу ранжирования веб-страниц, попутно разрешив одну из главных проблем поиска информации в Сети. «Изначально они не ставили себе целью создать поисковую систему. Они просто работали над решением интересных задач, выдвигая интересные идеи, – говорит Мотвани. – Ларри что-то предлагал, Сергей что-то предлагал, я… И через какое-то время мы поняли, что можем создать поисковую систему». Виноград соглашается с ним: «Они не стремились открыть свое дело, а просто хотели усовершенствовать процесс поиска информации».

Брин, Пейдж и Мотвани разработали прототип поисковой системы, предназначенный для внутреннего пользования. Этот механизм, созданный на базе традиционной технологии и новой программы PageRank, представлял собой программу для поиска информации в Интернете, которая выдавала результаты поиска в порядке убывания степени их релевантности. Если остальные поисковые системы просто сравнивали слова в строке запроса со словами на веб-страницах, PageRank еще и выстраивала полученные результаты в логичной последовательности. Наконец-то пользователи компьютеров получили возможность быстро находить в Сети нужную информацию.