Читать интересную книгу Google. Прошлое. Настоящее. Будущее - Джанет Лау

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 8 9 10 11 12 13 14 15 16 ... 61

Подсчитано, что на протяжении 2007 года система Google обрабатывала за месяц 37 миллиардов запросов, тогда как Yahoo! – 8,5 миллиарда запросов, a Microsoft – 2,2 миллиарда. Сегодня абсолютное большинство людей для поиска информации обращается к Интернету, и зачастую по многу раз на дню. Тем не менее мало кто представляет себе, как работает поисковая машина.

В упрощенной форме алгоритм ее работы выглядит примерно так.

Шаг 1. Вводим слово или набор слов в строку поиска, и машина отыскивает их в созданной ею базе данных, устанавливая связь с ними. С самого начала Ларри и Сергей ставили цель сохранить в своей базе данных все странички Всемирной паутины. Компания и по сей день добивается этого, а также охватывает и множество других источников информации.

Шаг 2. Машина приступает к поиску, при этом поисковый движок использует три своих ключевых элемента. Вот они.

1. Так называемый «ползун» (crawl), который на самом деле никуда не ползет. Вместо того он рассылает на тысячи веб-страниц поисковый запрос по ключевым словам. Обычно его называют «пауком», потому что он постоянно сидит во Всемирной паутине.[6]

2. Индекс – огромная база данных, где хранятся и отыскиваются все слова.

3. Система обработки запросов, которая выдает пользователю их результаты.

Понятно, что приведенная грубая схема не объясняет, как именно работает уникальная поисковая технология Google. Это – ревностно охраняемая компанией профессиональная тайна. Правда, Ларри Пейдж, автор оригинальной идеи, все же дает нам кое-какие ключи для понимания сути.

Вскоре после того, как он обосновался в Стэнфорде, Ларри начал регулярно консультироваться по поводу своей докторской диссертации с научным руководителем Терри Виноградом, обсуждая направление исследований. «Мы остановились на изучении того, как действует система ссылок в Сети, – рассказывает Пейдж. – Задачу мы видели в том, чтобы собрать все ссылки и проанализировать их, а потом уже решать, нельзя ли найти этому какое-нибудь применение. В результате мы набрели на способ ранжировать вебстраницы по степени важности, отталкиваясь от количества ссылок на них, присутствующих на других страницах. И тогда поняли, что на основе этого принципа можно создать более эффективную систему поиска. Взяли и сделали это»(12).

На страничке Google можно найти более подробное объяснение:

Вместо того чтобы полагаться на помощь группы редакторов или на то, как часто слово появляется на вебстранице, Google ранжирует каждую веб-страниу с помощью PageRank… Революционная технология PageRank оценивает все сайты, связанные с данной веб-страницей, и присуждает им важность, частично основанную на сайтах, которые указывают на них. Посредством анализа всего содержания веб-страницы система Google способна определить, за какие сайты те, кто более всего интересовался данной информацией, «проголосовали» как за наиболее ценные источники, предлагающие эту информацию(13).

Как уже говорилось, программу, которая делает поисковую систему Google уникальной по сравнению со всеми остальными, Ларри назвал своим именем. Идея, лежащая в ее основе, аналогична той, которая действует в академических исследованиях. Суть в том, что значимость научной публикации определяется тем, сколько раз на нее ссылаются солидные академические издания. Чем чаще коллеги ссылаются в своих работах на данную публикацию, тем больше значимости и релевантности она приобретает.

А на корпоративной странице Google объяснено, каким образом этот процесс усложняется:

PageRank полагается на демократическую природу Сети, используя систему ссылок как индикатор ценности отдельной страницы. Вместо того чтобы подсчитывать прямые ссылки, PageRank рассматривает ссылку со страницы А на страницу Б как голос в пользу страницы Б от страницы А. Затем по количеству полученных голосов PageRank определяет значимость данной страницы. PageRank оценивает также важность каждой страницы, принимающей участие в голосовании. При получении голосов от страниц с большей значимостью ссылка становится более ценной. Поисковая система Google, как и другие системы, также анализирует содержание страницы, на которой расположена та или иная ссылка. Поисковый движок Google анализирует не только все содержание страницы <…> но и содержание соседних веб-страниц, чтобы убедиться в том, что полученные результаты наиболее точно соответствуют запросу пользователя(14).

Но и это всего лишь часть протокола. Как ни трудно это себе представить, но PageRank для объективной оценки значимости веб-страниц учитывает более 500 миллионов переменных и три миллиарда терминов и тем не менее умудряется выдать результат в доли секунды. И все же поисковый алгоритм в значительной степени упрощен.

Как отмечает профессор Стэнфордского университета и один из первых инвесторов в Google Раджив Мотвани, «как вы, между прочим, могли бы заметить, поисковая машина, в сущности, делает почти то же, что скромный библиотекарь, только более сознательно! В то же время автоматизированные программы поиска помогают нам угнаться за экспоненциально возрастающим объемом информации»(15).

Платформа властвует

В мире компьютеров и Интернета английское слово platform (платформа) многозначно. Иногда речь идет о физической платформе, то есть совокупности оборудования, иногда – о программном обеспечении, иногда – обо всем вместе, а иногда оно означает и сам Интернет или конкретную вебстраницу, а то и поисковик. В общем, это слово может касаться любого из вышеназванных элементов.

«Платформа – по сути, игровое поле», – объясняет чикагский эксперт в области компьютерных технологий Джон Макдугалл:

Большие платформы, как правило, предназначены для целой отрасли, и все игроки обязаны действовать в рамках согласованного набора технологических стандартов, которые разрабатываются различными организациями по стандартизации; они же и следят за их соблюдением[7]. Что касается Интернета, здесь технологические стандарты разрабатывает и внедряет Консорциум Всемирной паутины (World Wide Web Consortium, W3C). Платформы поменьше тоже своего рода игровые поля, но более узкоспецифические по масштабам и сфере применения. Вы спросите, кто устанавливает стандарты для них? Игровое поле само определяет, кто может действовать на нем или экспериментировать с платформой(16).

Платформа представляет собой инструментальный комплекс наподобие инфраструктуры. Это каркас, на котором строится здание экономики, или общества, или корпорации. В области информационных технологий платформа представляет собой совокупность операционной системы и аппаратных средств, на которых она установлена; здесь платформа предназначена для исполнения прикладных программ определенного класса.

Платформы Google, YouTube, Facebook, Flickr, а также подобные им обладают властью задавать правила игры, позволяющие придать ей специфику и значимый признаваемый авторитет. Эта власть осуществляется через следующие полномочия:

– полномочия устанавливать правила или рамки поведения;

– полномочия хранить и использовать созданный пользователями контент;

– полномочия продвигать и отображать, а также акцентировать предпочтительный для данной платформы контент;

– полномочия задавать доступные для пользователей способы взаимодействия.

Соглашаясь в целом с такой трактовкой, профессор Джоэл Уэст, преподающий программирование в Университете штата Калифорния в Сан-Хосе, отмечает при этом, что операторам платформ помимо имеющихся у них полномочий требуются также провайдеры сторонних продуктов и сервисов, которые позволяют создать своего рода экосистему, обеспечивающую функционирование платформы. Сторонние компании, образующие такую экосистему, зачастую являются конкурентами. Например, операционная система Android, созданная компанией Google для мобильных телефонов, конкурирует с аналогичной системой iPhone, разработанной Apple. Однако это не мешает данным компаниям сотрудничать по другим проектам, если они сулят взаимную выгоду. Эксперты в ИТ-области придумали для этого инструмента выживания компаний-конкурентов название «кооренция» (coopetition), сложив два понятия: «кооперация» (cooperation) и «конкуренция» (competition).[8]

Считается, что компьютерная сеть Google – самая обширная и мощная из всех ныне существующих как с точки зрения аппаратных средств, так и с точки зрения объема баз данных.

«Если целиком распечатать наш индекс, то получится кипа бумаги высотой в 113 км. Вот сколько у нас проиндексировано, – говорит Пейдж. – Наша система насчитывает шесть тысяч машин, так что у нас вдоволь ресурсов. Наших мощностей хватило бы на сохранение сотни копий всей Паутины. Так что у нас образовалось довольно занятное сочетание большого количества разнообразных вещей – множества вычислительных ресурсов и огромных массивов информации, которая прежде была недоступна»(17).

1 ... 8 9 10 11 12 13 14 15 16 ... 61
На этом сайте Вы можете читать книги онлайн бесплатно русская версия Google. Прошлое. Настоящее. Будущее - Джанет Лау.
Книги, аналогичгные Google. Прошлое. Настоящее. Будущее - Джанет Лау

Оставить комментарий