В компании Google сообщили, что интернет-поисковик Google.com успешно
проиндексировал триллионную по счету веб-страницу. В официальном блоге
компании говорится, что поисковик ведет создание индекса уже 10 лет - с
августа 1998 года.
До конца 1998 года в поисковом индексе
Google.com насчитывалось уже 26 млн страниц. В 2000 году был
проиндексирован первый миллиард страниц. "За последние 8 лет интернет
значительно вырос и увеличились объемы данных в поисковом сервисе", -
говорит Джесси Алперт, программный инженер Google.
В компании
говорят, что поисковик уже давно научился отыскивать и удалять из
индекса дубликаты страниц и страницы с разными адресами. "Старт работы
по индексированию начался с того, что поисковый робот начал запоминать
содержимое страниц и следовать по гиперссылкам, присутствующими на
данных страницах. Система постоянно следует по ссылкам, переходя с
сайта на сайт и запоминая содержимое уже изученных страниц. В
реальности Google.com проиндексировал уже более триллиона страниц,
однако далеко не все из них являются уникальными автономными
страницами. Многие из них имеют по несколько адресов, другие являются
автокопиями друг друга", пишет в официальном блоге компании Ниссан
Хаджай, один из разработчиков поисковой системы.
Инженеры Google
говорят, что поисковик для того, чтобы избежать безконтрольного
разбухания поискового индекса должен обладать изрядной долей интеллекта
и отличать автоматически генерируемые страницы от настоящего
пользовательского контента.
"Например многие онлайновые
календари, работающие в интернете, имеют ссылку "следующий день", нажав
на которую можно начать планирование на предстоящий день, однако
парадокс состоит в том, что продвигаться по данной ссылке, каждый раз
нажимая "следующий день" можно до бесконечности. Потому реальный размер
интернета с точки зрения поисковой системы зависит только от того,
насколько строги параметры индексирования робота и насколько он
способен распознать степень полезности той или иной страницы", -
говорят в Google.
Ранее в Google использовалась так называемая
узловая система работы с веб-данными. Так один компьютер мог обсчитать
граф информации для PageRank из 26 млн страниц за пару часов и эта
информация использовалась в качестве индекса на протяжении жестко
указанного периода времени. В случае с Google.com этот временной
промежуток составлял пару дней.
Сегодня, как рассказывают в
компании, пополнение веб-данных не останавливается ни на секунду, а
благодаря распределенной системе обсчета данных и оперативному
обновлению информации весь поисковый индекс ранжируется заново по
несколько раз в сутки.
"Такой граф из триллиона страниц можно
сравнить с разветвленной системой дорог, каждая из которых по триллиону
раз пересекается с другой. Подобная система соотношения "многие ко
многим" позволяет максимально быстро изучать петабайты данных", - пишет
в блоге компании Джесси Алперт.