Воскресенье, 24.11.2024, 05:09
 
Главная Регистрация Вход
Приветствую Вас, Гость · RSS
Меню сайта
Разделы новостей
Технологии [329]
Телекоммуникации [13]
IT-бизнес [24]
Вооружение [5]
Космос [27]
Робототехника [7]
Наука [44]
Мобильные телефоны [216]
Приколы [49]
Игры [41]
Новости нашего сайта [12]
Автоновости [315]
Софт [240]
Технологии будущего [9]
Мошенники [2]
Тестируем [1]
Музыка [12]
Видео [116]
Компьютерные технологии [137]
Календарь новостей
«  Июль 2008  »
ПнВтСрЧтПтСбВс
 123456
78910111213
14151617181920
21222324252627
28293031
Форма входа
Поиск
Друзья сайта
Админ сайта
SST 555555
ICQ 222223436
Мини-чат
Наш опрос
Нужны ли в SST смайлы ?
Всего ответов: 17
Статистика

Онлайн всего: 2
Гостей: 2
Пользователей: 0
 
Главная » 2008 » Июль » 28 » Поисковик Google проиндексировал 1 триллион веб-страниц
Поисковик Google проиндексировал 1 триллион веб-страниц
09:53

В компании Google сообщили, что интернет-поисковик Google.com успешно проиндексировал триллионную по счету веб-страницу. В официальном блоге компании говорится, что поисковик ведет создание индекса уже 10 лет - с августа 1998 года.

До конца 1998 года в поисковом индексе Google.com насчитывалось уже 26 млн страниц. В 2000 году был проиндексирован первый миллиард страниц. "За последние 8 лет интернет значительно вырос и увеличились объемы данных в поисковом сервисе", - говорит Джесси Алперт, программный инженер Google.

В компании говорят, что поисковик уже давно научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. "Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах. Система постоянно следует по ссылкам, переходя с сайта на сайт и запоминая содержимое уже изученных страниц. В реальности Google.com проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. Многие из них имеют по несколько адресов, другие являются автокопиями друг друга", пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы.

Инженеры Google говорят, что поисковик для того, чтобы избежать безконтрольного разбухания поискового индекса должен обладать изрядной долей интеллекта и отличать автоматически генерируемые страницы от настоящего пользовательского контента.

"Например многие онлайновые календари, работающие в интернете, имеют ссылку "следующий день", нажав на которую можно начать планирование на предстоящий день, однако парадокс состоит в том, что продвигаться по данной ссылке, каждый раз нажимая "следующий день" можно до бесконечности. Потому реальный размер интернета с точки зрения поисковой системы зависит только от того, насколько строги параметры индексирования робота и насколько он способен распознать степень полезности той или иной страницы", - говорят в Google.

Ранее в Google использовалась так называемая узловая система работы с веб-данными. Так один компьютер мог обсчитать граф информации для PageRank из 26 млн страниц за пару часов и эта информация использовалась в качестве индекса на протяжении жестко указанного периода времени. В случае с Google.com этот временной промежуток составлял пару дней.

Сегодня, как рассказывают в компании, пополнение веб-данных не останавливается ни на секунду, а благодаря распределенной системе обсчета данных и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки.

"Такой граф из триллиона страниц можно сравнить с разветвленной системой дорог, каждая из которых по триллиону раз пересекается с другой. Подобная система соотношения "многие ко многим" позволяет максимально быстро изучать петабайты данных", - пишет в блоге компании Джесси Алперт.
Категория: Технологии | Просмотров: 552 | Добавил: sst | Рейтинг: 0.0/0 |
Всего комментариев: 0
Имя *:
Email *:
Код *:
Хостинг от uCoz