Ночные гости или анализ посещения страниц сайта поисковыми роботами

Поисковый робот На этой странице присутствует отчет по индексации поисковыми роботами (дата, время, поисковый робот, поисковый агент, страница ресурса) ключевых (контрольных) страниц нашего сайта. Наша задача состоит в том, чтобы научиться управлять поведением поисковых роботов (wanderers, spiders, robots) и правильно построить структуру сайта (сервера) и содержащихся на нем документов, чтобы сайт легко и хорошо индексировался.

Для начала немного определимся с терминами, которые связаны с этим отчетом или анализом.

Очень упрощенно, поисковая система представляет собой огромную базу данных, которая хранит в себе полные тексты всех зарегистрированных сайтов. Неотделимо от понятия "поисковая система" понятие "робот". Поисковый робот (Searching Robot) - это небольшая программа, которая ходит по ссылкам на сайте и индексирует все встреченные по пути странички. Для регистрации нужно сообщить роботу адрес сайта. Поскольку поисковым системам ежедневно приходят тысячи запросов, пройдет от недели до месяца (зависит от системы), прежде чем сайт реально проиндексируется поисковым роботом. Порядок обхода страниц, частота визитов регулируется алгоритмами поисковой машины. Запретить индексацию всего сайта или его части можно с помощью файла robots.txt, содержащего инструкции для поисковых роботов.

Давайте сразу же выведем различия между тремя понятиями, которые постоянно путают, но которые, тем не менее, все же следует различать:

Поисковая машина. Это база данных, которая использует поискового робота, для исследования всемирной паутины. При оценивании релевантности сайта робот пользуется алгоритмом, известным только его создателям. Этот алгоритм, к тому же, постоянно меняется, поэтому некоторые компании специально занимаются отслеживанием алгоритма поисковиков, в особенности же Google. Поисковая машина может обслуживать несколько поисковых сайтов.
Поисковый сайт. Это веб-сайт, который пользуется результатами поиска поисковой машины. Он не обязательно имеет своего поискового робота, и может пользоваться данными нескольких поисковых машин и каталогов.
Веб-каталоги. Это базы данных сайтов, составляемые и редактируемые людьми, работниками компании или добровольцами, как в случае Open Directory (DMOZ). Основная цель в существовании каталогов — дать людям непредвзятую объективную информацию и оградить от спама. Недостаток — очень долгий период времени, который проходит между тем, как вы подали сайт на регистрацию, и появлением сайта в индексе каталога.

Остановимся на нескольких наиболее достойных внимания поисковых машинах и каталогах.

О том, что Google прочно укрепился на первом месте по популярности вряд ли стоит говорить. Эта компания, основанная двумя студентами Стенфордского университета, и которая лишь в сентябре 1999 сняла знак бета-версии со своего веб-сайта, сейчас осуществляет поиск по трем миллиардам веб страниц и делает более 50 процентов всего трафика любого веб-сайта.
В Рунете есть всего три поисковые системы, которые могут стать приемлемым источником трафика для сайта. Это - Яндекс, Рамблер и Google.


Справочные данные:

Список соответствия имен ботов и их поисковых систем

Поисковый роботПоисковая система
Acoon Acoon bot
AnzwersCrawl Australian search
Arachnoidea EuroSeek search
Araneo Apparently spiders
ArchitextSpider Excite spider
Atomz Atomz bot
CMC Computer Music Center bot
ComputingSite ComputingSite bot
Cruizer Southafrican spider
Datenbank Datenbank.de bot
DeepIndex DeepIndex spider
Die Blinde Kuh German Kids spider
DomainsDB.net MetaCrawler v.0.9.7b http://domainsdb.net/
Esther Build database bot
ExplorerSearch New Zealand Explorer
Fast-WebCrawler AllTheWeb spider
Fido PlanetSearch spider
FreeCrawl EuroSeek spider
Gaisbot GAIS spider
Gigabot Gigablast
Googlebot/2.1 (+http://www.google.com/bot.html) Google
Gulliver Northern Light spider
Gulper Web Bot Yuntis web robot
Icorus Webmasterworld.com Bot
InfoSeek InfoSeek spider
Iron33 Verno spider
IsraeliSearch=Israeli Society  
JCrawler Vietnamese search
KIT Fireball Fireball search
KO Yappo Yappo search
Mercator Altavista spider
Mewsoft Search Engine Newsoft spider
Motor CyberCon Search spider
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Yahoo!
MuscatFerret EuroFerret database
MwdSearch Finnish search
NEC MeshExplorer NETPLAZA search
Nederland Zoek Nederland.net search
NetScoop NetScoop search
Nutch open-source web search
Onet.pl SA http://szukaj.onet.pl
Openbot Openfind search
Openfind data gatherer Openfind bot
Orb Search Orb search
RHCS RoadHouse search
Scooter Altavista spider
Scrubby Scrub The Web search
SearchTone Developer's site spider
Sidewinder InfoSeek spider
Slurp Inktomi/Hot Bot search
StackRambler/2.0 (MSIE incompatible) Rambler.ru bot
SurveyBot/2.3 (Whois Source) http://www.whois.sc/
SwissSearch Swiss search
Tarantula Altavista spider
Trek17 Altavista search
UdiSearch Yahoo spider
UltraSeek InfoSeek spider
VWbot SearchBC database spider
Vagabondo Mainly Dutch spider
Valkyrie Japanese ODIN search
Voyager Lisa search service
WebCrawler Fast
WebCrawler WebCrawler search
WebQuest Build search
Wired Digital Wired Digital spider
YahooSeeker Yahoo spider
Yandex/1.01.001 (compatible; Win16; H) "зеркальщик" Яндекса, т.е. робот, определяющий зеркала сайтов.
Yandex/1.01.001 (compatible; Win16; I) индексирующий робот Яндекса.
Yandex/1.01.001 (compatible; Win16; P) индексатор картинок Яндекса.
Yandex/1.03.000 (compatible; Win16; M) подсветчик, робот, обращающийся к странице по ссылке "Найденные слова" и "подсвечивающий" слова запроса в ее тексте.
Yandex/1.03.003 (compatible; Win16; D) робот, обращающийся к странице при добавлении ее через форму "Добавить URL".
Zealbot LookSmart spider
ZyBorg Wisenut search
aWapClient WAP content crawler
ah-ha.com ah-ha bot
aport Aport.ru bot
appie Walhello.com search
ask jeeves Ask Jeeves
bumblebee= Relevare.com bot
crawler3 Altavista spider
ia_archiver Archive.org Bot
lycos Lycos.com Bot
msnbot/1.0 (+http://search.msn.com/msnbot.htm) MSN Search
scooter Altavista
semanticdiscovery Semanticdiscovery.com spider
slurp@inktomi inktomi
szukacz Polish searches
w3index Scandinavian web spider
whatuseek What You Seek

Всего поисковых роботов: 89
Список роботов еще...

Планета мультфильмов: советские отечественные мультфильмы - каталог, поиск, обмен, большая коллекция MPEG-4.
В архиве видео: советские фильмы и лучшая иностранная анимация, детские и семейные фильмы, сказки, историческое кино.
Развивающие игры и программы. Библиотека. Семейная страничка. Сборник лучших анекдотов и историй по категориям.
(C) Москва Таганка, Planet of cartoon films