Весь интернет держится на поисковиках. Представьте себе, что поисковик вдруг в какой-то момент исчезли из интернета или перестали функционировать, произошла катастрофа. Как бы люди искали или начинали читать свои новости, что там происходило в мире и вообще. Отправимся на зарю компьютерной техники, когда поисковики только зарождались. Зато были сайты которые собирали всяческие ссылки и выставляли у себя. Я ходила на эти сайты копирование ссылки, а потом ходила по этим ссылкам. Рассматривала что там интересного есть на других сайтах. Я их коллекционировала. Моя коллекция достигала несколько тысяч ссылок, и я бережно их хранила и копировала. Однако, поисковике конце концов поднялись. Сейчас ссылки никому даром не нужны, конечно есть люди, которые добавляют интересную страницу в Избранное. Но это огромная редкость в основном достаточно задать вопрос поисковику. Вам тут же вывалят кучу страниц, на которых это объясняется.
Но откуда же поисковику брать всю информацию? Для этой цели существует масса пауков или как их называют веб пауки или есть ещё другое название веб краулер. Что они делают? Веб переводится, как паутина. Так вот пауки как раз по этой паутине и ползают, перебирая все страницы, копируют всю информацию, заносят её какой-то каталог, индексирует, чтобы в следующий раз к ней не обращаться, потому что пауков много. На каждом сайте есть страница в текстовом файле, которая называется «robots текст». Если в этом робот тексте стоит оператор «noindex», Яндекс этот сайт индексировать уже не будет или же первоначально владелец страницы отказался от индексации, то есть сайт создан каким-то человеком который не желает, чтобы про него было известно в интернете
Кстати, кроме пауков я ещё другие "животные", скажем так их называют «дятлы». Что делают эти дятлы? Стучат, конечно, они стучат по сайтам которые неизвестно то ли работает или нет, то есть они как бы простукивают рабочий сайт или нет. Если рабочий, то он индексируется поисковой машиной. Дело ещё в том что любая страница, особенно если это какой-то крупный портал, сайт имеет кучу всяких ссылок дальше на другие страницы, которым конца нету у робота задание с ограничением вложений, то есть при переходе на другую страницу, с этой там ещё куча ссылок, эти ссылки ведут ещё на какие-то ссылки, вот ему дается определенное ограничение. Предположим пять вложений. Я сама число придумала. Возможно там какое-то другое. То есть этот сайт со всеми страницами фактически остается не полностью охваченным, паук ещё должен отличать рекламные ссылки от действительно информационных, сравнивать всяческие ключевые слова с названием с текстом и так далее.
А если допустим владелец сайта или страницы не желает, чтобы его страницы индексировалась. Даже если он в робот тексте напишет такой оператор, это ещё не факт что она не будет проиндексирована. Если на этой странице находится нужная информация для спам роботов, то это не спасёт. Что делает держатель с сайта? Он зашифровать страницу на которую просто так не войдешь без пароля и логина или требует какую-то форму, типа капчи, регистрационные формы и т. д. То есть капча - это именно то, чего опасаются от всяческих спамботов, а не людей.
Дело еще в том, что краулеры, они не изучают полностью страницу им просто времени на это не хватает, сколько бы их тысяч, миллионов не было. Они передают текст с какими-то вложениями на сайт поисковика: на Google, Яндекс, Mail.ru и так далее, и там уже более сложная система разбирается с этими страницами, индексирует их, раскладывать по полочкам, обрабатывает.
Короче говоря, вот таким образом построена система поиска в интернете и роботы пауки имеют очень огромную и важную роль.