© Дм. Кирсанов

Дмитрий Кирсанов

ПОИСК

(глава из книги "Понятный Интернет", Спб, Изд. "Символ Плюс", 1996)

Поиск информации в Интернете с помощью специализированных серверов на первый взгляд может показаться довольно узкой темой, представляющей интерес лишь для настоящих профессионалов. И действительно, рядовые посетители этой компьютерной сети, особенно новички, бывает, проявляют чудеса изобретательности, добывая интересные сетевые адреса из книг и журналов (обычно устаревших), у знакомых, из рекламы - но почему-то редко пользуются многочисленными и разнообразными поисковыми системами, специально предназначенными для удобной ориентировки в Интернете и мгновенного получения самой свежей справочной информации.

Почти каждый ваш выход в Интернет имеет смысл начинать с визита на ту или иную поисковую систему: даже если вы уже неплохо представляете себе, что есть в сети по интересующей вас теме, хороший предметный каталог или индекс первым сообщит вам о таких новинках, о которых другими путями вы узнали бы намного позже или не узнали бы никогда. О том, что делать с найденной информацией, я в этой книге писать не буду - эта тема слишком обширна и, строго говоря, выходит далеко за рамки описания Интернета как такового. Вместо этого я на конкретных примерах познакомлю вас с тем, как устроены разные виды поисковых инструментов, как ими пользоваться и чего с их помощью можно достичь.


Содержание

Попытка классификации

Yahoo
Другие тематические индексы
Alta Vista

Поиск в Usenet

Поиск файлов

Экскурсия на FTP-узел
Поиск людей

Метапоиск
Ошибки и затруднения


Обозначения

поиск информации
Елкин & Палкин
так сказал Заратустра
shareware.com
Yahoo
Advanced Search


- текст
- выделенный текст
- примечания
- названия серверов и программ
- ссылка
- надписи в окнах броузера
- вызови сервер и взгляни на его окно


Попытка классификации

Инструментов для поиска информации в Интернете, построенных на разных принципах и преследующих разные цели, существует немало. Но всех их объединяет то, что они располагаются на специально выделенных сетевых компьютерах с мощными каналами связи, обслуживают ежеминутно огромное количество посетителей и требуют от своих владельцев значительных затрат на поддержку и обновление. Тем не менее, почти все они отвечают на запросы пользователей совершенно бескорыстно, а платят за это удовольствие спонсоры и рекламодатели. По масштабам влияния на сетевое сообщество поисковые системы, без сомнения, являются одним из краеугольных камней Интернета.

Содержательную классификацию поисковых систем удобнее всего строить на основании того, насколько автоматизирован в них сбор и обработка информации, предоставляемой затем пользователям, - иначе говоря, кто набирает базу данных, в которой и производится поиск: люди или сами компьютеры.

Тематические каталоги

Поисковые инструменты первого типа чаще всего называют предметными, или тематическими каталогами (subject catalogs). Компания, владеющая таким каталогом, непрерывно ведет огромную работу, исследуя, описывая, каталогизируя и раскладывая по полочкам содержимое WWW-серверов и других сетевых ресурсов, разбросанных по всему миру. Результатом ее поистине титанических усилий является огромный и постоянно обновляющийся иерархический (древовидный) каталог, на верхнем уровне которого собраны самые общие категории, такие как "бизнес", "наука", "искусство" и т. п., а элементы самого низкого уровня представляют собой ссылки на отдельные WWW-страницы и сервера вместе с кратким описанием их содержимого.

Гарантий того, что такой каталог действительно охватывает все содержимое WWW, вам никто не даст - составляют каталог все-таки люди, а людям свойственно иногда уставать и ошибаться. Однако возможная неполнота и даже однобокость подбора материалов в таких каталогах с лихвой искупается тем, что пока еще не под силу никакому компьютеру - осмысленностью отбора. Информация, которой коснулась рука человека, становится во всех смыслах дороже - и практической пользы от нее больше, да и себестоимость такой информации выше.

Упорядоченность содержимого в тематическом каталоге делает его незаменимым в тех случаях, когда вы изначально не имеете почти никакой информации о цели своих поисков. Например, если вам нужно выяснить, как в мире обстоят дела с производством обуви для езды на велосипеде, вам не обязательно знать какие-либо ключевые слова или названия конкретных фирм: достаточно просто начать спускаться сверху вниз по иерархии (Business and Economy -> Companies -> Sports -> Cycling -> Shoes) - и в конце концов вы отыщете раздел, посвященный исключительно велосипедной обуви.

Конечно, при этом вы не застрахованы от попадания в тупик, - и все же рано или поздно вы, скорее всего, обнаружите именно то, что искали. По содержимому найденного раздела вам сразу станет ясно, какие из фирм этой отрасли представлены в Интернете и какую информацию на эту тему вообще имеет смысл искать в сети.

Предметные каталоги предоставляют и возможность автоматического поиска по ключевым словам. Однако поиск этот происходит не в содержимом самих WWW-серверов, а в их кратких описаниях, хранящихся в каталоге. Иначе говоря, если вы знаете, как называется велосипедная обувь по-английски, вы можете ввести это магическое сочетание слов в специальное поле, нажать кнопку - и сервер сразу сообщит вам, что на эту тему в его иерархии имеется отдельный раздел, и поможет перенестись в него одним щелчком мыши.

Предметные каталоги Интернета можно пересчитать буквально на пальцах, так как их создание и поддержка требуют огромных затрат. Наиболее известные каталоги - Yahoo, WWW Virtual Library, Galaxy и некоторые другие. Ниже я расскажу о системе Yahoo, которая, по единодушной оценке экспертов, является самым популярным WWW-сервером Интернета - если не считать сервера фирмы Netscape (именно на Yahoo есть целый раздел, посвященный обуви для велосипедистов).

Автоматические индексы

К проблеме поиска информации в Интернете можно подойти и с другой стороны. Представьте себе программу, в которую загрузили несколько тысяч общеизвестных URL-адресов. Будучи запущена на компьютере с доступом к WWW, эта программа начинает автоматически скачивать из сети документы по этим URL, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов. Поскольку в конечном счете все WWW-документы на свете связаны между собой, рано или поздно такая программа обойдет весь Интернет.

Разумеется, программа не может ни понять, ни как-либо классифицировать то, что она видит в Интернете. Программы такого типа, называемые роботами), как правило, ограничиваются сбором статистической информации и построением словоуказателей, или индексов), по текстам документов. Собираемая роботом база данных - индекс - содержит, попросту говоря, сведения о том, в каких WWW-документах содержатся те или иные слова.

Именно такой автоматически собираемый индекс и лежит в основе поисковых систем второго рода), которые часто так и называют - автоматические индексы. Переоценить их значение невозможно - поиск по ключевым словам в одной базе данных, занимающий в худшем случае несколько секунд, принесет вам те же результаты, что и обшаривание всех WWW-страниц во всем Интернете, на что даже самому современному компьютеру требуется не одна неделя. Предпринять же что-либо подобное "вручную" просто немыслимо.

К сожалению, на самом деле у вас по-прежнему нет никаких гарантий того, что автоматический индекс обнимает весь Интернет. Доказательством этому может служить хотя бы то, что таких индексов в Интернете немало, и их базы данных в заметной своей части не пересекаются.

Таким образом, автоматический индекс состоит из трех частей: программы-робота), собираемой этим роботом базы данных и интерфейса для поиска в этой базе, с которым и работает пользователь. Все эти компоненты вполне могут функционировать без вмешательства человека, поэтому успех такой системы определяется по большей части удачно написанными программами и хорошим материальным обеспечением - мощными компьютерами и надежной связью с Интернетом.

Поскольку какая-либо классификация или оценивание материалов в системах такого рода отсутствует, к ним следует прибегать только тогда, когда вы точно знаете ключевые слова, относящиеся к тому, что вам нужно, - скажем, фамилию человека или несколько достаточно редких терминов из соответствующей области. Если же задать поиск по сколько-нибудь распространенным словам, то вам не хватит жизни, чтобы обойти все полученные в результате поиска URL-адреса - к примеру, индекс системы Alta Vista содержит 11 миллиардов слов, извлеченных из 30 миллионов WWW-страниц.

Автоматических индексов WWW-страниц существует немало: WebCrawler, Lycos, Excite, Inktomi, Open Text и другие. Некоторые из них (например, Lycos) представляют собой более или менее удачный синтез предметного каталога и автоматического индекса. Ниже мы подробно рассмотрим систему Alta Vista, которая, хотя и не выходит за рамки традиционной структуры "робот - база данных - интерфейс поиска", является одним из самых мощных инструментов этого рода.

Сходный принцип действия имеет и система Archie, предназначенная для поиска файлов на анонимных FTP-узлах. Archie появился гораздо раньше, чем программы-роботы, путешествующие по WWW (так же как протокол FTP появился намного раньше WWW), поэтому система Archie не имеет одного владельца, а ее серверы разбросаны по всем миру. Подробнее о работе с Archie и FTP-узлами мы будем говорить позже..

Yahoo

Самым старым, заслуженным и отчасти "официальным" предметным каталогом WWW является Virtual Library, поддерживаемый Консорциумом W3 .Эта система достаточно полно охватывает научную прослойку WWW - серверы университетов, лабораторий и учебных заведений, однако коммерческие фирмы в ней представлены очень слабо. Намного популярнее у населения Интернета коммерческий каталог Yahoo,с которым мы сейчас и познакомимся.

Назван он так по имени квазичеловечьего народа "йэху" из "Путешествия Гулливера" Свифта.

На первой же странице Yahoo , вы получаете доступ к двум основным методам работы с каталогом - поиску по ключевым словам и иерархическому дереву разделов (категорий).

Начав спуск по разделам каталога, вы увидите, что каждый раздел содержит точно такое же поле для ввода ключевых слов и кнопку Search, запускающую поиск, а также стандартную панель заголовка .

Рядом с кнопкой Search на первой странице расположена кнопка Yahoo! Remote (она видна только из Netscape Navigator). Эта кнопка запускает специальную программу на JavaScript, которая выводит на экран небольшое окно с тем же самым бланком ввода ключевых слов для поиска). Окно это будет оставаться на экране, пока вы не закроете его сами. Таким образом, вы будете иметь быстрый и удобный доступ к системе поиска Yahoo, даже когда в окне броузера будут загружены совсем другие документы (это окно напоминает пульт дистанционного управления телевизора - англ. remote).

Значки с надписями на панели заголовка приглашают вас познакомиться с новыми, недавно появившимся в каталоге ссылками ("New"), с собранием страниц, которые пришлись составителям каталога особенно по душе ("Cool"), просто со случайно выбранной из каталога ссылкой ("Random") и со свежими новостями о событиях в мире ("Headlines"). "Yahoo Info" приведет вас к собранию справочных и информационных документов о системе, а значок "Add URL" предназначен для тех, кто хочет представить свою WWW-страницу на суд Yahoo. Кстати, щелчок по самой надписи Yahoo в панели заголовка любого из разделов сразу же вернет вас на первую страницу Yahoo. Между панелью управления и строкой поиска обычно размещается реклама.

Каждый раздел может включать в себя как перечисление входящих в него подразделов (они расположены сразу после строки поиска, иногда в две колонки), так и список ссылок на страницы, относящиеся сразу ко всему разделу, с их краткими описаниями.

URL-адреса страниц - разделов самого каталога составляются из адреса первой страницы Yahoo и названий подразделов, по которым вы спускались вниз (пробелы в названиях страниц заменяются на символы подчеркивания). Например, если на главной странице Yahoo выбрать раздел "Computers and Internet", а в нем раздел "Internet", то страница, которую вы увидите, будет иметь URL http://www.yahoo.com/Computers_and_Internet/Internet. В списках подразделов, рядом с их названиями, выделенными жирным шрифтом, можно увидеть одно из следующих обозначений:

Вместо путешествия по дереву подразделов вы можете сразу попасть в нужное место каталога Yahoo с помощью поиска).Введя одно или несколько ключевых слов, разделенных пробелами, в строку поиска и нажав кнопку Search, вы получите список всего в Yahoo, что содержит в себе указанные вами ключевые слова. Этот список будет разделен на две части - "categories" (разделы) и "sites" (ссылки).

Если общее количество ссылок, возвращенных в результате поиска, превышает 25, список ссылок будет разбит на несколько частей, и в конце каждой части вы увидите надпись Next 25 matches, щелчок по которой загрузит вам следующую порцию результатов (если вы хотите получать за раз больше ссылок, обращайтесь к странице опций поиска ).

При поиске текст описания каждой ссылки рассматривается вместе с полным названием раздела, в который эта ссылка входит - т. е. если вы зададите ключевые слова "computer scanner", то Yahoo выдаст все ссылки из раздела "Computers and Internet", содержащие слово "scanner", даже если слова "computer" в их описаниях нет - ведь это слово уже входит в название раздела, к которому относится ссылка.

Автоматическим поиском можно воспользоваться не только из главной страницы Yahoo, но и из любого подраздела; при этом специальный переключатель, расположенный под полем ввода ключевых слов , позволяет либо ограничить поиск текущим разделом и его подразделами, либо искать во всем каталоге.

Щелкнув по надписи Options справа от кнопки Search, вы сможете с помощью специального бланка установить некоторые дополнительные параметры для своего запроса.

Прежде всего выберите, нужны ли вам ссылки, содержащие все введенные ключевые слова (boolean and, логическое И) или хотя бы одно из них (boolean or, логическое ИЛИ). Поскольку цель большинства запросов - найти минимальное количество ссылок, среди которых тем не менее будут нужные, то понятно, что режим логического И, при котором каждое ключевое слово уменьшает общее количество результатов, более полезен на практике (поэтому он и стоит по умолчанию).

Еще один переключатель позволяет включить или выключить режим поиска целых слов).Если этот переключатель стоит в положении Substrings, Yahoo найдет все ссылки, в которых указанное вами слово стоит не только само по себе, но и является частью других слов - например, поиск слова "art" сработает на слове "department". Режим Substrings установлен по умолчанию - вероятно, для того, чтобы пользователь не был вынужден вводить каждое существительное и в единственном, и во множественном числе (с окончанием "-s"). Напротив, в режиме Complete words Yahoo найдет заказанные вами ключевые слова, только если они ограничены с обеих сторон пробелами или знаками препинания.

Другие тематические каталоги

Хотя Yahoo совсем не претендует на охват всего Интернета, нередко выдаваемые им списки ресурсов слишком велики для того, чтобы быть полезными. Умелый пользователь может сократить объем полученных результатов, расширяя набор ключевых слов и сужая тем самым тему запроса. Но почти всегда какая-то часть информации пропадает втуне просто потому, что у вас не остается времени и сил изучить все, что рекомендует Yahoo.

Выходом из этой ситуации может стать более строгий отбор информации, заносимой в каталог. Этим будут убиты сразу несколько зайцев. Во-первых, в ответ на запросы будет выдаваться меньшее количество ссылок, которые уже реально просмотреть не выборочно, а все подряд. Во-вторых, качество этих информационных ресурсов благодаря отбору будет выше. И в третьих, вероятность того, что какой-то ресурс перестал существовать или у него изменился адрес (с чем пользователь Yahoo сталкивается сплошь и рядом), также будет существенно ниже - ведь владельцы престижных страниц, удостоившихся занесения в такой каталог для избранных, будут лучше заботиться о соответствии данных каталога реальному положению дел.

Одна из самых известных систем такого рода - каталог Magellan . База данных Magellan содержит сведения о 80 тысячах WWW-страниц, что очень немного в сравнении с теми миллионами, которые существуют в сети. Однако если Yahoo в качестве описаний ресурсов использует одну-две строчки текста, взятые чаще всего с самой страницы, то сотрудники системы Magellan на некоторые из страниц, заносимых в их базу данных, сами пишут небольшую рецензию, а также оценивают качество этого информационного ресурса по пятибалльной (точнее, пятизвездочной) шкале.

Язык составления запросов в Magellan, как и в Yahoo, не отличается сложностью - как правило, запрос представляет собой одно или несколько ключевых слов, разделенных пробелами. Это вполне понятно, если учесть сравнительно небольшой объем базы данных Magellan.

Помимо базы рецензий, Magellan владеет также собственным автоматическим индексом, для поиска в котором нужно перебросить переключатель под полем ввода в положение "entire database" .

Схожая по своим принципам служба фирмы Point вообще основной упор делает не на поиск, а на работу с тематическим каталогом . Служба Point известна в сети тем, что ее сотрудники постоянно заняты оцениванием сетевых ресурсов и ведут списки тех узлов, которые они считают принадлежащими к "лучшим пяти процентам WWW" ("Top 5% of the Web"). Попасть в эти пять процентов считается весьма престижным, и удостоившиеся такой чести странички гордо несут на себе специальный значок, извещающий об этом весь мир.

Сама фирма Point ведет общедоступную базу данных всех "пятипроцентных" WWW-страниц, где о каждой можно прочитать довольно подробную рецензию и узнать баллы (по 50-балльной шкале), набранные ею в трех категориях: "содержание" (content), "оформление" (presentation) и "общее впечатление" (experience).

В последнее время заметна тенденция к объединению разных механизмов поиска - тематических каталогов (типа Yahoo), собраний рецензий (типа Point) и автоматических индексов WWW-страниц (типа Alta Vista). Так, фирма Excite - один из самых агрессивных новичков на рынке поисковых систем - предлагает посетителям своего сервера все три эти составные части. А фирма Lycos, начав с создания автоматического индекса, приобрела компанию Point и теперь может снабжать списки ссылок, выдаваемые ее поисковым механизмом, информацией о баллах, присвоенных каждому из ресурсов в каталоге Point (и, разумеется, сортировать списки по этому параметру). Недавно Lycos разработала еще и свой тематический каталог под названием a2z (что означает в переводе "от а до я)").

Для пользователей в нашей стране определенный интерес может представлять тематический каталог Russia-On-Line Subject Guide. Этот каталог содержит довольно пестрое собрание ссылок на зарубежные источники плюс тематический обзор российских и русскоязычных ресурсов WWW, некоторые из которых сложно найти где-нибудь в другом месте.

Alta Vista

Если Yahoo не может найти в своем каталоге ничего, что соответствовало бы вашим ключевым словам, то вместо результатов поиска вы увидите ссылку на "Additional sites provided by Open Text" ("Дополнительные ссылки, найденные системой Open Text"). Дело в том, что фирма Yahoo, помимо собственного каталога богатств WWW, пользуется также услугами одной из поисковых систем второго типа - автоматического индекса Open Text. Вполне логично, что когда поиск по осмысленным категориям и составленным людьми описаниям не дал результата, остается лишь прибегнуть к услугам системы, которая обыщет (с тем же набором ключевых слов) с начала до конца все тексты, до которых она сможет добраться на WWW.

Ссылки на еще несколько поисковых систем присутствуют в конце каждой страницы Yahoo с результатами поиска. Эти ссылки удобны тем, что Yahoo при этом сам впишет нужные ключевые слова в бланк вызванной поисковой системы.

Неудачный поиск в Yahoo чаще всего говорит о том, что вы интересуетесь слишком узкой темой (или же с вашей темой плохо соотносятся выбранные вами ключевые слова). Это не значит, конечно, что нужной вам информации в WWW нет - просто найти ее будет сложнее и для ее поиска вам придется воспользоваться не каталогами, а более примитивными, более автоматическими и потому более всеобъемлющими системами.

Здесь, однако, речь пойдет не об Open Text, а об индексе Alta Vista . Эта система, хотя и появилась на свет совсем недавно (в декабре 1995 года), имеет один из самых больших по объему индексов из всех поисковых систем такого рода и, что не менее важно, - самые мощные и гибкие правила построения запросов.

В дополнение ко множеству мыслимых ситуаций, в которых автоматические индексы могут сослужить хорошую службу, авторы Alta Vista предлагают еще одно неожиданное применение своей поисковой системе - исследование статистики употребления и/или написания тех или иных слов (на языке лингвистов - исследование узуса). Скажем, если вы вдруг засомневались, как правильнее написать: "CDROM" (вместе) или "CD-ROM" (через дефис), достаточно послать автоматическому индексу два запроса на поиск этих слов в WWW. В самом верху страницы с результатами Alta Vista сообщит вам число употреблений (word count) каждого из этих слов, из которого можно сделать много интересных выводов, - так, в нашем примере "CD-ROM" побеждает с большим отрывом.

Строго говоря, Alta Vista понимает два разных языка запросов, довольно сильно отличающихся друг от друга. На первой странице Alta Vista вы видите бланк для простого запроса (Simple Search), а панель заголовка вверху страницы содержит кнопку Advanced Search, нажав которую, вы получите бланк для усложненного запроса.

Кроме WWW-страниц, Alta Vista ведет отдельный индекс для статей из более чем 14000 конференций Usenet (к сожалению, иерархия групп relcom.* там не представлена). Для выбора одной из двух баз данных - содержимого WWW или Usenet - служит первый выпадающий список в бланке Alta Vista.

Простой поиск - Simple Search

Прежде чем искать с помощью Alta Vista информацию на русском языке, прочтите это.

Простейший и самый употребимый способ составления запроса - перечисление через пробел нескольких ключевых слов, например:

глубоководная рыба тактостома

Однако такой метод, вполне пригодный для Yahoo, здесь может дать слишком большое количество результатов, слишком многие из которых будут не тем, что вам нужно. Поэтому чаще всего запрос приходится усложнять.

Прежде всего обратите внимание на то, что нам нужно найти документы, в которых слова "глубоководная рыба" стоят рядом, т. е. являются одним словосочетанием. Если этого не учитывать, нам могут попасться документы, в которых речь идет о глубоководной флоре и лишь случайно упомянута "рыба". Чтобы Alta Vista срабатывала на группе слов, только когда они стоят рядом, нужно заключить эту группу в кавычки:

"глубоководная рыба" тактостома

Если же, заказав такой поиск, вы выясните, что 99% статей о глубоководных рыбах посвящены грамматостопии (а вам нужна именно тактостома!), то можно будет исключить из результатов все документы, в которых есть слово "грамматостопия", приписав его со знаком "минус":

"глубоководная рыба" тактостома -грамматостопия

Слово без всякого знака действует в запросе точно так же, как и оно же со знаком "плюс".

В отличие от Yahoo, по умолчанию Alta Vista ищет вхождения целых слов), т. е. заказанные термины должны стоять в документе обособленно, а не быть частью других цепочек символов. Если же вам нужно найти все вхождения слова, даже когда оно входит в состав других слов, пользуйтесь символом *. Например, рыба* даст вам все тексты, в которых есть "рыба", "рыбак", "рыбалка" и т. д.

Имейте, однако, в виду, что символ * работает с некоторыми неочевидными ограничениями. Звездочка может стоять только в конце слова), а чтобы предотвратить обвальный поиск, дающий слишком много результатов, Alta Vista требует, чтобы слово, оканчивающееся на *, состояло не менее чем из трех букв).Более того, символ * позволяет найти не любое окончание слова, а только не превышающее в длину пяти символов и не содержащее заглавных букв или цифр.

Заглавные и строчные буквы в запросах Alta Vista также обрабатывает несколько необычно. В большинстве случаев система не обращает внимания на разницу в регистре букв: если вы ищете слово рыба, система найдет и рыба, и Рыба, и РЫБА. Однако, задав что-нибудь вроде рЫБа, в ответ вы получите только те документы (если такие вообще есть), в которых это слово написано именно таким образом.

Поиск документов на русском языке

Искать по русским ключевым словам в каталоге Yahoo нет никакого смысла: сотрудники этой службы не говорят на нашем языке, и серверы WWW с русскоязычной информацией, если и попадают в их каталог, то только в виде англоязычных описаний. Однако бесстрастный робот Alta Vista - дело другое: лишенный дара речи, он с равной добросовестностью подшивает в свою базу тексты на любых языках, не обращая внимания ни на какие государственные или национальные границы. Поэтому почти все правила поиска в индексе Alta Vista, о которых мы говорили выше, в целом применимы и к поиску по русским ключевым словам. Вам нужно будет лишь переключить клавиатуру на ввод кириллицы, напечатать ключевые слова в бланке поиска и нажать кнопку Submit. Однако есть и некоторые тонкости.

Прежде всего, таким образом вы сможете найти только документы в кодировке Windows (CP1251). Чтобы обнаружить документ в кодировке КОИ8, вы должны не только иметь шрифты в этой кодировке, но и задать ключевые слова в КОИ8. Если у вас нет драйвера клавиатуры, который позволял бы печатать в КОИ8, вы можете запустить программу Character Map, открыть какой-нибудь шрифт в кодировке КОИ8, двойными щелчками по буквам составить нужное ключевое слово в строке Characters to Copy, скопировать его в буфер Windows кнопкой Copy, а затем вставить в бланк поиска в броузере (Ctrl+V).

Рассмотрев таблицы трех шрифтов - в обеих кодировках кириллицы и вообще без таковой, - вы можете заметить, что как в CP1251, так и в КОИ8 большинство русских букв располагаются на тех местах, которые в шрифтах без кириллицы занимают "символы национальных алфавитов", т. е. латинские буквы с разными диакритическими значками. Поисковая система Alta Vista, как я уже говорил, не ограничивается только англоязычной частью WWW и потому знает, как обращаться с такими буквами. И хотя о русском алфавите разработчики Alta Vista, скорее всего, не задумывались, вы можете смело писать запросы на русском языке в кодировке CP1251 - система воспримет русские ключевые слова просто как последовательности букв с диакритикой и честно попытается найти такие последовательности в своем индексе.

Более того, поскольку заглавные русские буквы стоят в этой кодировке на месте заглавных латинских букв со значками, а строчные - на месте строчных, для CP1251 даже выполняются все правила перевода строчных букв в прописные и обратно. Исключение составляют только буквы "ч" и "я", на месте которых в международной таблице кодировки стоят не буквы, а специальные символы. Поэтому эти две буквы не только не переводятся из строчных в заглавные, но и вообще игнорируются в запросах - если вы закажете поиск слова ящер*, в ответ вы получите множество ссылок на документы, содержащие фамилию "Щербаков".

По той же самой причине в кодировке КОИ8 пропадают буквы "в" и "ъ", а перевод строчных букв в прописные в этой кодировке работает неправильно: как видно из таблицы, строчные русские буквы в КОИ8 стоят на месте заглавных латинских с диакритикой, а заглавные - на месте строчных.

Странный порядок русских букв в таблице КОИ8 имеет свое оправдание: если текст в этой кодировке будет пропущен через устройство, отсекающее 8-й бит каждого байта (раньше так поступали многие узлы сети и линии связи), большинство русских букв превратятся в соответствующие им по звучанию латинские ("г" в "g", "д" в "d"), и текст этот, обладая некоторым навыком, можно будет прочесть "невооруженным глазом".

При поиске русских слов приходится помнить не только о странностях кодировок, но и об особенностях самого языка - большей изменчивости его слов: почти у каждого русского слова в запросе имеет смысл заменить последние несколько букв на символ *.

Результаты

Результаты поиска Alta Vista, как и Yahoo, выдает в виде списка ссылок на документы, но вместо описания каждого документа рядом с его заголовком вы увидите просто первые несколько строк его текста. Если найдено будет больше десяти документов, Alta Vista разобьет их список на страницы по десять ссылок на каждой.

Такая форма представления результатов называется "стандартной" (standard). В бланке поиска можно выбрать одну из двух других форм представления - "подробную" (detailed), почти ничем не отличающуюся от стандартной, и "сжатую" (compact) .

Чтобы хоть как-то помочь вам сориентироваться в результатах, Alta Vista сортирует их так, чтобы на первом месте стояли "самые важные" документы с вашими ключевыми словами. При определении степени этой важности учитывается следующее факторы (в порядке уменьшения значимости):

Поиск специальных элементов

Любой WWW-документ имеет, помимо обычного текста, те или иные специальные элементы), такие как заголовок документа, гипертекстовые ссылки, команды вставки изображений и т. п. При обычном поиске все эти элементы учитываются наравне с обычным текстом. Однако иногда вам может понадобиться найти документ именно по значению того или иного специального элемента. В Alta Vista это делается с помощью добавления в запрос особого вида выражений:

Свои специальные элементы есть и в статьях Usenet, также индексируемых на Alta Vista. Для поиска в Usenet применяется следующие выражения:

Все эти выражения можно использовать как по отдельности, так и вместе друг с другом или в сочетании с обычными ключевыми словами. Кроме того, как и для ключевых слов, перед любым из этих выражений можно поставить знак "минус", поменяв его смысл на противоположный (т. е. если выражение без минуса ищет все, что удовлетворяет некоему условию, то с минусом оно будет искать только то, что не отвечает этому условию).

Усложненный поиск - Advanced Search

Бланк для "усложненного" запроса отличается от бланка простого запроса в первую очередь присутствием двух полей для ввода ключевых слов. Второе из этих полей, озаглавленное Results Ranking Criteria, на самом деле полностью аналогично полю ввода на бланке простого поиска - в нем можно использовать те же специальные выражения, знаки +,- и * и т. п.

Однако здесь это поле играет лишь вспомогательную роль, определяя порядок сортировки полученных результатов - документы, содержащие ключевые слова из поля Ranking, будут стоять в списке первыми (подробнее о принципах сортировки результатов см. выше). Ключевые слова для собственно поиска должны вводиться в первом из полей, Selection Criteria.

Запросы в этом поле строятся по иным правилам, нежели в поле Ranking или при простом поиске. Вместо символов + и - здесь нужно употреблять специальные операторы и скобки, строя из них логические выражения для поиска. Операторов существует четыре:

Если вы знакомы с алгеброй логических операций, то вы, наверно, и сами уже догадались, что эти операторы обладают разным приоритетом: в любом выражении сначала выполняется оператор NEAR, затем NOT, затем AND и, наконец, OR. Чтобы изменить порядок выполнения операторов, используйте круглые скобки.

Например, чтобы найти информацию о некоем Льве Константиновиче Толстом, не погибнув под обвалом ссылок на его знаменитых однофамильцев-писателей (Льва Николаевича, Алексея Константиновича и Алексея Николаевича), нужно написать такое выражение:

Толстой ~((Лев | Л.) & ! (Алексей | А.)) ~((Константинович | К.) & ! (Николаевич | Н.))

К сожалению, это магическое заклинание не защитит нас от появления "К. Л. Толстого", так как порядок слов в операторе NEAR задать, к сожалению, невозможно.

Если вы действительно зададите это вычурное выражение для поиска, то, к удивлению своему, обнаружите, что на первое место в списке результатов вышли "Литературные анекдоты" Д. Хармса, где многажды упоминается Лев Толстой. Дело в том, что поскольку именно Льва Константиновича Толстого в Интернете пока нет, Alta Vista пытается найти для вас документы, хотя бы частично удовлетворяющие запросу.

Такой синтаксис построения запроса допустим только в поле Selection Criteria, в то время как набор и порядок расположения результатов зависят от содержимого обоих полей - и Selection Criteria, и Results Ranking Criteria. Здесь возможны три случая:

Кроме того, внизу бланка поиска расположены два поля для ввода дат, которые позволяют задать промежуток времени, в который были созданы или изменены интересующие вас документы. Это имеет смысл делать для периодически обновляемых документов - например, сводок погоды или статей Usenet.

Поиск в Usenet

WWW-страницы являются самым масштабным и ценным, но далеко не единственным источником информации в Интернете. Большой интерес со всех точек зрения представляет система телеконференций Usenet, в которой каждый день публикуется несколько десятков мегабайт сообщений со всего мира.

Если вы всю свою жизнь интересуетесь какой-нибудь темой, можно просто подписаться на соответствующую группу. Однако если учесть, что общее количество групп уже давно перевалило за 20 тысяч, становится понятно, что такой подход сейчас уже не всегда работает - слишком узкими стали темы обсуждения отдельных групп и слишком много времени придется тратить на чтение почты тому, кто захочет быть в курсе всего, что ему интересно. Если же вам пока что хочется не обсудить свою проблему с живыми людьми, а просто выяснить, что народ в Интернете думает по тому или иному поводу, проще воспользоваться системами автоматического поиска в содержимом Usenet.

Alta Vista, о которой мы только что говорили, ведет отдельный индекс по 14 тысячам телеконференций, для поиска в котором нужно лишь перебросить переключатель из значения the Web в значение Usenet . Все правила составления запроса и установки опций остаются при этом в силе (не забудьте также о специальных выражениях для поиска в Usenet). Результаты поиска представляют собой отсортированный список заголовков статей, полный текст которых можно получить из базы Alta Vista щелчком по заголовку.

Специально для поиска статей Usenet предназначен сервер DejaNews . Он не только позволит вам скачать текст любой статьи из (англоязычной части) Usenet за последние несколько месяцев, но и сообщит статистические сведения об авторе: сколько сообщений послано им в Usenet, когда и в какие группы.

Если же вы хотите просто почитать свежие статьи на вашем сервере новостей, но плохо ориентируетесь в иерархиях конференций, можно воспользоваться сервером http://tile.net/news, на котором хранятся списки и краткие описания всех групп. А интерфейс для поиска в группах иерархии relcom.* вы найдете по адресу http://www.dux.ru/win/wwwwais?source=relcom.

Особым и во многих отношениях совершенно уникальным источником информации являются документы с ответами на часто задаваемые вопросы (Frequently Asked Questions, FAQs). Название это, хотя и в точности соответствует их содержимому - документы эти действительно содержат списки вопросов с ответами, - не совсем верно отражает их суть.

К этим документам стоит обращаться далеко не только в тех случаях, когда у вас есть четко сформулированные вопросы. Жанр вопросов и ответов оказался почти идеальным для текстов, сжато и энергично вводящих совершенно неподготовленного читателя в самую суть дела. В умело составленном FAQ'е вопросы подобраны и расставлены так, что его интересно и совершенно неутомительно читать подряд.

Благодаря этому жанр FAQ'ов завоевал популярность в самых разных сферах жизни Интернета. Если первоначально списки ответов на вопросы существовали только для групп телеконференций, то сейчас документы с заголовком "FAQ" часто служат подсказками (или даже справочниками команд) для пользователей разнообразных серверов и служб, в этом жанре пишутся статьи и обзоры, с помощью FAQ'ов интернетовские знаменитости объявляют миру о своих новых проектах, а фирмы и организации пропагандируют свои цели и устремления.

Однако наиболее ценным, объемным и разноплановым остается классический свод FAQ'ов Usenet. Если вам нужно в сжатые сроки ознакомиться с новой областью науки, техники, культуры или политики - особенно если в нашей стране эта область пока воспринимается как экзотика - я советую вам начать с чтения FAQ'а соответствующей телеконференции Usenet. На этом пути вы не приобретете слишком фундаментальных знаний, но зато быстро освоитесь с терминологией, узнаете о самых животрепещущих проблемах и нередко получите почти исчерпывающий список литературы.

Коллекция FAQ'ов из всех групп Usenet расположена на FTP-сервере ftp://rtfm.mit.edu, документы на котором распределены по иерархии каталогов в соответствии с иерархией телеконференций. В каждой из главных иерархий - sci, comp и т. п. - есть своя группа *.answers (например, sci.answers), в которой дублируются основные FAQ'и, публикуемые в группах этой иерархии.

Поиск файлов

До тех пор, пока для доступа к Интернету будут применяться компьютеры, файлы, и особенно файлы с программами, будут оставаться одним из самых популярных ресурсов этой сети. Вы уже знаете, что существует специальный протокол для обмена файлами - FTP. Сейчас мы познакомимся с основными инструментами поиска файлов и программ в Интернете.

Но сначала нужно сделать одно важное замечание. В отличие от большинства российских BBS, на которых может храниться все, что ни закачают туда пользователи, на узлах Интернета не стоит и пытаться найти пиратские копии коммерческих программ. Все программное обеспечение в сети относится либо к бесплатным (freeware), либо к условно-бесплатным (shareware) программам, или же представляет собой демонстрационные версии коммерческих программ с ограниченными возможностями.

Вот почему более перспективным является поиск в сети не конкретной программы, а просто какой-нибудь программы, обладающей нужными вам функциями. Гарантий успеха при этом также нет, но все же в большинстве случаев, затратив определенные усилия, вы найдете то, что вам нужно - вероятно, это будет не самая лучшая программа в своем классе, но за нее не надо будет платить деньги (по крайней мере, сразу) и она будет вполне в силах решить вашу задачу. Пожалуй, меньше всего вероятность найти в свободном доступе такие программы, которые вряд ли станет писать кто-то за пределами России (особенно программы специализированные - скажем, пакет морфологического анализа для русского языка).

Среди систем поиска программ и файлов в Интернете также можно выделить две группы. Если одни системы снабжают свои коллекции ссылок на файлы описаниями и/или классифицируют их в некое подобие тематического каталога, то другие, подобно индексам WWW-страниц, действуют совершенно автоматически, собирая базу данных о содержимом файловых архивов Интернета и позволяя искать нужный файл только по его имени.

Разумеется, ни автоматические индексы, ни тематические каталоги не держат у себя сами файлы. Все эти службы хранят и обновляют лишь базы ссылок на файлы, которые пользователю придется скачивать с узлов сети с помощью WWW или ftp, а также некоторую дополнительную информацию об этих файлах (в случае тематических каталогов). Если вы "нашли" требуемый файл в одной из этих служб, у вас, строго говоря, еще нет никаких гарантий, что вы сможете соединиться с нужным узлом и переписать файл на свой компьютер (подробнее о работе с FTP-узлами мы поговорим дальше ).

shareware.com

Как и в разделе о поиске в WWW, я начну рассказ с тематических каталогов файловых богатств Интернета. Одной из самых популярных служб такого рода является shareware.com. Строго говоря, shareware.com - не совсем каталог, так как у этой системы нет иерархии разделов, а файлы классифицируются только по одному признаку - для какой операционной системы они предназначены (правда, в отдельные категории выделены игры и исходные тексты программ). Однако у этой службы есть главный признак тематического каталога - она хранит описания всех файлов и программ, составленные людьми.

Для поиска в своей базе описаний система предлагает три интерфейса: "quick search", "power search" и "archive search" . Возможности "быстрого поиска" (quick search) ограничены выбором операционной системы, установкой максимального числа возвращаемых результатов и указанием двух ключевых слов с выбором отношения между ними (AND или OR).

Регистр букв в запросе не учитывается. Ключевые слова могут содержать символ *, который, как обычно, соответствует последовательности любых символов (например, запрос Super*GA найдет и Super VGA, и super video game). Поиск при этом производится как в описаниях, так и в именах файлов и даже в именах каталогов, в которых лежат файлы.

Бланк для "сложного поиска" (power search, ) добавляет возможность указать второстепенное ключевое слово (поле and for), а также слово, которого не должно быть в результатах поиска (поле but not for). Здесь же расположены флажок, управляющий чувствительностью к регистру букв в запросе (Check to match case...) и дополнительное поле для указания предполагаемого имени файла или каталога (And matches directory/filename). Кроме того, можно указать нижний временной порог, чтобы получить ссылки на файлы, созданные не раньше такого-то месяца, числа и года, и выбрать способ сортировки результатов - по дате или по алфавиту имен.

Наконец, "архивный поиск" (archive search) аналогичен "быстрому поиску" за тем исключением, что в нем можно ограничиться содержимым одного или нескольких FTP-архивов.

Когда нужный файл будет найден и вы щелкнете по его имени в списке результатов, shareware.com сообщит вам отдельной страницей, на каких узлах Интернета хранятся копии этого файла, какие из этих узлов наиболее надежны и безотказны при связи и о том, сколько времени займет скачивание файла в зависимости от пропускной способности вашего канала .

Основным достоинством shareware.com является то, что эта система - самая большая из систем подобного рода в Интернете: она содержит сведения о 160 тысячах файлов. Однако ничего похожего на всеохватность и универсализм ждать от нее не приходится - очень многие нужные и интересные файлы этой системе неизвестны.

Основная причина этого - то, что shareware.com регистрирует в своей базе данных не отдельные файлы, а только целые архивные узлы со всем их содержимым. А чтобы попасть в эту базу данных, владелец узла должен сначала доказать, что его архив функционирует надежно и имеет достаточно мощный канал связи с сетью. Другой крупный недостаток этой системы - слишком краткие описания файлов, редко превышающие по длине одну строку.

В Интернете существует немало систем, подобных shareware.com, но меньшего масштаба. Как правило, они ограничиваются программами для одной операционной системы и иногда даже не предоставляют возможности поиска, позволяя лишь листать свой тематический каталог. Типичный пример - собрание shareware-программ для Windows 95 по адресу http://www.windows95.com/apps.

Archie

Как мы уже видели на примере Yahoo, каталог сетевых ресурсов, обновляемый и пополняемый людьми, имеет много достоинств, но и один крупный недостаток: он никогда не сможет даже приблизиться к охвату всего Интернета. То же самое верно и для систем поиска файлов. Кроме того, если WWW-страницы почти всегда ищут по их содержимому), то программы вы нередко будете разыскивать на FTP-архивах просто по имени файла).Очевидно, что автоматическая система вроде уже известной вам Alta Vista может оказать в этом существенную помощь.

Такая система под названием Archie существует, как и сам протокол FTP, уже достаточно давно. В отличие от всех поисковых систем, с которыми мы знакомились до сих пор, Archie - не собственность одной какой-либо фирмы или организации. Пакет программ, который и представляет собой сервер Archie, может бесплатно установить на свой узел Интернета любой желающий. Поэтому серверов Archie в Интернете существует несколько десятков (большинство из них принадлежат университетам).

Принцип работы сервера Archie должен показаться вам знакомым: связываясь по анонимному FTP с файловыми архивами, Archie-сервер методично обходит на каждом таком архиве все доступные каталоги и подкаталоги и записывает имена всех файлов, которые ему при этом встретятся. Собранную и постоянно обновляемую таким образом базу данных Archie-сервер предоставляет всем желающим для поиска. Как видите, Archie работает совершенно по тому же принципу, что и системы типа Alta Vista, - за тем исключением, что FTP-архивы никак не могут ссылаться друг на друга, и поэтому список анонимных FTP-узлов для Archie приходится вести людям (кстати, если этот список вам когда-нибудь понадобится, вы сможете найти его на http://hoohoo.ncsa.uiuc.edu/ftp/).

Поиск в базе данных сервера Archie производится с помощью ключевых слов, которые в данном случае представляют собой просто имена файлов или фрагменты имен. Изначально доступ к серверам Archie был возможен только через специальные программы-клиенты Archie либо с помощью telnet. Сейчас можно пользоваться гораздо более удобными "шлюзами" (gateways), которыми многие серверы Archie связаны с WWW.

Каждый такой шлюз - это WWW-страница с уже привычным для вас бланком, в котором указываются ключевые слова и опции поиска. Одна из опций позволяет выбрать сервер Archie, на который будет направлен ваш запрос. Рассмотрим один из этих шлюзов - ArchiePlexForm .

Список types of search позволяет выбрать один из режимов поиска (точнее, один из режимов интерпретации ключевых слов). Значение по умолчанию - Case Insensitive Substring Match - означает, что различия между заглавными и строчными буквами при поиске не учитываются и что указанные ключевые слова будут интерпретироваться не обязательно как имена файлов, но и как фрагменты имен (substrings). (Напомню, что в операционной системе UNIX регистр букв в именах файлов имеет значение.)

Хотя имя файла почти всегда имеет некое отношение к его содержимому, пользоваться Archie для тематического поиска программ не стоит - эта система будет вам полезна, только если вы действительно знаете имя нужного файла или часть имени. С другой стороны, если вы ищете программу, которая имеет общепринятое сокращенное название, то есть некоторая вероятность, что это сокращение будет присутствовать и в имени файла, так что можно попробовать найти такой файл с помощью Archie.

Другие опции в списке types of search позволяют либо включить чувствительность к регистру (Case Sensitive Substring Match), либо заказать точное соответствие (Exact Match). Еще одна опция (Regular Expression Match) включает режим распознавания регулярных выражений (специального синтаксиса составления запросов). Ниже расположен переключатель для выбора порядка сортировки результатов - по алфавиту адресов узлов (By Host) либо по датам файлов (By Date).

Следующий список позволяет выбрать один из серверов Archie, на который будет направлен ваш запрос. Поскольку для поиска большое значение имеет (точнее, когда-то имело) географическое расположение сервера - от него зависит, к каким FTP-узлам этот сервер ближе и, соответственно, чья информация представлена в нем более полно, - в списке этом перечислены страны), в которых расположены сервера. В современном Интернете география серверов не имеет такого значения, как раньше, - однако это не значит, что базы данных разных серверов полностью идентичны: если вы ищете что-нибудь достаточно редкое и один из серверов не смог вам ничего посоветовать, есть смысл попробовать тот же запрос с другими серверами Archie.

Из остальных опций стоит пояснить список Impact on other users, с помощью которого вы можете установить приоритет для своего запроса, т. е. объявить, насколько важна для вас срочность получения результатов (разумеется, если вы спешите, вам придется оттереть от окошечка кассы очередь других пользователей - что и отражено в названии этой опции). Дело в том, что, в отличие от Alta Vista и других коммерческих систем, многие серверы Archie работают довольно медленно - на поиск может понадобиться до нескольких минут. Однако в большинстве случаев результат придет через несколько секунд, даже если вы не измените стоящее по умолчанию значение этой опции "Nice".}

Результаты поиска представляют собой список FTP-узлов и полных путевых имен файлов на этих узлах. Имя файла служит ссылкой на этот файл, так что щелчок по имени позволит сразу же получить данный файл с данного узла. А доменный адрес FTP-архива, выделенный крупным жирным шрифтом, перенесет вас в исходный каталог файловой системы (см. дальше) на этом архиве. Archie не делит список результатов на страницы, и его удобнее всего просматривать прямо по мере получения.

Если вас заинтересовали бесплатные и условно бесплатные программы для Windows, то вам наверняка понадобится особый dll-файл, который, как правило, не включается в дистрибутивы самих программ, но не входит и в стандартный комплект файлов Windows. Этот файл представляет собой библиотеку функций языка программирования Visual Basic, на котором написаны очень многие программы для Windows. Разные версии этого файла (точнее, его варианты из разных версий Visual Basic) называются vbrun200.dll, vbrun300.dll или vbrun301.dll, а для Windows 95 вам может понадобиться 32-разрядная версия под названием vb40032.dll. Если какой-нибудь программе требуется для работы один из этих файлов, вы, скорее всего, сможете узнать об этом из документации к ней или из ее описания в Интернете. Найти этот файл быстрее и удобнее всего с помощью Archie (в запросе нужно отбросить расширение .dll, так как на FTP-узлах эти файлы хранятся в архивах с тем же именем и с расширением .zip или .exe).

Экскурсия на FTP-узел

FTP - самый старый из популярных и самый популярных из старых инструментов Интернета. Рано или поздно вы наверняка столкнетесь с необходимостью посетить анонимный FTP-узел; как я уже писал, для этого вам может служить тот же самый броузер, на котором вы путешествуете по WWW. Однако интерфейс FTP совсем не так "дружественен к пользователю", как WWW, поэтому стоит привести здесь несколько практических советов по работе с FTP-архивами.

Прежде всего, соединиться с некоторыми FTP-узлами иногда не удается из-за их перегруженности - каждый узел может обслуживать одновременно только ограниченное число анонимных пользователей, и если все места заняты, то попытка перейти по ссылке, указывающей на этот узел, приведет к появлению такого сообщения:

FTP Error
Could not login to FTP server

Будьте внимательны - если вместо перехода по ссылке на файл вы сразу выберете команду Save this Link as из контекстного меню NetScape, а нужный FTP-узел в этот момент не сможет вас обслужить, то Netscape ничтоже сумняшеся запишет вышеприведенное сообщение под именем нужного файла. Заподозрить, что что-то здесь не так, можно лишь по ненормально быстрой реакции программы - обычно получение даже небольшого файла с FTP-узла занимает заметное время, так что если окно Saving Location промелькнуло на экране слишком быстро, проверьте, то ли вы получили в результате.

Вообще следует заметить, что работа броузером с FTP-архивами происходит значительно медленнее, чем перемещение по ссылкам между WWW-страницами. Причина этого в том, что если к WWW-серверу можно обращаться в любой момент времени, сразу же и без лишних формальностей запрашивая у него тот или иной документ, FTP-сервер требует, чтобы ему сначала представились и попросили анонимного доступа. Некоторое время после того, как вы свяжетесь с FTP-узлом, он помнит о вас, и, скажем, несколько файлов подряд можно скачивать, не повторяя многоэтапную процедуру установки соединения. Однако если вы не будете подавать признаков жизни в течение некоторого времени (обычно пяти минут), FTP-сервер разорвет соединение и, чтобы продолжить работу, вам придется договариваться с ним заново.

К сожалению, поддерживать сеанс связи и производить серию действий, не соединяясь каждый раз сначала, может только специальный FTP-клиент. Броузер WWW решает эту задачу намного проще - каждый URL, начинающийся с ftp: , для него равнозначен команде: "связаться с узлом, зарегистрироваться на нем в качестве анонимного пользователя, получить нужный файл или считать список файлов в каталоге, после чего разорвать связь". Вот почему, когда вы решите побродить по файловому дереву FTP-узла, паузы перед появлением на экране содержимого очередного каталога наверняка будут вызывать раздражение - ведь каждый переход из каталога в каталог для броузера есть не что иное, как отработка URL с ftp: со всеми вытекающими отсюда последствиями.

Невозможность достучаться характерна прежде всего для самых популярных FTP-архивов Интернета, таких как архивы университетов Окленда или Вашингтона, знаменитый архив программ для IBM PC под названием SimTel и архив Winsite - самое богатое собрание программ для Windows.Поэтому для многих архивов и собраний программ в разных частях света на других, менее загруженных FTP-серверах организуются их точные копии), или "зеркальные отражения" (mirrors).

Mirrors - это именно копии, а не просто сборники ссылок на исходные файлы. Когда вы качаете файл с одного из "зеркал", FTP-узел с оригиналом архива никоим образом в этом не участвует. Такие зеркальные копии периодически обновляются, но обычно несколько отстают от оригиналов по полноте и свежести содержимого. Когда система поиска типа Archie или shareware.com выдает вам адреса нескольких копий файла на разных узлах, то, скорее всего, перед вами - именно "зеркала" какого-то из популярных архивов.

Некоторые файловые архивы, помимо традиционного доступа по FTP, позволяют работать со своим содержимым через WWW, так что для каждого каталога архива заводится своя страничка с описанием файлов в этом каталоге и ссылками на них. Разумеется, для пользователя такой интерфейс намного удобнее, но он требует определенных трудозатрат от владельца этого архива и потому, увы, встречается нечасто. Подобной системой доступа, к примеру, оборудован КИАрхив в Москве - одно из крупнейших файловых собраний в нашей стране.

Но вот, наконец, вы достучались до нужного архива, и через несколько секунд в окне броузера возникает его корневой каталог. Обычно перед списком файлов вы увидите приветственное сообщение, которое сервер автоматически рассылает всем соединившимся с ним анонимным пользователям, а ваш броузер - вставляет в страницу с каталогом .

В этом сообщении, как правило, указываются географические координаты сервера, местное время, допустимое и фактическое число пользователей, адреса копий данного архива, почтовый адрес человека, ответственного за ведение архива, предупреждение о том, что все ваши действия записываются в системный журнал (log), и т. п. Часто встречается также совет - во избежание неприятностей, которые могут произойти с некоторыми FTP-клиентами, ставить впереди пароля (т. е. вашего электронного адреса) символ "-". Вам это не нужно, да вы просто и не сможете это сделать - ведь входное имя ("anonymous") и пароль вводите не вы сами, а ваш броузер.

Но перейдем наконец к списку файлов и каталогов. Столбцы имен, дат и размеров не требуют особых пояснений - нечто подобное вы видели во множестве программ для DOS или Windows. Отличить каталоги от файлов можно как по тому, что в конце имен каталогов стоит символ /, так и по слову directory в крайнем правом столбце. Как правило, в корневом каталоге еще нет каких-либо осмысленных файлов или подкаталогов, а есть лишь служебные каталоги вроде etc, bin, incoming и т. д., а также разнообразные текстовые файлы с информацией об этом архиве, правилами работы в нем и т. п. (имена этих файлов чаще всего содержат слово README).

Кроме того, в корневом каталоге часто располагается файл с именем ls-r.z или ls-r.gz. В нем хранится автоматически сгенерированный список файлов во всех каталогах и подкаталогах архива. Иногда аналогичные файлы содержат списки новых поступлений за последние неделю или месяц.

Каталог, который вам нужен, почти всегда называется pub - именно с него начинается дерево каталогов, содержащих общедоступные файлы. Что именно вы увидите, зайдя в pub, зависит уже от тематики архива. Там могут быть каталоги, посвященные разным операционным системам, тематические иерархии, а иногда каталоги, выделяемые лично пользователям этой системы. В каждом из каталогов может храниться свое приветственное обращение, которое ваш броузер вставит перед списком файлов.

В правом столбце списка файлов, озаглавленном Description ("Описание"), броузер помещает свои догадки о том, к какому типу принадлежит каждый файл - binary executable ("бинарный исполняемый файл"), text file ("текстовый файл") и т. п. Разумеется, ваш броузер не заглядывает в каждый из этих файлов, а судит исключительно по расширениям имен (.exe, .txt и т. п.). Если же в этом столбце стоит надпись symbolic link, это означает, что данный файл или каталог на самом деле расположен в другом месте файловой системы, а здесь вы видите лишь ссылку на него (впрочем, с точки зрения пользователя эта ссылка ничем не отличается от самого файла). С помощью механизма ссылок самые популярные подкаталоги из pub иногда выносят прямо в корневой каталог архива.

На многих (но не на всех) архивах в каждом каталоге имеется специальный файл с кратким - обычно не длиннее одной строки - описанием каждого файла этого каталога (на сей раз вполне осмысленным описанием, составленным людьми). Такой файл может называться 0index, 00index, 00index.txt и т. п. (нолики приписываются к имени файла, чтобы он всегда вставал на первое место в отсортированном по алфавиту списке файлов). В корневом же каталоге архива можно иногда найти файл-архив, в котором собраны такие описания из всех подкаталогов FTP-узла.

Кстати об архиваторах. Если владелец FTP-узла предвидит, что его будут посещать пользователи MS-DOS или Windows, то, как правило, для текстовых и информационных файлов он предусматривает версию, сжатую архиватором pkzip (с расширением файла .zip). Программы и бинарные файлы для этих операционных систем также сжимаются обычно архиватором pkzip.

Однако чаще вы будете видеть файл с другими расширениями: .Z, .z, .gz, .tar.z. Это - архивы, созданные архиваторами UNIX, такими как compress и gzip. Если вам позарез необходимо прочитать текстовый файл, сжатый таким архиватором (исполняемый файл UNIX на вашем компьютере все равно работать не будет), вы должны отыскать какую-нибудь разархивирующую программу для этих форматов, работающую под MS-DOS или Windows (например, утилиту WinZip).

Следует пояснить, что двойное расширение .tar.z или .tar.gz - результат действия двух утилит UNIX: программа tar просто собирает несколько файлов в один безо всякого сжатия, после чего другая программа - архиватор - сжимает получившийся файл, дописывая к его имени еще и свое расширение. Упомянутая выше утилита WinZip умеет и разархивировать, и разбирать tar-файлы на составные части.

Поиск людей

На первых порах, когда все в Интернете будет для вас новым и необычным, проблема поиска людей в этой бескрайней сети вряд ли покажется вам особо актуальной - вам и без того будет хватать новых впечатлений. Но ведь если вы (как и весь цивилизованный мир) приобщаетесь к благам Интернета именно сейчас), то весьма вероятно, что некоторые из, скажем, ваших однокашников по школе или институту уже какое-то время живут в этом новом информационном пространстве. А среди них, вероятно, есть и такие, с которыми вы давно потеряли связь, но были бы не прочь обменяться весточками по электронной почте. Сейчас я расскажу вам о том, как в современном Интернете можно искать информацию о людях.

Личные страницы (home pages)

Среди множества типов и разновидностей WWW-страниц есть и такие, которые принадлежат не фирмам и не организациям, а отдельным людям. Такие информационные источники называются личными страницами (home pages). Само собой, и содержание, и оформление такой страницы зависят только от ее автора (он же главный герой этого произведения). Конечно, далеко не все население Интернета имеет свои личные страницы - но уж если у кого-то такая страница есть, на ней вы наверняка найдете больше сведений об этом человеке, чем вам захочется знать. Вместо примера я, пользуясь случаем, хочу пригласить вас на мою собственную страницу .

Что же обычно помещают на личные страницы? Как это ни странно, свежие мысли в этой области попадаются нечасто - большинство страниц следуют некоему неписанному стандарту. Как минимум, на личную страницу помещают фотографию и электронный адрес автора (оформленный как ссылка с mailto: ). Нередко вы найдете там же краткую биографию владельца (со ссылками, к примеру, на страницу его университета или фирмы), собрание ссылок на его любимые места в WWW, его "бумажный" почтовый адрес, любимые изречения и анекдоты и вообще все то, что принято обозначать фразой "несколько слов о себе".

Более интересные страницы посвящаются работе или хобби автора: скажем, писатель может выложить на страницу отрывки из своих произведений, художник или фотограф - подборку своих работ. Некоторые знатоки Интернета, досконально исследовав какую-нибудь тематическую область (борьбу с курением, или настройку драйвера Winsock, или макраме), собирают на своих страницах коллекции ссылок на сетевые источники и другую информацию по этой теме. Иногда такие тематические обзоры становятся весьма популярными в сети и даже удостаиваются занесения в соответствующий раздел Yahoo.

Как же найти адрес личной страницы того или иного человека? Для этого есть несколько поисковых служб. Одна из крупнейших называется Who's Who . База данных этой системы содержит адреса и краткие описания более чем 18 тысяч личных страниц. Пополняется эта база только за счет самих авторов - какого-либо самостоятельного поиска в сети владелец этой системы не ведет.

Каталоги электронных адресов

Даже если учесть, что личная страница в Интернете есть далеко не у каждого, все равно 18 тысяч адресов, которыми может похвастаться каталог Who's Who, на фоне всего Интернета выглядят каплей в море. Более чем вероятно, что люди, которых вам захочется отыскать, будут представлены в Интернете лишь своим электронным адресом и больше ничем. С другой стороны, этого адреса, в принципе, может оказаться достаточно - списавшись с человеком, вы сможете узнать всю нужную информацию прямо из первых рук.

С другой стороны, от каталога электронных адресов также будет не сильно много проку, если единственным источником его пополнения будет добровольная саморегистрация жителей Интернета. Поэтому поисковые системы, стремящиеся собрать информацию о как можно большем числе людей, строят свою базу в основном за счет автоматической обработки так называемых "открытых источников", по большей части - содержимого конференций Usenet.

Как вы, наверное, знаете, почти любое электронное письмо - и в том числе сообщение в телеконференции Usenet - несет в своем заголовке не только электронный адрес отправителя, но и его имя и фамилию. Остается лишь написать программу, которая будет извлекать эту информацию из каждого письма в каждой группе Usenet и заносить ее в одну большую базу данных.

На этом принципе построено несколько известных адресных справочников. Все они, кроме автоматического поиска открытых источников, позволяют регистрироваться в их базе данных всем желающим. При этом, разумеется, пользователя просят ввести о себе значительно больше информации, чем можно было бы извлечь из заголовка письма. Некоторые справочные системы даже явным образом поощряют такую самозапись, предоставляя зарегистрировавшимся, к примеру, более богатые возможности поиска.

Хотя объективно сравнить размеры баз данных таких систем - Internet Address Finder, Okra, WhoWhere - довольно сложно, все же лидерство, вероятнее всего, принадлежит каталогу Four11. Если верить рекламе, в списках этой системы хранится свыше 6 миллионов записей. Four11 имеет также, несомненно, один из самых богатых и удобных интерфейсов поиска (правда, этот интерфейс доступен только тем, кто зарегистрировался, т. е. сам занес информацию о себе в базу данных Four11).

Как видно , искать человека можно по его имени (First Name), фамилии (Last Name), собственно электронному адресу, организации, сетевому домену (например, .ru) и даже по тому, в каком университете он учился или в какой фирме работал (Four11 называет это "поиском старых друзей"). Поскольку около 90% базы данных составляет информация, извлеченная из Usenet, на практике вряд ли имеет смысл пользоваться какими-либо другими полями, кроме имени, фамилии и, возможно, домена.

Кроме того, Four11 позволяет искать людей по их старым электронным адресам (Search By Old E-Mail) и даже умеет заменять при поиске распространенные английские имена на их синонимы (Use SmartName). Учитывая, что огромный поток новых людей вливается в океан Интернета прямо на наших глазах, авторы Four11 предусмотрели также возможность "спящего поиска" ("sleeper search"), когда система не только выдаст вам информацию, уже хранящуюся в базе данных, но и запомнит ваш запрос на будущее. Если когда-нибудь в базе данных Four11 появится новая запись, подпадающая под ваш "спящий запрос", система известит вас об этом письмом по электронной почте.

Поскольку одной из серьезнейших болезней современного Интернета является все возрастающий поток "мусорной почты" (junk mail), в основном рекламы, разработчики Four11 сделали все возможное, чтобы затруднить жизнь охотникам за списками адресов для рассылки рекламы. Вот почему в результатах поиска вы увидите не сразу электронные адреса людей, а лишь их имена, фамилии и сетевые домены - полные адреса можно будет получать только по одному, щелкая по строчкам списка.

Из интересных возможностей, отсутствующих на Four11, стоит отметить поиск по схожести звучания или написания фамилий, который умеет делать система WhoWhere . Заказав поиск своей фамилии, автор этой книги нашел не только себя и десяток своих однофамильцев, но и нескольких господ, которые пишут свою фамилию "Kirsanoff", - и даже одного г-на Кирсанкина.

Свой каталог электронных адресов существует и у нас - это система Intermap. Если искомый человек живет в пределах домена su, вероятность найти его в этой системе в среднем выше, чем в каком-либо из зарубежных каталогов.

Совершенно особую ценность представляет всеамериканский адресный справочник , который совершенно бесплатно сообщит вам координаты любого из 90 миллионов (!) жителей США и любой из 10 миллионов американских компаний. Разумеется, цифры такого масштаба уже не могут относиться только к Интернету - огромное большинство записей в этой базе данных содержат почтовые адреса и телефоны людей, которые, вероятно, даже не знают, что сведения о них можно найти в компьютерной сети Интернет.

Finger

Один из старейших инструментов Интернета под названием Finger позволяет получить ценную дополнительную информацию о пользователе сети - правда, только в том случае, если почтовый ящик и домашний каталог этого пользователя хранятся на компьютере, который умеет отвечать на Finger-запросы. В системе UNIX это является стандартной возможностью, - чего не скажешь, к сожалению, о Windows.

Как и для Archie, для Finger существует шлюз в WWW.По адресу http://www.mit.edu:8001/finger? расположен бланк с единственным полем ввода, в котором можно вводить либо доменный адрес компьютера, либо электронный адрес человека (кнопки на этом бланке нет, а поиск запускается просто нажатием Enter в поле ввода). К примеру, послав через Finger-шлюз запрос по адресу alv.nada.kth.se, мы узнаем, кто сейчас работает на этом компьютере (напомню, что UNIX-системы чаще всего обслуживают одновременно многих пользователей с разных терминалов).

В этом списке перечислены не все пользователи этой машины, а только те, которые работают на ней в данный момент. О каждом из них, кроме имени и фамилии, сообщается его входное имя (то, что нужно приписать к адресу хоста через символ @, чтобы получить электронный адрес этого человека), с какого момента времени он работает в системе, в какую рабочую группу или организацию он включен и т. п.

Еще больше информации можно получить, щелкнув по имени в этом списке или - если нужный вам человек сейчас не работает в системе, но вы знаете его полный электронный адрес - введя этот адрес в поле ввода над списком. В ответ на это система сообщит вам, есть ли у этого пользователя еще непрочитанная свежая почта, а также выведет содержимое специального файла под названием plan из рабочего каталога этого пользователя.

В этот файл - в некотором смысле, аналог личной WWW-страницы - пользователи обычно заносят свежую информацию о себе (вроде расписания экзаменов или даты возвращения с каникул) или же просто любимые изречения, цитаты или псевдографические изображения.

Метапоиск

Чтобы послать запрос на какую-либо поисковую систему, вы должны загрузить в свой броузер бланк этой системы с полями ввода для ключевых слов, переключателями для установки опций и т. п. Вполне естественно, что HTML-документ с этим бланком располагается на том же сервере (или, по крайней мере, в пределах той же фирмы), на котором хранится и сама база данных с программой поиска. Но ничто не мешает вам сохранить копию этого бланка на своем компьютере - и тем самым ускорить посылку запроса, сэкономив одно обращение к серверу на каждый запрос (собственно, примерно это же и происходит, когда вы вызываете бланк поиска, хранящийся в кэше броузера).

Позаимствованный таким образом бланк поиска вы можете вставлять в другие HTML-документы - например, в вашу собственную WWW-страницу (сами поисковые системы обычно либо не возражают, либо даже поощряют такое распространение своих бланков). И действительно, на некоторых личных страницах вы найдете поле ввода для ключевого слова и кнопку, запускающую поиск на какой-нибудь поисковой системе типа Lycos или Yahoo.

Подход этот можно развить и дальше. Представьте себе HTML-документ, состоящий из бланков запроса множества поисковых систем. Загрузив в броузер такой документ, вы сможете быстро и с удобством сделать несколько запросов на разные системы, не тратя время на загрузку бланка каждой из них. Если до минимума упростить интерфейс каждого бланка, убрав лишние кнопки и опции и оставив только поле ввода ключевых слов и кнопку запуска, такой единый пульт управления поисковыми системами становится на удивление удобной штукой.

Известные страницы, предоставляющие такую услугу - search.com (она принадлежит той же фирме c|net, что владеет и сервером shareware.com) и All-In-One , в которой собраны выходы на более чем 160 самых разных поисковых систем, сгруппированных в несколько тематических разделов .

Щелчок по заглавию раздела раскроет его, и вы увидите столбец полей ввода одинаковой ширины с приставленными к ним кнопками. Краткое, в одну строчку, описание каждого источника содержит ссылку на его заглавную страницу - так что, если возникнет такое желание, вы сможете посетить саму эту систему, изучить ее возможности и точнее выставить опции поиска.

Если же перспектива разбираться в полутора сотнях наборов опций и правил составления запросов вас совсем не привлекает, All-In-One наверняка придется вам по душе. Эта система - один из лучших способов опросить за минимальное время максимальное количество источников информации.

Подход этот, однако, можно развить и еще дальше. Вполне возможно написать программу, которая знает форматы запросов к нескольким поисковым системам, а для общения с пользователем имеет всего один бланк с одним-единственным полем ввода ключевых слов. Приняв заказ, программа сама пропишет его в бланках разных поисковых систем, разошлет эти бланки и будет ждать ответа. Когда все поисковые системы пришлют результаты поиска, эта программа сведет их в один документ и отправит пользователю.

На этом принципе также построено несколько систем - например, MetaCrawler и SavvySearch. Обе эти службы работают только с индексами WWW-страниц, такими как Alta Vista, Lycos или Excite, и с тематическими каталогами типа Yahoo. MetaCrawler посылает запрос на девять разных систем, а SavvySearch умеет работать с шестнадцатью (но не одновременно).

Недавно появился новый метапоисковый инструмент по адресу http://metasearch.com, интересный тем, что он впервые интегрирует доступ не только к автоматическим индексам WWW, но и к системам поиска файлов, а также позволяет посылать одновременный запрос на несколько десятков общедоступных словарей и энциклопедий.

Основной недостаток у подобных систем тот же, что и у сборников бланков типа All-In-One: поскольку правила составления запросов и наборы опций поиска отличаются у разных систем, метапоисковой программе приходится ограничивать предоставляемые пользователю возможности только тем, что поддерживается всеми известными ей системами поиска.

На случай разной интерпретации одних и тех же по смыслу опций MetaCrawler, к примеру, предусматривает даже возможность проверки результатов: прежде чем дать ссылку пользователю, MetaCrawler самостоятельно посмотрит на документ и проверит, соответствует ли он условиям запроса - так, как их понимает MetaCrawler. Разумеется, этот режим проверки сильно задерживает получение результатов, но зато позволяет защититься как от неработоспособных ссылок, так и от бессмысленных результатов.

Конечно, чтобы быстро найти адрес общеизвестной страницы, прибегать к услугам MetaCrawler совсем не обязательно. Но поскольку базы данных разных поисковых систем в заметной своей части не пересекаются, такие метапоисковые инструменты незаменимы для поиска какой-нибудь очень редкой информации - то есть для такого поиска, при котором вам не придется защищаться от обвала ссылок, а, наоборот, вы будете рады найти хотя бы одно упоминание искомого имени или термина.

Ошибки и затруднения

Хотя каталоги и индексы, о которых мы говорили в этой части книги, пополняются и пересматриваются постоянно, все же случается, то очередная из полученных вами ссылок никуда не ведет - ваш броузер либо не может соединиться с соответствующим узлом, либо вообще не находит его в DNS. В обоих этих случаях не все потеряно - весьма вероятно, что сервер жив и здоров, но до него трудно достучаться из-за высокой нагрузки на одном из участков сети. Прежде чем терять надежду, сделайте несколько попыток перехода по ссылке.

Иногда же случается, что с сервером связаться удается, но вместо искомого документа на экране появляется примерно следующее:

404 Not Found

Это значит, что сервер не смог обнаружить в своей файловой системе документа с заказанным URL. При этом есть некоторая вероятность, что этот документ был просто переименован или перенесен в другой каталог на том же сервере, и его можно попытаться найти.

Перейдите в строку Location, в которой сейчас стоит URL-адрес, вызвавший ошибку, сотрите из него имя файла (все, что стоит справа от последнего символа /) и нажмите Enter. Теперь броузер попытается найти "файл по умолчанию" в том каталоге, в котором должен был находиться нужный файл.

Если и на сей раз вас постигнет такая же неудача, то это будет означать, что не существует самого каталога с таким именем. Поэтому следующим вашим действием должно быть удаление из URL крайнего правого имени каталога. Таким образом, укорачивая шаг за шагом URL, на одной из попыток вы, вероятно, наткнетесь на какой-нибудь файл, который уже позволит вам сориентироваться в содержимом сервера и попытаться найти нужный документ с помощью гипертекстовых ссылок.

К счастью, большинство владельцев серверов более ответственно относятся к неизбежным реорганизациям и переездам WWW-страниц. Если страница долгое время имела адрес А (и ее владелец знает, что во многих местах WWW имеются ссылки на этот адрес), а теперь переехала по адресу Б), то администратор сервера, на котором расположен адрес А), имеет три возможных выхода из положения.

  1. Во-первых, в ответ на запрос выдать документ с адресом А сервер может послать специальную команду, указывающую броузеру, что за этим документом следует обращаться по адресу Б). Для вас этот обмен информацией остается незаметным - просто получение документа займет большее время (так как броузеру придется связаться с двумя серверами вместо одного), а скачав наконец документ, вы можете обратить внимание на то, что адрес его отличается от того адреса, что стоял в ссылке.
    Этот метод имеет серьезный недостаток: поскольку пользователь чаще всего не замечает изменение адреса, он и не сможет отразить это изменение, к примеру, в своем списке закладок, а если он попал сюда по ссылке из другого документа - не сможет сообщить владельцу этого документа, что его ссылка устарела. Весьма вероятно, что владелец сервера А не захочет всю оставшуюся жизнь обрабатывать запросы на документ, который у него больше не хранится, - и рано или поздно пользователи, обращающиеся по старому адресу, уже не смогут получить к нему доступ.  
  2. Поэтому в такой ситуации более популярен другой способ действий. На место выбывшего документа (т. е. по адресу А) владелец сервера кладет небольшое уведомление, содержащее надпись "Our server has moved!" и единственную гипертекстовую ссылку на новое местоположение документа. В результате пользователь может, во-первых, довольно быстро получить сам документ, а во-вторых - обновить его адрес в своих записях или сообщить об изменении адреса владельцу того документа, в котором была ссылка со старым адресом.  
  3. Наконец, в последнее время появился появился еще один, компромиссный выход из положения. Пользователи броузера Netscape могут теперь даже не щелкать по гипертекстовой ссылке; если сервер вместе с показанным выше уведомлением посылает броузеру специальную невидимую для пользователя команду, броузер сам обратится по новому адресу спустя некоторое время (например, пару десятков секунд) после вывода на экран уведомления.  

В заключение напомню, что в крайнем случае - когда ошибки или неверные ссылки не дают вам жить - вы всегда можете снестись по почте с администратором того или иного узла (его электронный адрес, как правило, помещается на заглавной странице сервера). Однако прежде вы должны убедиться, что источник неприятностей не заключается, к примеру, в проблемах вашей собственной (или вашего провайдера) связи с Интернетом.