Подписаться  на наше издание быстро и дешевле чем где-либо Вы можете прямо сейчас! Подписаться! 

 


“Ищущий да обрящет” — многие из нас вспоминают эту фразу, вводя строку запроса в поисковике. И задумываются: а правильно ли я сформулировал запрос? найдет ли сервер то, что нужно? На самом деле существует способ помочь поисковой машине в ее нелегкой работе.


Теория вопроса


Безусловно, у каждого, кому хотя бы пару раз случалось работать в Сети, есть любимый поисковый сервер. По каким признакам обычно производится этот выбор? Хм, критерии порою могут быть весьма оригинальными, вроде “друг/подруга посоветовали”, “а у меня на нем почтовый ящик”, “а что, существуют еще и другие?” и т.п. Исключением является Google — “потому что он лучше других ищет”. Да, действительно, в рейтинге поисковиков этот занимает первую позицию. Но заходить при каждом поиске на Гугл, когда домашней страничкой назначен Rambler или Yandex, как-то непрактично (ну, это такая отмазка — на самом деле нам просто лень).


После очередных нескольких дней, потраченных на поиск крайне необходимой информации, в голове начинает вырисовываться вопрос, в оформленном виде звучащий следующим образом: как заставить “свой” сервер выполнять задачи поиска эффективнее?


Разработчики технологий поиска учли этот нюанс и включили возможности “продвинутого” поиска (advanced search) в свои творения. Система поиска должна была учитывать следующие требования:

  • быть достаточно гибкой и легко приспосабливаться под нужды пользователей;
  • сочетать вышеуказанное требование с простотой и, опционально, интерактивностью использования.

Средство реализации задачи было позаимствовано из языков программирования, предназначенных для обработки строковой информации. Речь идет о регулярных выражениях. Именно они позволяют выполнять выборку из текста строк любой сложности, соответствующих заданному шаблону.


Отсюда пара импровизированных определений: регулярным называется выражение, состоящее из символов и метасимволов языка запроса, определяющих в совокупности строку-шаблон, по совпадении с которой и будут отбираться строки из входного текста. Регулярное выражение указывает серверу, какая именно информация нам нужна. Язык запроса — множество символов, метасимволов и правил их записи, на основе которых строятся регулярные выражения.


Оk, сейчас все станет ясно само собой — даром что всякие там “перловцы” поняли суть, едва дочитав название статьи.


Что имеем на практике


По способу создания расширенных запросов я условно разделил поисковые серверы на интерактивные, неинтерактивные и смешанные. Первые обеспечивают построение запроса, используя элементы пользовательского интерфейса; вторые указывают только подробное описание языка запроса, а задача построения регулярного выражения возлагается целиком на пользователя; смешанные содержат обе возможности.


Интерактивный метод


Два популярнейших сервера, использующих сей метод составления запроса,— это Yahoo! и Rambler. На Yahoo! идем по ссылке Advanced и попадаем в нужное место. На Rambler’е то же самое, только по-русски (Расширенный поиск).


Производить сравнение в форме таблицы оказалось немного не с руки: существует несколько коренных различий между элементами расширенного запроса в этих поисковиках, поэтому укажем их характерные черты отдельно.


Yahoo!


Сервер нацелен больше на западную аудиторию, поэтому все предельно просто и ясно (возрадуйтесь, чайники!).


На страничке Advanced Search в первой же рамке под названием Show results with… (Показывать результат с…) видим описание элементарных булевых операций, наиболее часто использующихся для составления регулярных выражений. Вся любовь умещается в четыре строки:

  • all of these words (все из этих слов): соответствует булевому “И” — для пользователя это означает, что в результат поиска войдут строки, обязательно содержащие все слова из запроса;
  • the exact phrase (точная фраза): будут отобраны все строки, в точности соответствующие заданной;
  • any of these words (любое из этих слов): булево “ИЛИ” — отбираются строки, содержащие любое или несколько заданных слов;
  • none of this words (ни одно из этих слов): булево “НЕ” — в результат включаются строки, не содержащие заданных слов вообще.

Для каждой из этих категорий можно указать размещение: в любой части страницы, в заголовке, в гипертекстовых ссылках (URL).


Следующая категория — Updated — позволяет указать, сколько времени прошло с даты последнего обновления искомого ресурса. Принимает значения anytime (эквивалент русского “пофиг” в отношении времени), within 3 months, within 6 months, within a year (3 месяца, 6 месяцев и год).


Site/Domain позволяет указывать префиксы сайта или домена (например, искать только на сайтах .org или только в пределах пространства имен yahoo.com).


Следующая фича называется Creative Commons Search. Переводится примерно как Поиск творческой общественности и позволяет разделять найденный материал на тот, который можно использовать для коммерческих целей, и тот, который можно модифицировать, настраивать и т.п. Работает для страниц с некоей Creative Commons license (в общем, флаг им в руки, ветер в спину и все такое прочее).


Категория File Format используется для поиска файлов с заданным расширением. Позволяет отбирать .htm(l), .txt, .pdf, .xls, .xml, .ppt, .doc файлы.


А вот эту штуку я отношу к разряду очень полезных и особо выделяющих Yahoo!. Называется она SafeSearch и предназначена для фильтрации “взрослого” контента (проще говоря, порнухи и прочей лажи). Правда, Yahoo! честно указывает, что гарантия не стопроцентная.


Следующие два поля позволяют указать страну и язык; а еще одно — поиск на определенных сайтах из списка, но лишь в том случае, если вы подписаны на них (вот еще непонятка с энтими американцами).


Последний пункт — количество результатов поиска на одну страницу (10, 15, 20, 30, 40 и 100).


Rambler


Опишем те особенности расширенного поиска этого сервера, которые отличаются от таковых в Yahoo!. Нужно заметить, что система поиска “Рамблер” выглядит менее гибкой — главным образом постольку, поскольку логические операции применяются ко всему запросу целиком. С другой стороны, введена пара пунктов, которыми западные поисковики не считают нужным засорять мозги несчастных пользователей.


К примеру, Расстояние между словами запроса. Поясняю: расстояние измеряется в лексических единицах (в словах в данном случае) и определяет, как далеко друг от друга они могут находиться в тексте — то бишь есть ли между словами запроса другие слова. И если есть, то сколько их может быть максимум. Расстояние в “Рамблере” можно ограничивать и не ограничивать — жаль только, неясно, до какого значения.


Можно также задать диапазон дат обновления ресурса и указать способ сортировки сайтов или страниц (сайты по релевантности, страницы по релевантности, страницы по дате — по восходящей и нисходящей).


Прочие возможности: размещение, булевы операции, язык и формат документа, поиск только на указанных сайтах.

 

В итоге имеем, что имеем. “Изюминка” Yahoo! — фильтрация “взрослого” контента, “Рамблера” — задание расстояния между словами и способа сортировки. Однако по всем прочим параметрам “Рамблер” явно проигрывает.


Другие методы


Сервером, использующим только этот метод составления запроса, является Meta (ну, много у нас людей с высшим образованием). Google и Yandex относятся, по моей классификации, к смешанным. Однако сложность интерактивных форм определяется развитостью средств языка запроса, поэтому рассмотрим все три сервера именно с этой точки зрения. Сравнение их языков запроса приведено в таблицах.

 

 

 

Google имеет еще и собственные оригинальные модификаторы. Остановимся на них отдельно:

  • related:URL — поиск страниц, похожих на данную (странная фича);
  • info:URL — показывает информацию, которой “Гугл” располагает по данной странице;
  • define:выражение — выводит список страниц, на которых приводится определение терминов, данных в выражении;
  • stocks:выражение. Приведу пример из документации самого “Гугла”: если вы введете stocks: intl yhoo, то в результате получите информацию о компаниях Intel и Yahoo (тоже еще прикол для хакеров-недоучек).

В категории неинтерактивных победителем может оказаться либо “Яндекс”, либо Google — у кого как душа лежит. Лично моя склоняется в сторону “Яндекса” — в конце концов, лучше сделать четко и ясно, пусть и своими руками, чем юзать бур “Гугл” с его туманными закидонами.


Выводы


В статье были рассмотрены два метода оформления запроса. Характерной чертой интерактивного метода является быстрота оформления в сочетании с недостаточной гибкостью запроса. Неинтерактивный метод полностью противоположен: выдумывать нужно самому — зато сложность запроса не ограничена. Что выбирать — решайте сами.

2005.11.30
19.03.2009
В IV квартале 2008 г. украинский рынок серверов по сравнению с аналогичным периодом прошлого года сократился в денежном выражении на 34% – до $30 млн (в ценах для конечных пользователей), а за весь календарный год – более чем на 5%, до 132 млн долл.


12.03.2009
4 марта в Киеве компания Telco провела конференцию "Инновационные телекоммуникации", посвященную новым эффективным телекоммуникационным технологиям для решения задач современного бизнеса.


05.03.2009
25 февраля в Киеве компания IBM, при информационной поддержке "1С" и Canonical, провела конференцию "Как сохранить деньги в условиях кризиса?"


26.02.2009
18-19 февраля в Киеве прошел юбилейный съезд ИТ-директоров Украины. Участниками данного мероприятия стали ИТ-директора, ИТ-менеджеры, поставщики ИТ-решений из Киева, Николаева, Днепропетровска, Чернигова и других городов Украины...


19.02.2009
10 февраля в Киеве состоялась пресс-конференция, посвященная итогам деятельности компании "DiaWest – Комп’ютерний світ" в 2008 году.


12.02.2009
С 5 февраля 2009 г. в Киеве начали работу учебные курсы по использованию услуг "электронного предприятия/ учреждения" на базе сети информационно-маркетинговых центров (ИМЦ).


04.02.2009
29 января 2009 года в редакции еженедельника "Computer World/Украина" состоялось награждение победителей акции "Оформи подписку – получи приз!".


29.01.2009
22 января в Киеве компания "МУК" и представительство компании Cisco в Украине провели семинар для партнеров "Обзор продуктов и решений Cisco Small Business"

 

 
 
Copyright © 1997-2008 ИД "Комиздат".