Содержание

Поисковые системы — второй «кит» интернет-бизнеса

Итак, в предыдущей главе мы с Вами рассмотрели регистрацию в платежных интернет-системах Рунета и работу с ними. Если Вы все внимательно прочитали, поняли и закрепили теорию практикой, можно сказать, что Вы осуществили закладку первого важного кирпичика в фундамент здания Вашей будущей интернет-империи, которая станет приносить Вам со временем десятки и даже сотни тысяч долларов в год.

В этой главе мы переходим к закладке в фундамент второго по важности кирпича, а именно — сейчас Вам предстоит разобраться с поисковыми системами и освоить на практике искусство поиска в Сети необходимой Вам информации.

Навык просто жизненно необходимый для любого обитателя Сети, однако, как это ни парадоксально, более половины «сетян» грамотно искать информацию в Интернете вообще не умеют!

И если для рядового юзера это простительно, Вам, будущему интернет-предпринимателю, данный пробел в знаниях может стоить весьма существенных убытков, равно как и массу потраченного впустую времени (которое в нашем деле — ДЕНЬГИ, в прямом смысле этого слова).

Ежедневно нам приходится отвечать на сотни писем, написанных нашими клиентами и учениками. И каждый день несколько десятков писем из этого общего потока сводятся к банальным просьбам помочь найти в Интернете ту или иную программу, книгу, статью, информацию общего характера…

Все что нужно сделать, так это просто открыть Яндекс и за 2-3 минуты отыскать нужную человеку информацию в виде соответствующих программ, книг, статей…

Иногда доходит до смешного — достаточно просто скопировать заданный человеком вопрос, слово в слово(!), и вставить его в поисковую строку Яндекса, чтобы получить на выходе ответ, который мы и перенаправляем вопрошавшему!!!

Обратно, как правило, приходит письмо с кучей благодарностей, восторженных отзывов и нескрываемого восхищения тем, что мы «всегда все знаем и оперативно даем ответ на ЛЮБОЙ самый сложный вопрос»…

Не спорю, получать благодарности в свой адрес всегда приятно. Однако чувство морального удовлетворения сводится на «нет» простым пониманием того, что все эти люди благодарят меня за то, что сами смогли бы найти в Интернете без каких-либо проблем, затратив на это 3-5 минут своего времени!

А тот факт, что вместо реальной помощи я невольно оказываю всем этим людям по сути дела «медвежью услугу» и вовсе отравляет существование. Ведь получив легкий готовый ответ от меня, задавший его человек так и не научится пользоваться поисковыми системами самостоятельно. А я не всегда буду рядом. И в следующий раз, возможно в более важной или даже критической ситуации, помочь человеку отыскать то, что ему нужно — будет просто некому!!!

Все это и заставило меня выделить обучение грамотному использованию поисковых систем в отдельную ФУНДАМЕНТАЛЬНУЮ главу. И обучиться этому нужно еще до того, как Вы начнете создавать свой первый серьезный интернет-бизнес. Кто владеет информацией, тот владеет миром! А тот, кто умеет в совершенстве пользоваться поисковыми машинами, всегда будет владеть оперативной и актуальной информацией! Улавливаете, к чему я клоню?..

Поверьте мне, за редкими (очень редкими!!!) исключениями сегодня в Интернете можно найти практически ВСЁ!!! Я уж не говорю об ответах на типовые вопросы (вроде того: «Что такое тИЦ?», «Что такое браузер?», «Где можно скачать виртуальную машину java?», «Кто такие киберсанты?» и т.д. и т.п.), не говорю о поиске учебников по HTML, Adobe Photoshop или Macromedia Flash, молчу о поиске всевозможных компьютерных программ и серийных номеров для их регистрации…

Все перечисленное выше можно найти в Сети за пять минут, даже не обладая изощренной фантазией в составлении поисковых запросов. Ну а грамотная «ищейка», в некоторых ситуациях, в состоянии отыскать в открытом доступе сети Интернет даже в высшей степени эксклюзивные материалы и конфиденциальную информацию (такую, например, как адрес конкретного человека или номер его телефона)!..

Одна моя клиентка, оформляя заказ на диск «Киберсант-Активатор», забыла указать в своем адресе, для отправки ей бандероли, номер квартиры и дома. Не долго думая, я нашел через Яндекс виртуальную телефонную книгу частных абонентов ее города, ввел в этой книге ее фамилию, имя и отчество, название улицы и… Правильно! Получил на выходе номера пропущенных в заказе квартиры и дома.

Каково же было ее удивление и даже ужас, когда я попросил ее уточнить — верно ли мне удалось определить пропущенные в ее заказе данные? «Да, верно! Вы что, работаете на ФСБ?!.» — ответила перепуганная заказчица. — «Мне уже как-то страшновато иметь с Вами дело». Аналогичные ситуации возникали, когда я пытался восстановить пропущенные в заказе Ф.И.О. или иные реквизиты заказчика.

Сейчас, чтобы не пугать понапрасну клиентов, кроме пропущенного почтового индекса, я не восстанавливаю самостоятельно никакие другие их реквизиты. Просто пишу письмо, с просьбой указать то, что они пропустили. У страха глаза велики и некоторым людям бывает очень сложно объяснить, что все это — следствие элементарных знаний того, как нужно пользоваться поисковыми системами. Знания, доступные любому интернет-пользователю, а вовсе не хакерство или черная магия.

*    *    *

Для начала — несколько слов о сути работы поисковых систем и общие, так сказать, принципы. В отличие от каталогов (специальных списков сайтов, разбитых по категориям и снабженных кратким описанием), практически все основные поисковые системы работают по принципу индексации информации, содержащейся на тех или иных интернет-страничках.

Что это значит? Это значит, что если каталогизацию производят живые люди (увы, ограниченные в своих возможностях, а потому объем ссылок в каталогах составляет ничтожно малый процент от общего объема сайтов Сети), индексацию в поисковиках производит поисковый робот. Поисковый робот без устали, двадцать четыре часа в сутки бороздит Сеть в поисках появления новых ссылок на документы и обновления информации о ссылках старых, уже проиндексированных ранее.

Поисковая машина, это огромный программно-аппаратный комплекс, в котором различными этапами обработки индексируемой информации занимаются различные службы. Одни поисковые сервера заняты скачиванием интернет-страниц, другие эти страницы индексируют, третьи группируют индексы в единую базу, осуществляют нормализацию (приведение слов к единой форме)…

При подаче пользователем поискового запроса системе, из ее базы выбираются проиндексированные документы, содержащие слова, которые были введены пользователем в строке запроса. Далее эти документы ранжируются по определенному, довольно сложному алгоритму, чтобы первыми в выданном по запросу пользователя списке, оказались ссылки на те странички, которые содержат наиболее точный ответ на запрос пользователя. Это называется релевантностью.

Если говорить просто, то релевантность, это соотношение между желаемой и действительно получаемой информацией. Это то, насколько реально полученный документ соответствует тому, что следовало бы получить из поисковой системы. Несмотря на то, что все поисковые системы построены на общих принципах (чем чаще искомые слова встречаются в документе, тем выше его вес, как правило), алгоритмы у них, все же, разные.

Каждая поисковая машина использует свой собственный алгоритм вычисления релевантности, не похожий на алгоритмы других поисковиков (например, для большинства поисковых систем высокорелевантным текстом считается тот, где вхождение запроса в текст равно приблизительно 4-7%. Если больше, то система может принять текст за поисковый спам и наложить на страницу понижающий фильтр или вообще убрать ее из результатов выдачи по искомому запросу).

Так же, многие поисковики учитывают взаимное расположение слов в документе — если в найденном тексте слова расположены в том же порядке, что и в поисковом запросе, документ будет проранжирован выше. Может учитываться расстояние между словами — если искомые слова содержатся в одном предложении, документ будет иметь больший вес, чем, если бы, искомые слова содержались в пределах абзаца или даже страницы.

Еще вес искомого документа может увеличиваться поисковой машиной, если на данный документ имеется большее количество ссылок с других сайтов, чем на аналогичный документ, но с меньшим количеством ссылок. Значимость могут добавить ссылки с наиболее весомых страниц (PageRank).

*    *    *

    Для точного поиска Вам потребуется знание синтаксиса языка запросов. Это специальные символы, которые пишутся в поисковой строке вместе с ключевыми словами и уточняют критерии Вашего поиска. Синтаксис языка запросов в разных поисковых системах может отличаться (обычно в справочных данных на поисковом сервере приводится подробная информация о синтаксисе запросов данной конкретной системы), однако основные поисковики, такие как Yandex, Google и Rambler, имеют некоторое сходство в использовании ряда специальных символов.

Поисковая фраза, “заключенная в кавычки”, будет найдена в точном соответствии поисковому запросу. То есть, слова в документе будут находиться в той же форме и расположены точно в таком же порядке, что и в закавыченной фразе поискового запроса (точная цитата).

Символ «+» (плюс) перед словом поискового запроса задает параметр, согласно которому данное слово ОБЯЗАТЕЛЬНО должно присутствовать в искомом документе.

Символ «-» (минус) или «~» (тильда) перед словом поискового запроса задает противоположный параметр, согласно которому данное слово НЕ ДОЛЖНО присутствовать в найденных документах. В пределах предложения — «~» или в пределах всего документа — «~~» (В Rambler’е вместо «-» используется восклицательный знак «!»…)

В Google «~» (тильда) обозначает поиск синонимов. То есть, если в Google перед искомым словом поставить тильду «~», будут найдены документы, содержащие не только само слово, но и его синонимы. К сожалению, словарь синонимов представлен только на английском языке.

Так же очень широко в поисковых запросах используется логическая связка «или». В поисковых машинах Yandex и Rambler она имеет вид «|», а в Google вид «OR».

Несомненное достоинство Yandex и Rambler заключается также в том, что в этих поисковиках можно строить сложные поисковые запросы с использованием скобок и оператора логического сложения «&» (в Yandex оператор «&» означает, что искомые слова должны находиться в одном предложении, в Rambler — что они присутствуют в одном документе. Для того, чтобы и Yandex искал по всему документу, используйте «&&»).

Так, если Вам нужно найти картинку доллара или евро, Ваш поисковый запрос может выглядеть следующим образом: (фото | изображение | картинка | рисунок) & (доллар | USD | евро | EUR ) По такому поисковому запросу вам будут выданы ссылки на изображения евро и доллара, а если Вы перейдете на вкладку «картинки» поисковика, то и сами эскизы изображений искомых картинок.

Весьма немаловажно, что Yandex чувствителен к регистру букв. Если в поисковом запросе присутствует слово, написанное с заглавной буквы, то Yandex выдаст Вам документы, в котором искомые слова написаны именно с заглавной буквы (если это слово не первое в предложении). Если же в поисковом запросе слово написано строчными буквами, Yandex выдаст документы, где данное слово встречается как написанное со строчной буквы, так и с прописной.

В Yandex, независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы. Например, если задан запрос «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. На запрос «окно» будет выдана информация, содержащая и слово «окон», а на запрос «отзывали» — документы, содержащие так же и слово «отозвали»

*    *    *

Поисковых машин в Сети существует достаточно много. Приведем лишь десять самых известных и наиболее распространенных из них:

     Yandex - http://www.yandex.ru,
     Google - http://www.google.com,
     Rambler - http://www.rambler.ru,
     Aport - http://aport.ru,
     Yahoo - http://www.yahoo.com,
     Mail.ru - http://mail.ru,
     AltaVista - http://www.altavista.com,
     Webalta - http://www.webalta.ru,
     MSN - http://www.msn.com,
     All The Web - http://www.alltheweb.com.


    Какому же поисковику отдать предпочтение? Какой по праву может считаться лучшим? Боюсь, что однозначного ответа на эти вопросы просто не существует. Сколько людей, столько и мнений, столько предпочтений и пристрастий. Попробуйте поработать с разными поисковыми машинами и выберите для себя ту, что Вам лично понравится больше остальных.


Nota Bene: Как выбрать поисковую машину


   
1. Охват и глубина

  
  Под охватом имеется в виду объем базы поисковой машины: который измеряется тремя показателями - общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается — существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.
    Некоторые машины пишут на своем сайте статистику робота. Но можно проверить и самому — надо задать несколько поисковых запросов, состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе — различного трактования пробела), и при этом смотреть на статистику результатов, выдаваемую машиной — обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных "весов" — редкие, "средние" и "тяжелые" (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.
    Глубину хождения робота проверить сложнее — для этого надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на которые можно попасть только, например, за 6 переходов по ссылкам.

    2. Скорость обхода и актуальность ссылок

    Скорость обхода Сети показывает, насколько быстро происходит индексация свеже-добавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой машины (ее робота) является не только "захват" новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.
    Объективную информацию можно получить, проанализировав логи серверов — робот поисковой машины представляется обычно именем своей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только своего сайта, поэтому остается экспериментальный способ.
    Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковики и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Для определения актуальности ссылок — проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение "Not Found" свидетельствует о том, что документ более не существует.

    3. Качество поиска (субъективный показатель)

    Каждая поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.
    Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при этом те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса ("расширенный поиск" в Апорте и Яндексе, "детальный запрос" в Рамблере — варианты перевода на русский язык "advanced search").

    4. Скорость поиска

    Если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.
    Путем эксперимента — надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик — около трех-четырех часов дня).

    5. Поисковые возможности (работа с языком документа, язык запросов)

    Еще один пункт сравнения — что именно и как поисковая машина вносит в индекс. Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.).
    Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания или слова на заданном расстоянии — это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа — заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов — естественно-языковый запрос, который не требует знания операторов.
    Обычно эта информация публикуется на сервере поисковой машины (в Help'е). Тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

    6. Дополнительные удобства

    Это дополнительные возможности, которые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.
    Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с этими возможностями.

    На мой взгляд, новичку удобнее всего начинать освоение искусства сетевого поиска с Yandex, так как эта система не только обладает одной из самых больших баз в русскоязычном Интернете, но и выгодно отличается от ближайших конкурентов своим развитым языком запросов и широким диапазоном русскоязычной морфологии.

Так же, Yandex обеспечивает высокую точность поиска при естественно-языковом запросе, когда Вы просто вводите в поисковую строку вопрос, ответ на который хотите получить.


Более подробно прочитать о Yandex и специфике поиска в этой поисковой системе Вы можете — ЗДЕСЬ.

Видео-урок с примерами использования типовых поисковых запросов, а так же все основные моменты процесса поиска для Вас подготовлено — ЗДЕСЬ.

Хотя, конечно же, разумнее всего использовать сразу несколько поисковиков одновременно. Это существенно расширит Ваши возможности. Не нашли то, что искали, при помощи одной машины, переходите к следующей.

    Осуществляя поиск, избегайте общих слов. Чем уникальнее ключевое слово, по которому осуществляется поиск, тем больше шансов найти именно то, что Вам нужно. Ищите больше, чем по одному слову. Сократить объем ссылок можно, определив несколько ключевых слов. Используйте синонимы.

Используйте различные инструменты для поиска информации разного профиля. Пользуйтесь расширенным запросом. Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку «Найти похожие документы». Пользуйтесь языком запросов. С помощью языка запросов можно сделать запрос более точным. Во многих поисковых системах есть форма расширенного запроса, в которой можно использовать основные механизмы сужения поиска.


В данной главе мы дали Вам лишь основы искусства поиска в Сети нужной Вам информации. На самом деле тема эта настолько обширная, что по ней можно написать целую книгу.

А потому, практическим заданием к данной главе будет для Вас следующее — используя почерпнутые из данной главы знания, найдите при помощи Yandex (ну и, возможно, при помощи некоторых других поисковиков) как можно больше дополнительных материалов, посвященных поиску в Сети нужной информации. Найдите, сохраните, систематизируйте и внимательно изучите эти материалы!

Поверьте, это окажется для Вас одним из самых важных и ценных интернет-навыков, которые Вы когда-либо приобретали и приобретете в будущем, ибо умение отыскивать в Сети нужную информацию — основа основ, как электронной коммерции, так и любой другой интернет-деятельности вообще!

Думаю, Вы уже и сами осознали всю важность владения навыками поиска нужной Вам информации в Сети, а так же поняли преимущества, которые данные навыки обеспечивают Вам по сравнению с теми, кто пользоваться поиском в Интернете не умеет (или же делает это на уровне дилетанта).

Став «грамотной ищейкой», Вы не только решите Ваши собственные проблемы, связанные с поиском необходимой Вам информации, книг и софта, Вы обретете независимость, будете экономить массу сил, времени и денег, а так же, что греха таить, обретете и некоторое ощущение власти, могущества. Ведь информация, в наш информационный век, это ВСЁ. И кто владеет информацией, тот владеет миром!..

 

Следующая глава →