Как искать в сети?
09.01.2009
Полезно
644
0.0
biznes
Как искать в сети
Полезные советы
Люди, склонные к излишнему употреблению красивых метафор, любят сравнивать Сеть с помойкой. Дескать, свалено там все в кучу и сам черт ногу сломит. Дескать, все тут есть, но чтобы это «все» найти, нужно перерыть горы мусора. Метафора красива. Но неверна. У меня на столе царит, казалось бы, бессмысленное нагромождение ненужных вещей. Однако для меня все на столе подчинено твердой логике – самые необходимые вещи, как, например, любимая кружка для чая системы «тазик» водоизмещением чуть больше пол-литра, находятся на расстоянии вытянутой руки, менее необходимые – дальше. Но назвать все это беспорядком или помойкой? Увольте! Так и в Сети есть своя логика. Зная и используя несколько простых правил, вы можете сделать так, что любая информация в Сети будет находиться на расстоянии вытянутой руки, и чувство, что интернет – это помойка, бесследно исчезнет. Речь пойдет о поисковых системах и правилах поиска в Сети. Сначала – небольшое лирическое отступление, в котором я расскажу, как устроена поисковая система. Так уж случилось, что пользователь видит лишь интерфейс поисковой системы, ее, с позволения сказать, лицо, а внутренности – самое главное – остаются «за кадром». Итак, первая часть поисковой системы – это «паук», crawler, поисковый робот. Он занимается тем, что путешествует по Сети, просматривает все страницы, посещает все ссылки, не останавливаясь ни на минуту. Путешествует не просто так – все, каждую страницу, что он просмотрел, «паук» заносит в индекс поисковой машины в виде встречающихся на странице значащих слов. Таким образом, индекс поисковой машины – это огромнейшая база данных, с помощью которой можно быстро узнать, на какой именно странице в Сети можно встретить данное слово. В качестве информации к размышлению – объем индекса поисковой системы Yandex.ru составляет 81,92 Гигабайт. (http://www.yandex.ru/chisla.html). Да, 81, 92 Гигабайт. Третья часть, после индекса – это собственно поисковая машина. Занимается он тем, что ищет нужное слово – или слова – в индексе. Поисковая система не ищет «по всему интернету» – это заблуждение. Представьте, что было бы, если б это действительно было так: К примеру, объем проиндексированной информации на Yandex.ru составляет 258,67 Гб. А это значит, что не будь индекса, после того, как вы ввели запрос на Яндексе, ему пришлось бы загружать и просматривать 258 гигабайт информации. Это нонсенс. Представьте, сколько дней Яндекс отвечал бы на Ваш запрос. Из того, что поисковая машина не ищет «По всему интернету», а только в своем индексе, следует, как минимум, два вывода. Первый – если поисковая машина чего-то не нашла, что вовсе не значит, что этого нет в Сети. Второй – поисковые системы различаются не только внешним видом, но и, например, индексом и способом его составление. Поэтому если вы не нашли что-то в одной поисковой системе, есть смысл поискать в другой. Поисковый робот, составляющий индекс, обходит сайты «кругами», посещая их регулярно – таким образом, индекс адекватно отражает изменения, происшедшие на сайте. Новые сайты «паук» находит либо сам, придя по ссылке с другого сайта, либо узнает о них от автора сайта – в поисковых системах имеется возможность «натравить» «паука» на свой сайт. Ну и последняя часть поисковой системы – это ее WWW-сервер. Это ее лицо, это тот интерфейс, посредством которого пользователь задает вопросы и получает на них ответы. WWW-сервер – это только одна из частей поисковой машины, причем не самая большая. Так что не все так просто, как кажется. Кстати, посмотреть, как выглядит Яндекс «в железе» можно вот тут: http://www.yandex.ru/hardware.html Для «общения» с поисковыми системами существуют специальные правила и специальный язык. Конечно, было бы здорово, если можно было бы просто так взять и спросить: «Где можно найти полный текст «Словаря Дьявола» Амброза Бирса?» – и получить полный и исчерпывающий ответ. В принципе, работы в этом направлении ведутся – взять, хотя бы, буржуйский сайт «Ask Jeeves» (www.ask.com) – задав вопрос в «литературной» форме – только по-английски, разумеется – можно получить довольно внятный ответ. В остальных же поисковых системах придется обучиться достаточно простому языку запросов. Для начала нужно вычленить ключевые слова: решить, какие два-три слова наиболее полно характеризуют объект ваших поисков, и вводить именно их. «Это же очевидно», – скажете вы. И будете правы. Однако вы будете удивлены, узнав, что многие люди вводят для поиска. На «Яндексе» есть замечательная вещь, называется «прямой эфир», страница, на которой вы можете увидеть 20 последних запросов. http://www.yandex.ru/last20.html На эту страницу можно смотреть часами, испытывая при этом множество противоречивых чувств. Можно даже написать не один авангардный роман, просто записывая подряд все запросы. Некоторые из запросов просто поражают и западают в душу. Как правило, большой процент запросов отличается полной неясностью, и неконкретностью: «музыка», «видео», «печи», «mp3». Вроде как «я просил, а ты будь добр, догадайся, что я имел в виду». Так, на запрос «музыка» Яндекс выдает 143791 ссылок. Надо уточнять, что именно вы ищите. Запрос «музыка кантри» дает уже 4443 ссылок, а «музыка кантри +новосибирск» – уже всего 49. Бывают чересчур конкретные запросы, бывают запросы и «совсем не по правилам». Кстати, о правилах... Если вы набрали слово с маленькой буквы, то будут найдены слова с маленькой и большой буквы; если вы набрали слово с большой – то будут найдены слова только с большой буквы. Например, на запрос «лебедь» поисковая система выдаст упоминания о птицах и о генерале. Поэтому правило: не набирайте без особой нужны слово с большой буквы! Иначе вам просто не будут выданы очень много совпадений. Знаки «-» и «+». Используя эти знаки, вы можете принудительно исключать слово из поиска, либо делать слово обязательным. Например, вам нужен рецепт пирожков с капустой. Тогда запрос должен быть примерно таким: «рецепт пирожков +капуста». А если вы не можете терпеть пирожки с картошкой, то должны ввести примерно следующее: «рецепт пирожков -картошка». Тогда будут найдены страницы с разнообразными рецептами пирожков без картошки. Если вы ввели просто несколько слов, разделенных пробелами, то для поисковика это будет означать, что надо найти страницы, где эти слова входят в одной предложение. Например: «бесплатные программы». Для поиска документа, содержащего любое из перечисленных слов, надо использовать знак «|». Очень удобно, если к слову имеется много синонимов. Например: «бесплатные | халявные | freeware +программы» Для поиска устойчивых словосочетаний нужно ввести фразу для поиска в кавычках. (Во всех остальных случаях кавычки не нужны). Очень помогает, когда вам нужно, к примеру, найти слова стихов, а вы помните всего одну строчку. Введите эту строку с кавычками в поисковую систему. Например, помните вы прекрасную фрау «мысль изреченная есть ложь», а кто сказал – не помните. Идете на «Яндекс», вводите «мысль изреченная есть ложь» (в кавычках) и сразу же узнаете, что сказал это Тютчев. В принципе, существуют три-четыре поисковые системы, которые должны удовлетворить практически все нужны. Это уже упоминавшийся «Яндекс» (www.yandex.ru), «Рамблер» (www.rambler.ru) и «Апорт» (www.aport.ru) – все это русскоязычные поисковики. Из них мне волне хватает «Яндекса». Из зарубежных – всем известная AltaVista (www.altavista.com) и Yahoo (www.yahoo.com).
Счастливого Вам поиска! 
 webinform.ru
 
Читайте также:
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]