4.2.2 Потенциал поисковых систем

С проблемами, которые были описаны выше, на практике также приходится сталкиваться при использовании поисковых систем во всемирной сети Интернет (WorldWideWeb):

Найденные, т.е. обнаруженные при последнем поиске результаты, также подвержены эффекту случайности: с одной стороны, содержание информационных предложений в интернете каждый день подвергается изменениям, а с другой – сами поисковые системы подвергаются постоянной оптимизации функций, что в конечном итоге значительно изменяет их. Если кто-то постарается сравнить найденные результаты по конкретном поисковому запросу, отображенные сейчас и через неделю (или месяц), то несовпадение итогов поиска обнаружит себя уже в первом приближении;
Тот материал, который отображается при наборе в поисковике того или иного слова, по данным экспертов составляет лишь 15-25% того от общего количества информации, содержащейся по этой теме в сети. Каждая поисковая машина содержит свою специфическую систему индексирования, по которой она ранжирует тот или иной материал как наиболее или наименее релевантный. Так, результаты, отображаемые разными поисковыми системами по одному и тому же информационному поводу, разнятся в зависимости от эффективности автоматической системы поиска и мощности сохранения результатов поиска;
Кроме того, стоит отметить, что поисковые системы ограничены формализованными математическими алгоритмами и схемами, которые лежат в основе их работы. Это обусловливает то, что, по сути, искусственный интеллект поисковиков не способен дифференцировать наиболее релевантную информацию от наименее. Поэтому обычно в ответ на поисковый запрос отображается информация самого разного рода: надежная и ненадежная, актуальная и устаревшая, повторяющаяся, и иногда даже всплывают ссылки на те источники, которые давно затерялись в виртуальном пространстве;
Потенциальная возможность идентификации результата действия поисковой системы обнаруживает необходимость ранжирования всего массива информации. Это еще одна из слабых сторон поисковых машин. Использование механизмов ранжирования также по-разному протекает у разных поисковых систем, как в содержательном, так и в количественном плане;
Кроме того, не все поисковые машины запрограммированы на так называемую "невидимую сеть" (Invisible/Deep Web). Содержание баз данных, постоянно обновляемых интернет-источников и файлов в формате .pdf, к примеру, не всегда поддаются расшифровке. Например, если забить в строку поиска „Informationsfreiheit“+ „Deutschland“ ("свобода информации" + "Германия"), на экране появятся множество ссылок, но среди них не будет указана ссылка на главу 4.3. интернет-ресурса www.recherchieren.org, которая содержит в себе информацию о современном уровне развития законодательства в этой сфере в каждой из немецких федеральных земель в отдельности.

В первых рядах появившихся на экране ссылок обнаруживается сайт www.informationsfreiheit.de, который, в свою очередь, по состоянию на начало 2007 года выдавал данные только за 15 октября 2004 года (последняя дата редакции): после этого еще в четырех федеральных землях Германии появились законы об информации. К началу 2007 года таковые появились уже в восьми.

Чуть более подробно об ограничениях. При проведении расследований нужно уметь балансировать между возможностями и ограниченностью поисковых машин.

Тип информации, необходимой для инвестигативного расследования, можно грубо разделить на две категории:

Общая информация, которой мы пользуемся в условиях повседневной работы с поисковыми системами. При более интенсивном поиске данный тип информации также обращает на себя внимание. "Внешние" аспекты могут послужить зацепкой и стать основанием для выяснения более подробных обстоятельств при движении "внутрь" (методика поиска Einkreisen – "окружать");
Другой тип информации включает в себя исключительно "отборные" факты, которые можно найти, только поставив перед собой такую цель.

Для поиска информации первой категории могут быть использованы особые функции стандартного поиска в интернете. Для более тонкого поиска данный тип поиска информации не подходит – это все равно что пытаться с помощью этого технического способа поиска и запрограммированным в нем функциям взломать базу данных, в которой в определенном виде зашифрована необходимая нам информация, например данные о преступлениях (база криминальных доказательств – KAN), засекреченные архивами интерпола в головном полицейском компьютере – INPOL.

Для того, чтобы вызволить из всемирной паутины информацию первой категории, существуют несколько путей, которыми можно воспользоваться: 1) поисковые системы, которые осуществляют поиск в интернете и рассчитаны на массового пользователя (например, www.google.de) и предназначены, 2) поисковые системы особого рода, которые нацелены на поиск исключительной информации; 3) простые функции поиска, которые могут быть использованы при анализе полного текста интернет-страницы, однако становятся неэффективными при поиске конкретных слов в файлах, сохраненных в формате PDF; и 4) службы каталога, которые анализируют интернет-страницы и их содержание по определенным редакторским критериям и затем архивируют по определенным правилам, составляют каталог (например, www.web.de). При этом речь идет в большей степени о наиболее распространенных поисковых системах сети интернет.

Классические поисковые системы, такие как Google, тоже в определенной степени тонкая вещь, к примеру, поиск номера телефона в них осуществляется намного быстрее, чем на портале telefonbuch.de, который, в свою очередь, отличается не только меньшим количеством телефонных номеров, по сравнению с Google, но и неудобством в использовании, что в конечном итоге снижает вероятность успешного поиска необходимой информации. Тот, кто хочет узнать, какой оператор международной связи предлагает наиболее выгодные условия при осуществлении звонков в Испанию в данный конкретный момент, также находятся на верном пути, используя страницу Google, поскольку поисковые системы такого рода при поиске находят точное название фирмы, их адрес, а также другую, более конкретную информацию (например, название столицы американского штата Огайо). В целом, все это полезные и быстро реализуемые на практике возможности популярных и широко распространенных поисковых систем.

Журналистский поиск в интернете может быть осуществлен более тонкими способами. В зависимости от предмета поиска, от вероятности того, что запрашиваемая информация вообще имеется в сети, выделяют различные альтернативные стратегии поиска.

Для начала стоит привыкнуть к необходимости сопровождать каждый более или менее усложненный поиск, с использованием различных поисковых запросов, к примеру, мини-протоколом. Краткие заметки по поводу а) названия уже (безрезультатно) использованной поисковой машины, б) при этом (также безрезультатно) уже использованных слов – поисковых запросов, в) даты интернет-поиска, что в конечном итоге позволит сократить временные издержки при поиске информации в другой поисковой системе (не нужно будет перепроверять по первой).

Наиболее известными поисковыми системами являются Google и Yahoo. Менее известным является то обстоятельство, что помимо них, существуют еще тысячи поисковых систем, которые предлагают те же самые услуги. Это становится очевидным даже если вы посмотрите на результаты поиска в Google по запросу "поисковая система" (Suchmaschine) или же "обзор" (Überblick). Ввиду того, что содержание поиска постоянно обновляется, обратим ваше внимание на наиболее часто встречающихся примерах: www.searchenginewatch.com или же www.klug-suchen.de.

Для того чтобы осуществить успешный поиск информации в той или иной системе или сразу же в нескольких, целесообразно знать хотя бы приблизительную схему их работы. Так, например, поисковые машины, специализирующиеся на Африке, находят информацию об этой стране быстрее, чем общераспространенные поисковики с заданным критерием поиска.

Так называемые "мета-поисковые системы", такие как www.metacrawler.de, www.metager.de, www.ixquick.com (различные настройки языка) положительно выделяются тем, что одновременно выдают результаты поиска сразу нескольких поисковых машин¹.

Эффективность работы поисковых систем также зависит от того, насколько успешно они справляются с уточнениями с помощью булевых операторов (UND, NICHT, ODER и т.д.; английский эвивалент: AND, OR, and NOT), выраженными при помощи союзов и, или, а также отрицательной частицы ‘не’. На эффективность также влияет то, можно ли маневрировать, задавая поисковые запросы, и насколько успешно система с этим справляется. Так, на определенные знаки, "*" или же "?", разные машины реагируют по-разному. Восполняя эти пробелы теми или иными буквами, система выдает разное количество результатов. Так, на запрос "Farb*foto" выдается два варианта написания "Farbfoto" и "Farbphoto", а на запрос "Farb*otogra*ie" (цветная фотография) отображаются дополнительные результаты, которые, однако, подразумевают единственно возможное написание этого слова. К примеру, Google воспринимает разделительные знаки (союзы, частицы), однако под эту категорию не попадают знаки пробела (звездочка и вопросительный знак). Портал www.seekport.de работает с обоими типами запросов, также адаптируя их на разные языки.

Загружаемый Download-файл² „Suchen+Finden“ ("Искать+найти") на странице www.recherchieren.org дает более полное представление об актуальном состоянии поисковых систем и других источниках поиска информации.

В условиях избытка информации и ранжирования результатов поиска, которое не регулируется человеком, тем не менее, имеет смысл обращать внимание не только на результаты, выдаваемые машиной в числе первых, но и сознательно на нижние строки. Так, при более детальном просмотре, сразу же становятся понятными критерии ранжирования источников и причины отнесения некоторых к числу наиболее релевантных, а других – к наименее.

Все те, кто в 2007 году следил за коррупционным скандалом компании Siemens, по состоянию на 19 февраля 2007 года в ответ на поисковые запросы "Siemens" и "Korruption" получали 615.000 результатов в поисковике Google, 774.000 – в Yahoo, 230.000 – в Lycos, чуть менее 6.000 – в Excite. Было бы идеально, если бы в рамках результатов каждой поисковой системы можно было бы составить свою выборку, однако большинство поисковых систем пренебрегают этой опцией. При поиске информации о предшественниках Вернера Маусса в Колумбии (1997), GREEK Intracom в Греции (1996), о концерне Сименс в Сингапуре (1996) или же о скандале Filesa в Испании (1995), следовало бы использовать очень хорошую поисковую систему. Однако Yahoo был создан в 1995 г., а Google – в 1998 году. В любом случае: поисковые машины проигрывают по некоторым параметрам.

А те, у кого еще на слуху термин "электромафия", ведущий свое начало с 1992 году и являющийся цитатой из обвинения мюнхенского земельного суда о системе Сименс и мошенничестве при строительстве завода (Klärwerk) в Мюнхене, при вводе этого слова в строку поиска Yahoo, Google или другых поисковых машин, столкнулись бы с одним и тем же, нулевым, результатом. Данный термин давно уже используется в другом значении, а смысл, в котором он был впервые употреблен мюнхенским судьей, уже не воспроизводится. На этом этапе со всей очевидностью обнаруживается содержательная несостоятельность поисковых машин и интернета в целом: в нем нельзя найти того, чего в нем изначально не было.

В этом контексте интернет чаще и больше всего используется как техническое средство – средство связи между содержательно структурированными базами данных и другими информационными порталами. Более подробно об этом будет сказано в главе 4.4.3.1 (с. 288).

¹ Мета-поисковая система (также называемая метакраулером или мульти-поточной системой) — это поисковый инструмент, посылающий ваш запрос одновременно на несколько поисковых систем (ПС), каталогов и, иногда, в так называемую невидимую (скрытую) паутину — собрание онлайновой информации, не проиндексированной традиционными поисковыми системами.

Собрав результаты, мета-поисковая система (МПС) удаляет дублированные ссылки и, в соответствии со своим алгоритмом, объединяет/ранжирует результаты в общем списке. Важно: в отличие от отдельных поисковых систем и директорий, мета-поисковые системы: а) не имеют собственных баз данных; б)не регистрируют URLы сайтов. (Прим. ред.)

² Download Master — Весьма удобный и красивый менеджер закачек. Как утверждают разработчики – позволяет сохранить конфиденциальность закачки. К тому же для Российских пользователей абсолютно бесплатен (Прим. ред.)