Матчасть / Сбор информации. Google
Первый пост из серии «поисковые системы в работе журналиста». Сначала, понятное дело, о Google. Который самый популярный в Украине поисковик. В дальнейшем напишу об особенностях остальных поисковых систем.
Вообще-то, когда-то это обещали написать представители собственно поисковиков, но у меня времени больше:)
Сервисов, связанных с поиском, у Google много. Как фанат Google, пользуюсь почти всеми. Но справедливость требует ремарки: из полезностей для журналистов Google рулит только в поиске.
Google обладает неимоверной способностью искать официальные сайты компаний. В без малого 100% случаев на первом месте в выдаче по «именному» запросу будет именно официальный сайт. Судя по всему, так будет и дальше. Из остальных связанных с поиском функций где-то полезными могут оказаться курсы валют и определения (русскоязычные работают не очень хорошо). Гораздо полезнее — операторы расширенного поиска (два из них указаны на странице функций поиска, полный список — тут).
Допустим, стоит задача найти бэкграунд о Приватбанке (ну и об акционерах с группой немножко). Ничего не мешает сразу начать искать акционеров и прочее, но для примера предлагаю сделать вид, что мы ничего об этом субъекте не знаем.
С официальным сайтом сложностей не возникнет. Но нам нужна не только рафинированная информация с корпоративного сайта, или сливы непонятно кого. Хочется найти информацию, на которую можно сослаться, поскольку сайты заполняются людьми. На корпоративном сайте мы уже нашли форму собственности банка, спрашиваем у Google зат приватбанк емітент. На первом месте — примерно то, что нужно. Сайт зарегистрирован в правительственной доменной зоне. Если ссылки на отчетность банка достаточно, то довольно улыбаемся. Если недостаточно, копаем дальше.
На этом сайте мы нашли отчетность Приватбанка. Логично предположить, что на нем же есть отчетность других субъектов. Которые каким-то образом связаны с банком. Внутренний поиск выдает только отчеты банка и его подразделений. Поэтому используем оператор site. В результате получаем больше 10 тысяч ссылок на нечто о Приватбанке на сайте, который используем. Просмотреть такое количество результатов нормальный человек не в состоянии. Поэтому нужно как-то ограничить выдачу. Кроме названия, у банка есть еще один уникальный идентификатор — код ЕГРПОУ. Копируем, меняем запрос. Менее 2,5 тыс. ссылок все равно много, но легче, чем 10. Тут уже ничего не поделаешь, эффективнее работать лапками. На первых нескольких страницах выдается исключительно отчетность Приватбанка. Это происходит из-за того, что каждый поисковик выше ставит ссылки на тот контент, который считает в большей степени соответствующему запросу пользователя (немного об алгоритмах ранжирования для любопытных). На 7-й странице выдачи начинают попадаться другие компании. Уже интереснее. Компании, номинальным держателем (хранителем) акций которых был/является Приватбанк. Например, «Синтез Транзит». Первый попавшийся акционер этой компании называется Inofos Management Limited. Копируем название (лучше копировать, лапками можно очепяток наделать), «пробиваем» с помощью того же запроса. Выдается еще две компании. Продолжаем.
Естественно, сам по себе факт хранения акций компании в Приватбанке говорит только о том, что компания хранит акции в Приватбанке. Но алгоритм «дата майнинга» примерно таков. Да, ручной работы очень много. Но если ее не делать, то можно создать повод для удовлетворения судебного иска. Ну и не все нужные компании такие большие и толстые, как Приватбанк.
Для ускорения процесса можно пользоваться так называемыми «стоп-словами». Но нужно их очень хорошо продумать, поскольку отфильтровать можно не только лишнее, но и вполне полезное. Например, чтобы исключить из выдачи по запросу Приватбанк ссылки на официальный сайт и большинство других сайтов банка (их десятка два) ищем некое слово, которое есть на них, но не обязательно встречается на остальных сайтах. Самое быстрое, что пришло в голову — домен (Google учитывает домены в выдаче), поэтому используем такой запрос. Выдача меняется. Но вакансии нас не интересуют. Еще одно «стоп-слово» дает такой результат. Теоретически можно «сжать» выдачу до того, что нужно.
Еще одна полезная опция — страницы, сохраненные в кэше. Например, сайт Приватбанка «лег». А информация нужна срочно. Используем site:www.privatbank.ua. В полученных результатах возле www.privatbank.ua/ и пр. выдается ссылка «сохранено в кэше». Вот — главная страница сайта, которую Google «запомнил» 21 марта. Аналогично можно поступить с любой страницей, копию которой сохранил Google.
В целом алгоритм поиска несложен. Проблема в том, чтобы правильно сформулировать запрос.
Наверное, достаточно. Если будут вопросы, то с удовольствием отвечу.
Ну и важное чтиво на эту же тему.
Вообще-то, когда-то это обещали написать представители собственно поисковиков, но у меня времени больше:)
Сервисов, связанных с поиском, у Google много. Как фанат Google, пользуюсь почти всеми. Но справедливость требует ремарки: из полезностей для журналистов Google рулит только в поиске.
Google обладает неимоверной способностью искать официальные сайты компаний. В без малого 100% случаев на первом месте в выдаче по «именному» запросу будет именно официальный сайт. Судя по всему, так будет и дальше. Из остальных связанных с поиском функций где-то полезными могут оказаться курсы валют и определения (русскоязычные работают не очень хорошо). Гораздо полезнее — операторы расширенного поиска (два из них указаны на странице функций поиска, полный список — тут).
Допустим, стоит задача найти бэкграунд о Приватбанке (ну и об акционерах с группой немножко). Ничего не мешает сразу начать искать акционеров и прочее, но для примера предлагаю сделать вид, что мы ничего об этом субъекте не знаем.
С официальным сайтом сложностей не возникнет. Но нам нужна не только рафинированная информация с корпоративного сайта, или сливы непонятно кого. Хочется найти информацию, на которую можно сослаться, поскольку сайты заполняются людьми. На корпоративном сайте мы уже нашли форму собственности банка, спрашиваем у Google зат приватбанк емітент. На первом месте — примерно то, что нужно. Сайт зарегистрирован в правительственной доменной зоне. Если ссылки на отчетность банка достаточно, то довольно улыбаемся. Если недостаточно, копаем дальше.
На этом сайте мы нашли отчетность Приватбанка. Логично предположить, что на нем же есть отчетность других субъектов. Которые каким-то образом связаны с банком. Внутренний поиск выдает только отчеты банка и его подразделений. Поэтому используем оператор site. В результате получаем больше 10 тысяч ссылок на нечто о Приватбанке на сайте, который используем. Просмотреть такое количество результатов нормальный человек не в состоянии. Поэтому нужно как-то ограничить выдачу. Кроме названия, у банка есть еще один уникальный идентификатор — код ЕГРПОУ. Копируем, меняем запрос. Менее 2,5 тыс. ссылок все равно много, но легче, чем 10. Тут уже ничего не поделаешь, эффективнее работать лапками. На первых нескольких страницах выдается исключительно отчетность Приватбанка. Это происходит из-за того, что каждый поисковик выше ставит ссылки на тот контент, который считает в большей степени соответствующему запросу пользователя (немного об алгоритмах ранжирования для любопытных). На 7-й странице выдачи начинают попадаться другие компании. Уже интереснее. Компании, номинальным держателем (хранителем) акций которых был/является Приватбанк. Например, «Синтез Транзит». Первый попавшийся акционер этой компании называется Inofos Management Limited. Копируем название (лучше копировать, лапками можно очепяток наделать), «пробиваем» с помощью того же запроса. Выдается еще две компании. Продолжаем.
Естественно, сам по себе факт хранения акций компании в Приватбанке говорит только о том, что компания хранит акции в Приватбанке. Но алгоритм «дата майнинга» примерно таков. Да, ручной работы очень много. Но если ее не делать, то можно создать повод для удовлетворения судебного иска. Ну и не все нужные компании такие большие и толстые, как Приватбанк.
Для ускорения процесса можно пользоваться так называемыми «стоп-словами». Но нужно их очень хорошо продумать, поскольку отфильтровать можно не только лишнее, но и вполне полезное. Например, чтобы исключить из выдачи по запросу Приватбанк ссылки на официальный сайт и большинство других сайтов банка (их десятка два) ищем некое слово, которое есть на них, но не обязательно встречается на остальных сайтах. Самое быстрое, что пришло в голову — домен (Google учитывает домены в выдаче), поэтому используем такой запрос. Выдача меняется. Но вакансии нас не интересуют. Еще одно «стоп-слово» дает такой результат. Теоретически можно «сжать» выдачу до того, что нужно.
Еще одна полезная опция — страницы, сохраненные в кэше. Например, сайт Приватбанка «лег». А информация нужна срочно. Используем site:www.privatbank.ua. В полученных результатах возле www.privatbank.ua/ и пр. выдается ссылка «сохранено в кэше». Вот — главная страница сайта, которую Google «запомнил» 21 марта. Аналогично можно поступить с любой страницей, копию которой сохранил Google.
В целом алгоритм поиска несложен. Проблема в том, чтобы правильно сформулировать запрос.
Наверное, достаточно. Если будут вопросы, то с удовольствием отвечу.
Ну и важное чтиво на эту же тему.
- +4
- 24 марта 2009, 23:15
- 2

Комментарии (2)
RSS свернуть / развернутьУ меня речь — просто о неких базовых вещах, которых многие люди не знают:(
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.