Мониторинг СМИ / Как работают Яндекс-Новости? Обратная сторона медали
Прежде всего, хочу отметить, что 16 июня Яндекс провел хорошее и весьма интересное мероприятие, которое очень понравилось аудитории. Докладчики старались максимально честно и объективно отвечать на все вопросы слушателей, за что им огромный респект.
Не хочу пересказывать презентации (вы можете прочитать многочисленные отзывы о них в блогосфере), поделюсь лишь собственными впечатлениями от услышанного.
Цели
По-видимому, основной целью встречи было привлечение в сервис новых сайтов (Яндекс их называет партнерами) с целью увеличения посещаемости Яндекс-Новостей украинской аудиторией и получения большего охвата украинских новостных ресурсов. Однако приведенные цифры не столько убедили, сколько озадачили — в настоящее время в сервис ежедневно поступает 4,5 тысячи новостей, которые читают около 80 тыс. человек, однако количество переходов на сайты партнеров составляет лишь 20 тысяч. Статистика сразу же вызвала сомнения у представителей украинских Интернет-СМИ — если рассматривать Яндекс-Новости как источник дополнительного трафика (а иначе зачем тогда отдавать им свой контент?), то выходит совсем уж смешной бонус к общей посещаемости сайта.
По-видимому, относительно небольшому количеству переходов есть несколько объяснений:
1) Яндекс-Новости предоставляют достаточно полную картинку, поэтому у пользователей нет надобности заходить на оригинальные сайты и читать подробности;
2) огромная проблема с контентом и самих украинских Интернет-СМИ — везде публикуются одни и те же новости с одной и той же подачей, как это принято в Уанете, поэтому для рядового пользователя по большей части не важно, на какой сайт перейти, чтобы узнать больше.
3) часто издания перепечатывают друг друга, а дубликаты Яндекс-Новости активно давят и пытаются показывать только оригинальную новость, хотя и не всегда удачно.
4) не слишком удачный алгоритм объединения в сюжеты не позволяет склеивать авторские статьи (ниже я покажу, почему), поэтому ресурсы предпочитают отдавать не весь свой контент, а то же, что «у других».
К сожалению, представляя положительные стороны, Яндекс выглядел не очень убедительно, поэтому у многих издателей возник резонный вопрос, в чем же выгода от предложенной модели сотрудничества, на который украинской команде Яндекса еще предстоит дать ответ.
Проблемы Яндекс-Новостей
Далее слово взял один из разработчиков сервиса Лев Гершензон, который рассказал о том, как устроены Яндекс-Новости с алгоритмической точки зрения.
1) Дубликаты
Прежде всего, сервис не всегда корректно решает проблему «дубликата», то есть определения оригинального сообщения, которое первым появилось в информационном потоке. По словам Льва, в каждой группы дубликатов выбирается некий «мастер», который определяется по цитированию источника внутри Яндекс-Новостей (тИЦ, построенный исключительно в новостях, который служит мерой авторитетности), времени публикации сообщений и анализу текста на наличие повторяющихся фрагментов.
Далее в сюжете и поиске остается только мастер, остальные сообщения убираются, и вот здесь возникает множество проблем:
— оригинальное сообщение сайта А было перепечатано с тем же временем публикации более «авторитетным» сайтом Б и в результате мастером стал сайт Б вместо А;
— сайты примерно равно по «авторитету», но сайт Б поставил время публикации на час раньше — и стал мастером;
— одно и то же сообщение перепечатали с сайта C (например, с закрытой ленты информагентства, которой нет в Яндекс-Новостях), в результате мастером становится тот, кто поставил раньше время публикации;
Все бы ничего, но позиция Яндекса по дубликатам сейчас такова — мы не милиция, чтобы разбираться, кто и у кого что-то взял, поэтому разбирайтесь с проблемой (то есть другим сайтом) сами.
2) Сюжеты
Далее я буду описывать не совсем простые вещи, поэтому люди с нетехническим образованием просто могут его опустить. :)
Так вот, по словам докладчика, все, что должен показывать сюжет — это разные точки зрения, актуальные факты и отражение развитие события во времени, однако вот проблема — в настоящий момент коэффициент полноты работы алгоритма составляет всего лишь 85%. Почему? Потому что алгоритм основан на создании унифицированного поискового запроса, в который входят все слова, характерные для события, однако не учитывает ряд важных факторов:
— одна и та же новость может быть написана разными словами, при этом общими останутся лишь объекты и субъекты;
— статистическая модель расчета важности каждого ключевого слова предполагает его интенсивное использование в тексте. Говоря простым языком, это заставляет редакторов применять те же слова, что и у других изданий, иначе сообщение не подклеится к сюжету.
— Яндекс определяет матрицу близости документов на основе весов всех слов, которые встречаются в тексте, однако для событий, в которые вовлечены множество персон или объектов, каждый из которых генерирует собственный информационный поток (например, новые факты или комментарии), этот центроид (то есть вектор ключевых слов) спустя какое-то время разростается «вширь» и приносит много информационного шума, который приходится подавлять. К сожалению, вместе с шумом убирается и множество весьма характерных слов, в результате чего не все сообщения объединяются в сюжет.
Очевидно, здесь может быть несколько решений, одно из которых было использовано в , когда кластеризация происходит в два этапа, на первом из которых укрупняются «очень похожие сообщения» и высчитывается презентативный центроид, а на втором в сюжет объединяются более мелкие кластера. Точность и полнота такого решения заметно выше, хотя алгоритм тоже далек от идеального. Здесь для тех, кто дочитал до конца.
Сразу отмечу, что текущая реализация почти не оставляет шансов авторским материалам, так как они попросту не приклеятся к нужному сюжету, поэтому многие издатели и не видят причин отдавать их Яндексу.
3) Интервью
Как показало общественное мнение и заданные вопросы, с определением формата интервью у Яндекса также имеются некоторые затруднения, хотя, казалось, что здесь сложного, если в тексте постоянно повторяется связка «вопрос-ответ». Обещали исправить ситуацию введением какого-то тэга в RSS-разметке, чтобы издатели сами могли определять формат заметки. Тоже самое можно сказать и по статьям — в некоторых случаях по неизвестной причине они не определяются как «статьи», о чем разработчики просили сразу сообщать в службу поддержки.
4) География сайтов
Довольно часто в украинских Яндекс-Новостях можно было встретить российские ресурсы, которые что-то написали о Украине, однако разработчики заверили, что в новой версии сервис, запущенной буквально «вчера», этот недостаток уже исправили.
5) Сайты на украинском языке
До текущего момента Яндекс не принимал сайты на украинском, однако все вдруг с удивлением увидели их в украинской версии Google News. Обещали в будущем что-то с этим сделать.
6) Ошибки и опечатки в заголовках сообщений
Яндекс-Новости позиционируется как полностью автоматический сервис, поэтому и работает он весьма своеобразно. Например, если вы допустили в какой-то новости ошибку, но Яндекс уже импортировал ее в свою базу, не беда — предусмотрен повторный заход робота через 5 минут, который заберет исправленную версию. Насколько я понимаю, особо «продвинутые» издатели могут за это время просмотреть сюжеты на эту же тему, и придумать «ходовой» заголовок для новости (уж это они умеют!), чтобы получить побольше трафика.
7) Отсутствие ограничений на заголовки
Сейчас в Яндекс-Новости можно добавить новость с любым количеством слов, поэтому некоторые недобросовестные издатели вполне могут «расширить область искабельности» применением в заголовке ключевых слов, которые часто ищут люди.
Подводя итоги, не могу не отметить полезность подобных встреч и еще раз выразить благодарность Яндексу за содержательные доклады. Хотелось бы в дальнейшем услышать и кого-то из представителей «большого» Яндекса с презентацией по алгоритмам поиска в украинском Интернете.
Не хочу пересказывать презентации (вы можете прочитать многочисленные отзывы о них в блогосфере), поделюсь лишь собственными впечатлениями от услышанного.
Цели
По-видимому, основной целью встречи было привлечение в сервис новых сайтов (Яндекс их называет партнерами) с целью увеличения посещаемости Яндекс-Новостей украинской аудиторией и получения большего охвата украинских новостных ресурсов. Однако приведенные цифры не столько убедили, сколько озадачили — в настоящее время в сервис ежедневно поступает 4,5 тысячи новостей, которые читают около 80 тыс. человек, однако количество переходов на сайты партнеров составляет лишь 20 тысяч. Статистика сразу же вызвала сомнения у представителей украинских Интернет-СМИ — если рассматривать Яндекс-Новости как источник дополнительного трафика (а иначе зачем тогда отдавать им свой контент?), то выходит совсем уж смешной бонус к общей посещаемости сайта.
По-видимому, относительно небольшому количеству переходов есть несколько объяснений:
1) Яндекс-Новости предоставляют достаточно полную картинку, поэтому у пользователей нет надобности заходить на оригинальные сайты и читать подробности;
2) огромная проблема с контентом и самих украинских Интернет-СМИ — везде публикуются одни и те же новости с одной и той же подачей, как это принято в Уанете, поэтому для рядового пользователя по большей части не важно, на какой сайт перейти, чтобы узнать больше.
3) часто издания перепечатывают друг друга, а дубликаты Яндекс-Новости активно давят и пытаются показывать только оригинальную новость, хотя и не всегда удачно.
4) не слишком удачный алгоритм объединения в сюжеты не позволяет склеивать авторские статьи (ниже я покажу, почему), поэтому ресурсы предпочитают отдавать не весь свой контент, а то же, что «у других».
К сожалению, представляя положительные стороны, Яндекс выглядел не очень убедительно, поэтому у многих издателей возник резонный вопрос, в чем же выгода от предложенной модели сотрудничества, на который украинской команде Яндекса еще предстоит дать ответ.
Проблемы Яндекс-Новостей
Далее слово взял один из разработчиков сервиса Лев Гершензон, который рассказал о том, как устроены Яндекс-Новости с алгоритмической точки зрения.
1) Дубликаты
Прежде всего, сервис не всегда корректно решает проблему «дубликата», то есть определения оригинального сообщения, которое первым появилось в информационном потоке. По словам Льва, в каждой группы дубликатов выбирается некий «мастер», который определяется по цитированию источника внутри Яндекс-Новостей (тИЦ, построенный исключительно в новостях, который служит мерой авторитетности), времени публикации сообщений и анализу текста на наличие повторяющихся фрагментов.
Далее в сюжете и поиске остается только мастер, остальные сообщения убираются, и вот здесь возникает множество проблем:
— оригинальное сообщение сайта А было перепечатано с тем же временем публикации более «авторитетным» сайтом Б и в результате мастером стал сайт Б вместо А;
— сайты примерно равно по «авторитету», но сайт Б поставил время публикации на час раньше — и стал мастером;
— одно и то же сообщение перепечатали с сайта C (например, с закрытой ленты информагентства, которой нет в Яндекс-Новостях), в результате мастером становится тот, кто поставил раньше время публикации;
Все бы ничего, но позиция Яндекса по дубликатам сейчас такова — мы не милиция, чтобы разбираться, кто и у кого что-то взял, поэтому разбирайтесь с проблемой (то есть другим сайтом) сами.
2) Сюжеты
Далее я буду описывать не совсем простые вещи, поэтому люди с нетехническим образованием просто могут его опустить. :)
Так вот, по словам докладчика, все, что должен показывать сюжет — это разные точки зрения, актуальные факты и отражение развитие события во времени, однако вот проблема — в настоящий момент коэффициент полноты работы алгоритма составляет всего лишь 85%. Почему? Потому что алгоритм основан на создании унифицированного поискового запроса, в который входят все слова, характерные для события, однако не учитывает ряд важных факторов:
— одна и та же новость может быть написана разными словами, при этом общими останутся лишь объекты и субъекты;
— статистическая модель расчета важности каждого ключевого слова предполагает его интенсивное использование в тексте. Говоря простым языком, это заставляет редакторов применять те же слова, что и у других изданий, иначе сообщение не подклеится к сюжету.
— Яндекс определяет матрицу близости документов на основе весов всех слов, которые встречаются в тексте, однако для событий, в которые вовлечены множество персон или объектов, каждый из которых генерирует собственный информационный поток (например, новые факты или комментарии), этот центроид (то есть вектор ключевых слов) спустя какое-то время разростается «вширь» и приносит много информационного шума, который приходится подавлять. К сожалению, вместе с шумом убирается и множество весьма характерных слов, в результате чего не все сообщения объединяются в сюжет.
Очевидно, здесь может быть несколько решений, одно из которых было использовано в , когда кластеризация происходит в два этапа, на первом из которых укрупняются «очень похожие сообщения» и высчитывается презентативный центроид, а на втором в сюжет объединяются более мелкие кластера. Точность и полнота такого решения заметно выше, хотя алгоритм тоже далек от идеального. Здесь для тех, кто дочитал до конца.
Сразу отмечу, что текущая реализация почти не оставляет шансов авторским материалам, так как они попросту не приклеятся к нужному сюжету, поэтому многие издатели и не видят причин отдавать их Яндексу.
3) Интервью
Как показало общественное мнение и заданные вопросы, с определением формата интервью у Яндекса также имеются некоторые затруднения, хотя, казалось, что здесь сложного, если в тексте постоянно повторяется связка «вопрос-ответ». Обещали исправить ситуацию введением какого-то тэга в RSS-разметке, чтобы издатели сами могли определять формат заметки. Тоже самое можно сказать и по статьям — в некоторых случаях по неизвестной причине они не определяются как «статьи», о чем разработчики просили сразу сообщать в службу поддержки.
4) География сайтов
Довольно часто в украинских Яндекс-Новостях можно было встретить российские ресурсы, которые что-то написали о Украине, однако разработчики заверили, что в новой версии сервис, запущенной буквально «вчера», этот недостаток уже исправили.
5) Сайты на украинском языке
До текущего момента Яндекс не принимал сайты на украинском, однако все вдруг с удивлением увидели их в украинской версии Google News. Обещали в будущем что-то с этим сделать.
6) Ошибки и опечатки в заголовках сообщений
Яндекс-Новости позиционируется как полностью автоматический сервис, поэтому и работает он весьма своеобразно. Например, если вы допустили в какой-то новости ошибку, но Яндекс уже импортировал ее в свою базу, не беда — предусмотрен повторный заход робота через 5 минут, который заберет исправленную версию. Насколько я понимаю, особо «продвинутые» издатели могут за это время просмотреть сюжеты на эту же тему, и придумать «ходовой» заголовок для новости (уж это они умеют!), чтобы получить побольше трафика.
7) Отсутствие ограничений на заголовки
Сейчас в Яндекс-Новости можно добавить новость с любым количеством слов, поэтому некоторые недобросовестные издатели вполне могут «расширить область искабельности» применением в заголовке ключевых слов, которые часто ищут люди.
Подводя итоги, не могу не отметить полезность подобных встреч и еще раз выразить благодарность Яндексу за содержательные доклады. Хотелось бы в дальнейшем услышать и кого-то из представителей «большого» Яндекса с презентацией по алгоритмам поиска в украинском Интернете.
- +3
- 19 июня 2009, 01:41
- 17

Комментарии (17)
RSS свернуть / развернутьХотя можно спорить, конечно, так как тема по сути новая. Я вот так и не смог это доказать Ашманову и Харину когда-то. :)
могу сказать, почему при несущественном трафике для новостников может быть важно хорошее присутствие в яндекс-новости. для человека, далекого от рейтингов, посещаемости и чистоты трафика, это равносильно модному сертификату «а этот сайт с новостями самый-самый», а людей таких у нас все еще большинство. очень упрощает работу продажникам.
и укр.нетом еще, да
Яндекс-Новости пытаются автоматически показать объективную информационную картинку, поэтому пользователю обычно нет надобности делать клик и переходить на оригинальный сайт, чтобы узнать подробности, а у Редтрама все наоборот — надо подсунуть какой-нибудь броский заголовок (желательно 2-3-х летней давности), чтобы было побольше кликов.
и случаев накрутки в «Яндекс.Новостях», конечно же, нет;)
принципиально проекты действительно похожи
карма просто разная:)
вот мой случай, да
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.