Требования к RSS для рекомендательной системы Mail.Ru

Рекомендации

Для корректной работы RSS необходимо, чтобы в ней первоначально было не менее 30 актуальных материалов. Дата публикации материалов внутри RSS должна быть не позднее 30 календарных дней от текущей даты запуска источника.

Для новостных источников обновление публикаций внутри RSS должно происходить не реже 1 раза в сутки в количестве от 5 материалов и выше. 

Для остальных источников (лайфстайл, мода, бизнес и т.п.) обновление должно быть не реже 1 раза в неделю от 10 материалов и выше.

Публикации, которые попадают в RSS, должны быть в свободном доступе. Те материалы, для просмотра которых требуется регистрация или плата, в рекомендательную систему не попадают.

  • Материал для рекомендательной системы должен содержать хотя бы одно изображение, которое размещается с помощью элемента enclosure
    Картинки используются для превью в лентах.
    Формат: jpg, png
    Минимальная ширина: 310 рх
    Минимальная высота: 168 рх
    Вес до 10 мб

  • Убедитесь, что в robots.txt нет директивы Disallow, которая запрещает адрес RSS, в противном случае публикацию не увидит наш робот "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)"Разрешить можно директивой Allow RSS_URL. Пример: если в robots.txt прописана директива Disallow /feed, то робот не сможет проиндексировать страницу example.ru/feed/some_url/rss.xml Чтобы разрешить индексацию, добавьте директиву Allow /feed/some_url/rss.xml.

  • Убедитесь, что RSS открыта для доступа с IP адресов 95.163.255.0-95.163.255.255
  • Убедитесь, что ваш провайдер не блокирует нашего робота. Для этого можно выполнить следующую команду в консоли linux или подобной, где вместо YOU_URL надо вставить один из урлов материлов, отдаваемых вами в RSS. Если вернулся код 200 - то значит провайдер не банит нашего фетчера, при ином коде надо обратиться к хостинг провайдеру с просьбой разблокировать ваши документы для нашего робота.

    $ curl -I --user-agent "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)" "YOU_URL" 

    HTTP/1.1 200 OK

    Больше про поисковых роботов
  • Для более корректной работы старайтесь держать в RSS только свежие публикации (за последние 2-5 дней). Из-за нагрузки, которую создают устаревшие публикации, усложняется работа RSS.

Если кроме нижеперечисленных тэгов в Вашей RSS есть другие тэги (например, content:encoded, etc.), то это никак не помешает нашим парсерам вытащить контент из такой RSS. Ниже мы указали минимальные требования к RSS, которые могут попасть в нашу рекомендательную систему.

Описание источника

Элементы со строго ограниченным набором значений могут содержать только варианты, которые указаны в таблице. Любое другое значение приведет к ошибке.

Обязательные элементы отмечены значком image.

 

Элемент Описание
rssimage Используемый формат данных. Экспорт осуществляется в XML-based формате RSS 2.0. Поддерживаются RSS.
channelimage Набор элементов, содержащих информацию о сайте-источнике публикаций.
titleimage Название сайта.
linkimage URL сайта.
description Описание сайта.
imageimage Логотип сайта-источника. Содержит элемент <url> с указанием адреса изображения. Размер картинки должен быть не менее 200 пикселей по ширине и высоте. Изображение будет кадрировано до квадратного. Не допускается анимация и прозрачный фон.
language Язык документов в RSS согласно стандарту ISO 639-1
itemimage Элементы, которые описывают отдельную публикацию. В RSS может присутствовать несколько таких элементов, оптимально — публикации за 2-5 последних дня. Если таких элементов больше - это может усложнить работу RSS.

 

<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
   xmlns:content="http://purl.org/rss/1.0/modules/content/"
   <channel>
       <title>Криптота</title>
       <link>http://example.com/</link>
       <description>
        Всё о криптовалютах: покупка, продажа,
        биржи и новости.
       </description>
       <image>
              <url>http://example.com/logo_200x200.png</url>
       </image>

       <language>ru</language>
       <item>
       ...
       </item>
   </channel>

Описание публикации

Элементы, с помощью которых описывается публикация, находятся внутри item.

Элементы со строго ограниченным набором значений могут содержать только варианты, которые указаны в таблице. Любое другое значение приведет к ошибке.

 Обязательные элементы отмечены значком image.

Элемент Описание
titleimage Заголовок публикации. От 3 до 1000 символов.
linkimage

URL публикации, данные которой транслируются в RSS. Ссылка в RSS должна полностью повторять ссылку на сайте и не содержать лишних элементов.

Например, utm метки не являются необходимыми.

amplink Ссылка на AMP-версию материала.
pubDateimage

Дата и время публикации в формате RFC822, ( «Sun, 08 Jan 2017 13:00:00 +03000»). 

enclosureimage

Описание изображений, аудио- и видеофайлов. Может быть единственным упоминанием медиаконтента.

Если в материале есть много вариантов одной иллюстрации, которые отличаются друг от друга только размером, то в этот элемент  эта иллюстрация прописывается единожды и в нем указывается URL изображения наибольшего размера.

Если в тегах enclosure указано несколько разных иллюстраций - берётся самая первая по порядку.

Картинки используются для превью в лентах.
Формат: jpg, png
Минимальная ширина: 310 рх
Минимальная высота: 168 рх
Вес до 10 мб

descriptionimage Краткая аннотация. От 5 до 10000 символов.
content:encoded Контент публикации - полный текст и медиаматериалы.

<item>
   <title>На марсе нашли воду</title>
   <link>http://example.com/2018/05/02/mars-water</link>
   <amplink>http://amp.example.com/2018/05/02/mars-waterr</amplink>
   <pubDate>Sun, 17 Aug 2018 16:10:00 +0300</pubDate>
   <enclosure url="http://example.com/2018/05/02/pic1.jpg" type="image/jpeg"/>
   <enclosure url="http://example.com/2018/05/02/pic2.jpg" type="image/jpeg"/>
   <enclosure url="http://example.com/2018/05/02/video/42420" type="video/x-ms-asf"/>
   <description>
       <![CDATA[
      Давайте ваши шутки про картошку: на красной планете обнаружили ледник. Теперь учёные убеждены в наличии воды на поверхности планеты..
       ]]>
   </description>
</item>

Пример правильно оформленной RSS

<?xml version="1.0" encoding="UTF-8"?>

<rss version="2.0"

xmlns:content="http://purl.org/rss/1.0/modules/content/">

<channel>

<title>Криптота</title>

<link>http://example.com/</link>

<description>

Всё о криптовалютах: покупка, продажа, биржи и новости.

</description>
<image>
     <url>http://example.com/logo_200x200.png</url>
</image>

<language>ru</language>

<item>

<title>На марсе нашли воду</title>

<link>http://example.com/2018/05/02/mars-water</link>

<amplink>http://amp.example.com/2018/05/02/mars-waterr</amplink>

<pubDate>Sun, 17 Aug 2018 16:10:00 +0300</pubDate>

<enclosure url="http://example.com/2018/05/02/pic1.jpg" type="image/jpeg"/>

<enclosure url="http://example.com/2018/05/02/pic2.jpg" type="image/jpeg"/>

<enclosure url="http://example.com/2018/05/02/video/42420" type="video/x-ms-asf"/>

<description>

<![CDATA[

Давайте ваши шутки про картошку: на красной планете обнаружили ледник. Теперь учёные убеждены в наличии воды на поверхности планеты..

]]>

</description>

</item>

</channel>

</rss>

Обновлено 15 сентября 2023 г.