Окно программы: RSS импорт
Прежде всего необходимо создать профили для граббинга. Для этого с помощью контекстного меню по списку профилей создается новая запись, в которой указываются:
- Название профиля
- Адрес ленты которую необходимо парсить
- Если после граббинга необходимо закачивать рисунки локально, то отмечается опция «Загружать картинки в проект»
- Если хотим, чтобы все посты попадали в какую-то конкретную категорию, а не в ту, которая указана в ленте — выбираем со списка «Категорию для постов» (либо вписываем название категории и программа создаст её сама)
- Если не хотим, чтобы ранее скачанные записи попадали в проект — отмечаем галочкой «Добавлять только новые записи». Если опция не активна, то в проект попадают все записи, которых в данный момент в нём нету
- Если необходимо получать полную новость, то отмечается соответствующая галочка на второй вкладке окна и настраиваем границы парсинга
- Если хотим, чтобы вконец новости добавлялась ссылка на источник — активируем опцию «Добавлять ссылку на источник» на второй вкладке окна
- Сохранить профиль
После создания и настройки всех профилей просто отмечаем интересующие галочками и нажимаем кнопку «Запустить». Программа сама скачает нужные ленты, распарсит их и закинет в проект.
Так же в программе есть возможность закрепить за каждым проектом набор RSS лент для будущей загрузки их через "Обработку нескольких проектов". Для этого в контекстном меню для профиля импорта выберите "Добавить привязку к проекту". Закрепленные за проектом ленты отмечены зеленым значком в списке профилей.
Настройка получения полной новости
Эта часть состоит всего из 2 полей и одной опции. Первое поле — признаки начала текста который необходимо вытянуть с HTML версии страницы полной новости. Второе — соответственно признак конца. В этих двух полях можно использовать спец символ "*" (звездочка), который обозначает любой текст. Например: в сайтах на движке DLE, полные новости обычно находятся между тегов:
и
Их и нужно указать в этих полях. Но в начальном признаке эта часть news-id-111 отличается конечными цифрами в каждой статье, потому запись необходимо переписать на такую:
Как видно я цифры просто заменил на звездочку, которая обозначает любую последовательность знаков.
Так же есть возможность использовать регулярные выражения в полях для поиска начала и конца статьи. Для этого всего-лишь необходимо активировать соответствующую опцию. Стоит заметить, что при использовании регулярных выражений нельзя пользоваться захватываемыми группами. Если вам нужны группы для подстановки разных значений — используйте не захватываемые.
Подробный пример настройки граббера со скриншотами и описанием можно увидеть на этой странице форума программы.
Так же на второй вкладке есть не рассмотренные опции:
- Тег текста новости в RSS ленте — это тег, в котором находится текст новости. Некоторые CMS хранят полный текст новости в другом теге и в этих случаях программе необходимо на него указать
- Своя регулярка для получения ссылки на полную новость — позволяет задать своё правило нахождения ссылки на полную новость в ленте (на некоторых сайтах она почему-то размещена не в стандартном для этого параметра теге)
Импорт контента neotext.ru