ZebroidДокументацияОбработка текстовЧистка заголовков и статей

Чистка заголовков и статей

В программе: Обработка текстов → Чистка заголовков / статей
Существуют ситуации, когда в проект попали неподходящие либо не уникальные (между собой) статьи. Искать такие статьи вручную на больших проектах практически не реально. Либо случаи, когда заголовки статей нужно привести к эдиному стилю и удалить из них лишние символы и пробелы. Этим должна заниматься, и занимается, программа.


Чистка заголовков статей


На первой вкладке инструмента мы видим группу настроек, для чистки заголовков. С их помощью вы можете удалить лишние пробелы, знаки препинания или теги из заголовка либо обрезать заголовки до необходимого размера.

Так же здесь присутствует инструмент поиска не подходящих заголовков (слишком короткие либо повторяющиеся названия статей) и их автоматической генерации на новые.




Вкладка «Заголовки 2»



Приводим названия статей к единому стилю


Когда нужно сделать так, чтобы все названия статей были выполнены в одном оформлении, тогда вам отлично подойдёт «Форматирование названий». Всё, что требуется от пользователя — это выбрать какой именно вариант ему больше подходит.




Вкладка «Статьи»



Поиск неподходящих статей


Эта опция отвечает за «правильность» самих статей. Она умеет искать очень короткие статьи и очень длинные статьи, статьи в которых много слов, что начинаются с заглавной буквы, много спецсимволов или цифр и т.д.

Так же есть возможность искать статьи по черному или белому списку слов. Если вы выбираете поиск по черному списку слов — тогда программа будет считать плохими статьи в текстах которых есть указанные пользователем слова. Если вы выбираете поиск по белому списку слов — тогда программа будет считать плохими статьи в текстах которых нету указанных пользователем слов. Поддерживается использование маски слов (маска «зебр*» отвечает словам «зебра», «зебры», «зебрами» и т.д.), точного совпадения указанных строк и регулярных выражений. Слова необходимо указывать списком без использования пробелов до и после слова.




Вкладка «Правка HTML»



Правка HTML кода статей


Эта вкладка имеет набор опций, который позволит получить чистый и валидный код статей. Вы можете:

  • Преобразовать переносы строк в абзацы (тег p)
  • Закрыть незакрытые теги
  • Исправить ошибки HTML разметки (в частности оформление атрибутов тегов)
  • Изменить форматирование абзацев
  • Удалить лишние теги или очистить атрибуты тегов
  • Удалить не валидные символы в тексте




Вкладка Поиск дубликатов



Поиск дубликатов статей


Поиск дубликатов статей используя метод шинглов. Это один из самых популярных методов нечетного поиска. С его помощью можно найти не только статьи, которые полностью идентичны друг другу, но и очень похожие по содержанию.

Zebroid умеет удалять HTML теги при поиске и делать лемматизацию слов (приведение слов к первоначальной лемме). Найденные статьи можно удалять, либо переносить в специальную категорию для дальнейшего определения их судьбы.

Настройки инструмента очень простые и понятные, единственное, что стоит отметить:

Опция "Быстрый поиск" всё равно проверяет тексты методом шинглов, просто сравнивает не все тексты. К примеру, при использовании быстрого поиска в похожих по названию, программа будет сравнивать тексты только тех статей, у которых названия очень похожие. И в зависимости от настроек уникальности текстов будет принимать решение, что делать со статьей.