Проверка title на уникальность

Инструмент показывает: полные дубли, повторы по составу лексем, наличие уникальных лексем.

Загрузите CSV-файл

Справка

Загрузите csv-файл с адресами страниц и соответствующими им title (или другими строками, которые должны быть уникальными).

Отчет состоит из трех разделов:

  • Полные дубли. Отличие от других программ для определения дублей - в том, что не учитыаются знаки препинания, "е" и "ё" считаются одной буквой, не учитывается регистр символов.
  • Дубли по составу лексем. Заголовки "Рецепт земляничного пирожного" и "Земляничных пирожных рецепт" технически уникальны, но очень близки по смыслу. Если все начальные формы слов в разных строках совпадают - соответствующие url будут помечены как имеющие дубли.
  • Перечень оставшихся url с указанием количества лексем, которые не встречаются в других строках. Хороший title не обязательно должен содержать уникальные лексемы (например, для заголовка раздела в интернет-магазине это вообще невыполнимо), но малое количество тайтлов хотя бы с одной уникальной лексемой может свидетельствовать о проблемах.

Требования к файлу: размер не более 10 мегабайт; только CSV-формат, кодировка - UTF-8, разделитель - точка с запятой. В первом столбце - url, во втором строка, уникальность которой нужно проверить. Каждому url дожна соответствовать только 1 строка. Пример файла.

Плюсануть
Поделиться
Отправить
Линкануть
Вотсапнуть