Загрузите csv-файл с адресами страниц и соответствующими им title (или другими строками, которые должны быть уникальными).
Отчет состоит из трех разделов:
- Полные дубли. Отличие от других программ для определения дублей - в том, что не учитыаются знаки препинания, "е" и "ё" считаются одной буквой, не учитывается регистр символов.
- Дубли по составу лексем. Заголовки "Рецепт земляничного пирожного" и "Земляничных пирожных рецепт" технически уникальны, но очень близки по смыслу. Если все начальные формы слов в разных строках совпадают - соответствующие url будут помечены как имеющие дубли.
- Перечень оставшихся url с указанием количества лексем, которые не встречаются в других строках. Хороший title не обязательно должен содержать уникальные лексемы (например, для заголовка раздела в интернет-магазине это вообще невыполнимо), но малое количество тайтлов хотя бы с одной уникальной лексемой может свидетельствовать о проблемах.
Требования к файлу: размер не более 10 мегабайт; только CSV-формат, кодировка - UTF-8, разделитель - точка с запятой. В первом столбце - url, во втором строка, уникальность которой нужно проверить. Каждому url дожна соответствовать только 1 строка. Пример файла.