На данный момент отчет содержит следующие параметры:
слов всего
Общее количество слов в анализируемом фрагменте.
стоп-слов
Количество малозначимых, встречающихся в большинстве текстов слов. Например, к стоп-словам относятся: «было, всего, еще, как, когда, который, самый». Стоп-слова используются и в дальнейшем анализе, при расчете многих других показателей.
Важно: разные сервисы используют свои списки стоп-слов, что приводит к расхождениям. Список bez-bubna.com составлен на основе дополнения нескольких публичных списков. Именно он использовался в исследовании алгоритма Баден-Баден.
Вопрос: можно ли получить список стоп-слов сервиса?
Ответ: нельзя, потому что это конкурентное преимущество сервиса. Список был протестирован в детальных исследованиях переоптимизированных текстов и доказал свою эффективность, именно с его помощью рассчитаны пороги попадания под фильтр. Это важная часть алгоритма, отдавать (и даже продавать) ее конкурентам нет никакого смысла.
уникальных словоформ
Для определения количества словоформ фильтруются все повторы слова в конкретной форме. Например, в строке «В лесу родилась елочка, в лесу она росла… срубил он нашу елочку» отфильтруется «лесу», а «елочка» и «елочку» нет.
уникальных лемм
Аналогично предыдущему — перед подсчетом текст лемматизируется, то есть слова приводятся к начальной форме. Если рассмотреть предыдущий пример, то «елочка» и «елочку» будут сводиться к одной и той же лемме.
классическая тошнота
Квадратный корень из количества вхождений самого частого слова. По всей видимости, не является самостоятельным полезным сигналом.
академическая тошнота
Также не является самостоятельным полезным сигналом.
Важно: академическая тошнота рассчитывается в разных сервисах разными методиками. Устоявшейся общепринятой формулы для расчета нет, поэтому я вывел собственную. Академическая тошнота в bez-bubna.com рассчитывается на основе количества вхождений слов, которые встречаются в тексте 2 и более раз и общего количества слов. Чем больше вхождений разных слов в текст и чем меньше его объем, тем выше академическая тошнота. Отличие от классической — в том, что добавку в итоговый показатель дает каждое слово, встретившееся более 1 раза, а не только самое частотное.
вариативность
Рассчитывается как разница между единицей и отношением «уникальные леммы/уникальные словоформы». Дополнительный слабый сигнал; на естественных текстах несколько выше, на спамных — ниже.
водность
Разница между единицей и отношением «количество слов после очистки стоп-слов/количество слов в исходном тексте». Страница, вообще не содержащая стоп-слов будет иметь водность 0, содержащая только стоп-слова — 1. Неестественные тексты под санкциями очень часто имеют повышенную водность.
ТОП-3 биграмм
Три наиболее популярные в тексте устойчивые сочетания из двух слов вместе с количеством вхождений. Эти данные нужны для нахождения самых «спамных» выражений (хотя далеко не каждое устойчивое сочетание — спам!).
ТОП-3 триграмм
Три наиболее популярные в тексте устойчивые сочетания из трех слов вместе с количеством вхождений. Аналогично.
тошнота биграмм
Для вычисления берется сумма числа вхождений трех самых частых биграмм. Сумма делится на количество слов в тексте (без учета стоп-слов и слов короче 3 букв), чтобы оценить относительную частоту. Термин «тошнота» использован для простоты, как устоявшееся обозначение.
Обычно является полезным сигналом; на спамных текстах выше.
Примечание: в сервисе для удобства показывается результат вычисления, умноженный на 100 и округленный до третьего знака после запятой.
тошнота триграмм
Аналогично тошноте биграмм. Для вычисления берется сумма числа вхождений трех самых частых биграмм. Сумма делится на количество слов в тексте (без учета стоп-слов и слов короче 3 букв), чтобы оценить относительную частоту.
Обычно является полезным сигналом; на спамных текстах выше.
Примечание: в сервисе для удобства показывается результат вычисления, умноженный на 100 и округленный до третьего знака после запятой.
индекс биграммы/униграммы
Аналогично тошноте биграмм, но количество вхождений топовых биграмм делится не на общее количество слов в тексте, а на количество вхождений слов, из которых состоят биграммы (униграмма — 1 слово).
Обычно является полезным сигналом; на спамных текстах выше.
индекс триграммы/униграммы
Аналогично индексу биграмм. По результатам исследования на большой выборке этот показатель демонстрирует максимальные отличия на «нормальных» и «спамных» текстах.
ответ сервера
Техническая информация. В норме должен быть 200. Если другой, вероятно, произошла ошибка (например, ваш сервер защищается от парсинга и подсовывает не тот текст).
тип парсинга
В соответствии с настройками сервис может либо анализировать весь html, либо пытаться вырезать значимую часть, либо следовать разметке тегами <!— bez-bubna.com —> и <!— /bez-bubna.com —>. Если по тем или иным причинам использовать второй или третий способ не удастся, будет проанализирован весь html, что и будет отражено в отчете.