Как рассчитываются и что означают параметры в анализе текстов?

На данный момент отчет содержит следующие параметры:

слов всего

Общее количество слов в анализируемом фрагменте.

стоп-слов

Количество малозначимых, встречающихся в большинстве текстов слов. Например, к стоп-словам относятся: «было, всего, еще, как, когда, который, самый». Стоп-слова используются и в дальнейшем анализе, при расчете многих других показателей.

Важно: разные сервисы используют свои списки стоп-слов, что приводит к расхождениям. Список bez-bubna.com составлен на основе дополнения нескольких публичных списков. Именно он использовался в исследовании алгоритма Баден-Баден.

Вопрос: можно ли получить список стоп-слов сервиса?

Ответ: нельзя, потому что это конкурентное преимущество сервиса. Список был протестирован в детальных исследованиях переоптимизированных текстов и доказал свою эффективность, именно с его помощью рассчитаны пороги попадания под фильтр. Это важная часть алгоритма, отдавать (и даже продавать) ее конкурентам нет никакого смысла.

уникальных словоформ

Для определения количества словоформ фильтруются все повторы слова в конкретной форме. Например, в строке «В лесу родилась елочка, в лесу она росла… срубил он нашу елочку» отфильтруется «лесу», а «елочка» и «елочку» нет.

уникальных лемм

Аналогично предыдущему — перед подсчетом текст лемматизируется, то есть слова приводятся к начальной форме. Если рассмотреть предыдущий пример, то «елочка» и «елочку» будут сводиться к одной и той же лемме.

классическая тошнота

Квадратный корень из количества вхождений самого частого слова. По всей видимости, не является самостоятельным полезным сигналом.

академическая тошнота

Также не является самостоятельным полезным сигналом.

Важно: академическая тошнота рассчитывается в разных сервисах разными методиками. Устоявшейся общепринятой формулы для расчета нет, поэтому я вывел собственную. Академическая тошнота в bez-bubna.com рассчитывается на основе количества вхождений слов, которые встречаются в тексте 2 и более раз и общего количества слов. Чем больше вхождений разных слов в текст и чем меньше его объем, тем выше академическая тошнота. Отличие от классической — в том, что добавку в итоговый показатель дает каждое слово, встретившееся более 1 раза, а не только самое частотное.

вариативность

Рассчитывается как разница между единицей и отношением «уникальные леммы/уникальные словоформы». Дополнительный слабый сигнал; на естественных текстах несколько выше, на спамных — ниже.

водность

Разница между единицей и отношением «количество слов после очистки стоп-слов/количество слов в исходном тексте». Страница, вообще не содержащая стоп-слов будет иметь водность 0, содержащая только стоп-слова — 1. Неестественные тексты под санкциями очень часто имеют повышенную водность.

ТОП-3 биграмм

Три наиболее популярные в тексте устойчивые сочетания из двух слов вместе с количеством вхождений. Эти данные нужны для нахождения самых «спамных» выражений (хотя далеко не каждое устойчивое сочетание — спам!).

ТОП-3 триграмм

Три наиболее популярные в тексте устойчивые сочетания из трех слов вместе с количеством вхождений. Аналогично.

тошнота биграмм

Для вычисления берется сумма числа вхождений трех самых частых биграмм. Сумма делится на количество слов в тексте (без учета стоп-слов и слов короче 3 букв), чтобы оценить относительную частоту. Термин «тошнота» использован для простоты, как устоявшееся обозначение.

Обычно является полезным сигналом; на спамных текстах выше.

Примечание: в сервисе для удобства показывается результат вычисления, умноженный на 100 и округленный до третьего знака после запятой.

тошнота триграмм

Аналогично тошноте биграмм. Для вычисления берется сумма числа вхождений трех самых частых биграмм. Сумма делится на количество слов в тексте (без учета стоп-слов и слов короче 3 букв), чтобы оценить относительную частоту.

Обычно является полезным сигналом; на спамных текстах выше.

индекс биграммы/униграммы

Аналогично тошноте биграмм, но количество вхождений топовых биграмм делится не на общее количество слов в тексте, а на количество вхождений слов, из которых состоят биграммы (униграмма — 1 слово).

Обычно является полезным сигналом; на спамных текстах выше.

индекс триграммы/униграммы

Аналогично индексу биграмм. По результатам исследования на большой выборке этот показатель демонстрирует максимальные отличия на «нормальных» и «спамных» текстах.

ответ сервера

Техническая информация. В норме должен быть 200. Если другой, вероятно, произошла ошибка (например, ваш сервер защищается от парсинга и подсовывает не тот текст).

тип парсинга

В соответствии с настройками сервис может либо анализировать весь html, либо пытаться вырезать значимую часть, либо следовать разметке тегами <!— bez-bubna.com —> и <!— /bez-bubna.com —>. Если по тем или иным причинам использовать второй или третий способ не удастся, будет проанализирован весь html, что и будет отражено в отчете.