Текст включает в себя слова и фразы, определяющие смысл текста, - так называемое семантическое ядро. Семантический анализ выявляет ядро и оценивает, насколько точно и эффективно по смыслу сочетаются с ним и между собой все остальные слова.
На картинке представление о ядре
Статистические показатели анализа учитывают основные показатели:
- тошнота ключевых слов, показывает, как часто встречаются слова из ядра, их должно быть не больше 6% от общего количества слов;
- Стоп-слова, не несущие смысла (местоимения, предлоги), так называемая вода, в разных программах приемлемым максимумом воды считаются показатели от 40% до 65%.
Еще есть целый ряд дополнительных показателей, в том числе интересный для пишущих – заспамленность (повторяющиеся слова). Окончательный результат анализа выдается в цифрах. Семантика учитывает смысловое содержание текста. Есть формула, по которой количество семантической меры информации равно произведению коэффициента содержательности информации и объема данных, I = CV.
Известно, что любое число, умноженное на ноль, дает в результате ноль. Семантическая мера может стать семантическим нулем, если содержательность (С) будет равна нулю. Такое бывает в двух случаях. Первый – текст непонятен и не воспринимается читающим. Надо также учесть, что восприятие зависит от возраста, образования, ума, традиций и других факторов. Например, для меня научная статья с непонятными терминами представляет абсолютный семантический ноль – текст с нулевым содержанием и лишенный всякого смысла. Но для ученого в данной области это полезная статья.
Второй случай, когда текст содержит то, что мне уже известно. Поэтому он не интересен и не нужен мне. Программа, проверяющая текст на уникальность, считает полностью скопированный текст лишенным содержательности и смысла и выдает результат 0% уникальности.
В заключение слова поэта Давида Самойлова: