Лиза-Лена 07.08.2019 13:36Последнее время один автор стабильно в ТЗ выкладывает ссылку на сайт http://1y.ru/text.php по проверке распределения слов по закону Ципфа. Трудно возразить, если бы не одно НО. Закон Ципфа в той форме, что вбита на сайте, справедлив ТОЛЬКО для английского языка, на котором он Ципфом и был открыт. Последующие проверки показали, что ни на каком другом языке синтетического строя (русский, турецкий) он не выполняется, справедлив только для языков аналитического строя, к каковым английский и относится.
Но подкупает цельность требований - никакого упоминания о тошнотности текста или частоте слова (как известно, тошнотность ограничивают 9%, слово 3%, самые въедливые заки считают, что 6% лучше 9%, а 2% лучше 3%, но это от ихней необразованности).
Дело в том, что закон Ципфа требует частоты слова 10% и баста, и это соблюдается в английском, поскольку есть артикли. А вот в русском первые 2 слова куда-то проваливаются, поскольку язык сохранил древний строй, в отличие от быстро менявшегося английского, и самым первым оказывается как-бы третье, отсюда его частота 10%/3 = 3,3%, что и дает пресловутые 3%.
Да и давно закон Цифа уже назван законом Ципфа-Мандельброта (тот самый Мандельброт, который изобрел фракталы), который уже годится для всех языков, с поправкой которая для русского языка = 2 (что и означает, что 1-е слдово идет как 3-е, 2-е как 4-е и т.д.). Но кто из заков про то знает? И где пруф, что гугл, а уж тем более русский яндекс всерьез проверяет текст на закон Ципфа? Любой естественный текст отвечает этому закону с поправкой Мандельброта по определению, чтобы написать текст, этому закону не соответствующий, придется сильно извратиться. Пушкин или Толстой ведь не знали закона Ц-М, но их тексты этому закону строго соотвествуют.
А чтобы русский текст стал соответствовать требованиям ЗЦ согласно ТЗ, приходится искусственно уменьшать частоты всех 19 слов, следующих за 1-м, притом четко прописывают, какое слово сколько раз употребить. Что тоже бред - стоит снизить частоту одного слова, как вылезают частоты следующих слов, и т.д., нельзя же изменить природу языка.
Разве что придумать 2 недостающих слова и вставить их в текст, придав одному частоту 10%, а другому 5%, тогда самое частое слово реального текста окажется третьим, и все будет ОК. Но с этими 2 словами русский язык перестанет быть русским.