Предыдущая Следующая
ЗАКОН СЛОВАРНОЙ ЧАСТОТНОСТИ ЦИПФА
Слово есть не что иное, как последовательность «правильных» букв, заканчивающаяся «неправильной» буквой, называемой пробелом. Возьмем образец речи некого индивидуума и расположим в ряд содержащиеся в этом образце слова по следующему принципу: на первое место
476
Разное о XI
поставим слово, встретившееся в тексте наибольшее количество раз, далее — второе по частоте употребления и т. д., причем слова с одинаковой частотой будем располагать в произвольном порядке. В такой классификации р обозначает порядковый номер (ранг) слова, встречающегося в речи с вероятностью Р, а термин распределение частотности слов описывает соотношение между р и Р.
Можно ожидать, что это соотношение подвержено самым беспорядочным изменениям, находящимся в зависимости от языка и индивидуальных особенностей оратора, однако в действительности это не так. Эмпирический закон, обнаруженный Ципфом [615] (о Дж. К. Ципфе смотрите очерк в главе 40), гласит, что соотношение между р и Р «универсально», т. е. независимо от параметров, и имеет следующий вид:
Р ос 1/р.
А во втором приближении, которое я получил теоретически (тщетно пытаясь теоретически же вывести беспараметрический закон Р ос 1/р), все различия между языками и индивидуумами свелись к выражению
Р = Р(р + У)-1/в.
Поскольку "^2 Р = 1, параметры И, _Р и V оказываются связаны соотношением р-1 = ^2(р + V)-1/0.
В совокупности эти параметры служат мерой того, насколько богат словарный запас данного индивидуума.
Основным параметром является показатель И. Представляется разумным измерять богатство словарного запаса через относительную частоту использования субъектом редких слов: взяв, например, в качестве эталона частоту слова ранга р = 1 ООО, а не слова ранга р = 10. Эта относительная частота возрастает при увеличении И.
Почему вышеописанному закону присуща такая универсальность? Учитывая, что он почти идеально гиперболичен, и принимая во внимание все то, что мы уже успели узнать из настоящего эссе, в высшей степени разумным будет попробовать соотнести закон Ципфа с неким лежащим в его основе скейлинговым свойством. (В 1950 г., когда я впервые столкнулся с этой задачей, такая процедура вовсе не казалась столь очевидной.) Как можно заключить из обозначения, показатель здесь играет свою обычную роль — роль размерности. Вторым параметром является префактор Р (см. главу 34). Предыдущая Следующая
|