Для вероятностей (пропорций или долей) суммирующих 1, семейство инкапсулирует несколько предложений относительно мер (индексов, коэффициентов и т. Д.) На этой территории. таким образом ∑ p a i [ ln ( 1 / p i ) ] bпя∑ рaя[ Ин( 1 / ря) ]б
а = 0 , б = 0 возвращает количество наблюдаемых отдельных слов, о которых проще всего думать, независимо от игнорирования различий между вероятностями. Это всегда полезно, если только в качестве контекста. В других областях это может быть количество фирм в секторе, количество видов, наблюдаемых на участке, и так далее. В общем, назовем это количеством различных предметов .
1 - Σ р 2 я 1 / Σ р 2 я к 1 / к Σ р 2 я = к ( 1 / к ) 2 = 1 / к ка = 2 , б = 0 возвращает сумму квадратов вероятностей Джини-Тьюринга-Симпсона-Херфиндаля-Гиршмана-Гринберга, также известную как частота повторения, чистота, вероятность совпадения или гомозиготность. О нем часто сообщают как о его дополнении или взаимности, иногда под другими названиями, такими как примесь или гетерозиготность. В этом контексте это вероятность того, что два слова, выбранные случайным образом, являются одинаковыми, а его дополнение вероятность того, что два слова различны. Обратная величина интерпретируется как эквивалентное число одинаково общих категорий; это иногда называют эквивалентными числами. Такое толкование можно увидеть, заметив, что одинаково общих категорий (каждая вероятность, таким образом,1 - ∑ р2я1 / ∑ р2яk1/k ) подразумевает так что обратная величина вероятности равна просто . Выбор имени, скорее всего, предаст поле, в котором вы работаете. Каждое поле уважает своих собственных предков, но я рекомендую вероятность совпадения как простую и почти самоопределяющуюся.∑p2i=k(1/k)2=1/kk
a=1,b=1 возвращает энтропию Шеннона, часто обозначаемую и уже сообщенную прямо или косвенно в предыдущих ответах. Название энтропии застряло здесь, по смеси превосходных и не очень веских причин, даже изредка зависти физики. Обратите внимание, что является числами, эквивалентными для этой меры, как видно из заметки в аналогичном стиле, что одинаково общих категорий дают и, следовательно, exp ( H ) = exp ( ln k ) возвращает вам k . Энтропия имеет много великолепных свойств; «Теория информации» является хорошим поисковым термином.Hexp(H)kH=∑k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)k
Формулировка находится в IJ Good. 1953. Популяционные частоты видов и оценка популяционных параметров. Биометрика 40: 237-264.
www.jstor.org/stable/2333344 .
Другие основания для логарифма (например, 10 или 2) в равной степени возможны в зависимости от вкуса, прецедента или удобства, с простыми вариациями, подразумеваемыми для некоторых формул выше.
Независимые повторные открытия (или переосмысления) второй меры разнообразны по нескольким дисциплинам, и приведенные выше имена далеки от полного списка.
Связывание общих мер в семье не просто математически привлекательно. Он подчеркивает, что существует выбор меры в зависимости от относительных весов, применяемых к дефицитным и обычным предметам, и, таким образом, уменьшает любое впечатление от пристрастия, создаваемого небольшим количеством явно произвольных предложений. Литература в некоторых областях ослаблена бумагами и даже книгами, основанными на незначительных утверждениях, что некоторая мера, одобренная автором (ами), является лучшей мерой, которую должен использовать каждый.
Мои расчеты показывают, что примеры A и B ничем не отличаются, за исключением первой меры:
----------------------------------------------------------------------
| Shannon H exp(H) Simpson 1/Simpson #items
----------+-----------------------------------------------------------
A | 0.656 1.927 0.643 1.556 14
B | 0.684 1.981 0.630 1.588 9
----------------------------------------------------------------------
(Некоторым может быть интересно отметить, что Симпсон, названный здесь (Эдвард Хью Симпсон, 1922), является тем же, что удостоен парадокса имени Симпсона. Он проделал отличную работу, но он не был первым, кто обнаружил что-то, для чего он назван, что в свою очередь является парадоксом Стиглера, который в свою очередь ....)
Я не знаю, есть ли общий способ сделать это, но это выглядит для меня аналогично вопросам неравенства в экономике. Если вы относитесь к каждому слову как к отдельному человеку и его количество сопоставимо с доходом, вам будет интересно сравнить, где мешок слов находится между крайностями каждого слова, имеющего одинаковое количество (полное равенство), или одним словом, имеющим все значения. а все остальные ноль. Сложность в том, что "нули" не отображаются, вы не можете иметь меньше, чем 1 в сумме слов, как обычно определяется ...
Коэффициент Джини для A равен 0,18, а для B - 0,43, что показывает, что A более «равен», чем B.
Меня интересуют и другие ответы. Очевидно, что старомодная дисперсия в подсчетах также будет отправной точкой, но вам придется как-то масштабировать ее, чтобы сделать ее сопоставимой для сумок разных размеров и, следовательно, разных средних значений в слове.
источник
В этой статье представлен обзор стандартных мер дисперсии, используемых лингвистами. Они перечислены как показатели дисперсии одного слова (они измеряют дисперсию слов по разделам, страницам и т. Д.), Но их можно использовать в качестве показателей дисперсии частоты слов. Стандартными статистическими являются:
Классика это:
В тексте также упоминаются еще две меры дисперсии, но они полагаются на пространственное расположение слов, так что это неприменимо к модели мешка слов.
источник
Первое, что я хотел бы сделать, это вычислить энтропию Шеннона. Вы можете использовать пакет R
infotheo
, функциюentropy(X, method="emp")
. Если вы обернетесьnatstobits(H)
вокруг него, вы получите энтропию этого источника в битах.источник
источник