Что такое недоумение?

42

Я столкнулся с недоумением термина, который относится к усредненной по логарифму обратной вероятности на невидимых данных. Статья Википедии о недоумении не дает интуитивное значение для того же.

Эта мера недоумения использовалась в статье pLSA .

Кто-нибудь может объяснить необходимость и интуитивное значение меры недоумения ?

ученик
источник
Как рассчитать растерянность для pLSA. У меня есть матрица данных которая имеет счетчик и по алгоритму ТЕА вычисляются и . p ( d ) p ( w | d )Xp(d)p(w|d)
Учащийся
3
Я проверил индексы 5 книг по интеллектуальному анализу данных / машинному обучению / прогнозной аналитике Нисбетта, Лароза, Виттена, Торго и Шемуэли (плюс соавторы), и этот термин не встречается ни в одной из них. Я в недоумении :)
zbicyclist
1
Недоумение - еще одно причудливое название для неопределенности. Это можно рассматривать как внутреннюю оценку против внешней оценки. Ян Юрафски изящно объясняет это примерами в соответствии с языковым моделированием здесь, на youtube.com/watch?v=BAN3NB_SNHY
bicepjai
2
@zbicyclist, если вы ищете примеры в дикой природе, это особенно распространено в NLP, и особенно для оценки таких вещей, как языковые модели.
Мэтт Краузе
В некоторых областях (например, в экономике) люди говорят об эквивалентных числах, так что, например, где - энтропия, основанная на натуральных логарифмах, - эквивалентное число одинаково общих категорий. Таким образом, две категории с вероятностью 0,5 дают энтропию а возведение в степень возвращает 2 как число одинаково общих категорий. Для неравных вероятностей эквивалент чисел обычно не является целым числом. H ln 2exp(H)Hln2
Ник Кокс

Ответы:

21

Вы смотрели статью Wikipedia о недоумении . Это дает недоумение дискретного распределения как

2-ΣИксп(Икс)журнал2п(Икс)

который также может быть записан как

ехр(ΣИксп(Икс)журнале1п(Икс))

т.е. как средневзвешенное геометрическое из обратных вероятностей. Для непрерывного распределения сумма превратится в интеграл.

В статье также дается способ оценки растерянности модели с использованием фрагментов тестовых данных.N

2-Σязнак равно1N1Nжурнал2Q(Икся)

что также может быть написано

ехр(Σязнак равно1Nжурнале(1Q(Икся))N) или Πязнак равно1N1Q(Икся)N

или множеством других способов, и это должно сделать еще более ясным, откуда взялась «средняя логарифмическая обратная вероятность».

Генри
источник
Есть ли какое-то конкретное различие между тем, когда е используется в качестве показателя степени, а не 2?
Генри Э
2
@HenryE: нет, и обычная логарифмическая основа тоже будет работать - логарифмы в разных базисах пропорциональны друг другу и явно10aжурналaИксзнак равнобжурналбИкс
Генри
Я понял, как много. Я столкнулся с этим ответом, когда пытался понять, почему часть кода использует e для вычисления недоумения, когда все другие формулировки, которые я раньше видел, использовали 2. Теперь я понимаю, как важно знать, какое значение имеет структура использует в качестве базы для расчета потерь в журнале
Генри Э
27

Я нашел это довольно интуитивным:

Недоумение того, что вы оцениваете, по данным, по которым вы его оцениваете, как бы говорит вам: «эта вещь правильна так же часто, как и кубик с двусторонней стороны».

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/

pandasEverywhere
источник
Это интересная статья; возможно не так глубоко, но хорошее начальное чтение.
Моника Хедднек,
1
Я также нашел эту статью полезной, jamesmccaffrey.wordpress.com/2016/08/16/…
user2561747
11

Я тоже удивился этому. Первое объяснение неплохое, но вот мои 2 натса для чего бы то ни было.


Прежде всего, недоумение не имеет ничего общего с характеристикой того, как часто вы угадываете что-то правильно. Это больше связано с характеристикой сложности стохастической последовательности.

Мы смотрим на величину,

2-ΣИксп(Икс)журнал2п(Икс)

Давайте сначала отменим журнал и возведение в степень.

2-ΣИксп(Икс)журнал2п(Икс)знак равно1ΠИксп(Икс)п(Икс)

Я думаю, что стоит отметить, что недоумение инвариантно с базой, которую вы используете для определения энтропии. Таким образом, в этом смысле недоумение бесконечно более уникально / менее произвольно, чем энтропия как измерение.

Отношение к кости

11212×1212знак равно2

N

1(1N1N)Nзнак равноN

Таким образом, недоумение представляет количество сторон справедливого кубика, которое при броске создает последовательность с той же энтропией, что и заданное вами распределение вероятностей.

Количество штатов

NN+1NεNN+1εNИкспИксN

пИкс'знак равнопИкс(1-ε)

1εεΠИксNпИкс'пИкс'знак равно1εεΠИксN(пИкс(1-ε))пИкс(1-ε)знак равно1εεΠИксNпИкспИкс(1-ε)(1-ε)пИкс(1-ε)знак равно1εε(1-ε)(1-ε)ΠИксNпИкспИкс(1-ε)

ε0

1ΠИксNпИкспИкс

Таким образом, когда вы заставляете делать прокатку одной стороны матрицы все более маловероятной, недоумение заканчивается тем, что эта сторона не существует.

Алекс Эфтимиадес
источник
3
Конечно, это стоит всего ~ 1,39 нац?
Мэтт Краузе
ΠИксNпИкс'пИкс'знак равно(1-ε)1-εΠИксNпИкспИкс(1-ε)
ΠИксNпИкс'пИкс'знак равноΠИксN(пИкс(1-ε))пИкс(1-ε)знак равноΠИксN(1-ε)пИкс(1-ε)ΠИксNпИкспИкс(1-ε)
\ prod_x ^ N \ left {(1- \ epsilon \ right)} ^ {p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ sum_x ^ N p_x \ left (1- \ epsilon \ right)} = {\ left (1- \ epsilon \ right)} ^ {\ left (1- \ epsilon \ right) \ sum_x ^ N p_x} = {\ left (1- \ эпсилон \ справа)} ^ {\ влево (1- \ эпсилон \ справа)}
5

ИксИкс'

п(Иксзнак равноИкс')2-ЧАС(Икс)знак равно12ЧАС(Икс)знак равно1растерянность

Чтобы объяснить, недоумение равномерного распределения X это просто | X |, количество элементов. Если мы попытаемся угадать значения, которые получат iid-образцы из равномерного распределения X, просто сделав iid-догадки из X, мы будем правы 1 / | X | = 1 / недоумение времени. Поскольку равномерное распределение сложнее всего угадать значения, мы можем использовать 1 / недоумение как нижнюю границу / эвристическое приближение для того, как часто наши догадки будут правильными.

user49404
источник