Этот вопрос меня давно озадачил. Я понимаю использование 'log' в максимизации вероятности, поэтому я не спрашиваю о 'log'.
Мой вопрос таков: поскольку максимизация логарифмической вероятности эквивалентна минимизации «отрицательной логарифмической вероятности» (NLL), почему мы изобрели эту NLL? Почему бы нам не использовать «положительную вероятность» все время? При каких обстоятельствах предпочтение отдается NLL?
Я нашел небольшое объяснение здесь. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , и это, кажется, объясняет очевидную эквивалентность в глубине, но не решает мою путаницу.
Любое объяснение будет оценено.
Ответы:
Это альтернативный ответ: оптимизаторы в статистических пакетах обычно работают путем минимизации результата функции. Если ваша функция сначала выдает значение правдоподобия, удобнее использовать логарифм, чтобы уменьшить значение, возвращаемое функцией правдоподобия. Затем, поскольку функции правдоподобия и правдоподобия имеют одинаковую тенденцию к увеличению или уменьшению, можно минимизировать отрицательный логарифмический правдоподобие, чтобы фактически выполнить оценку максимального правдоподобия тестируемой функции. Смотрите, например,
nlminb
функцию в R здесьисточник
Оптимизаторы обычно минимизируют функцию, поэтому мы используем отрицательную логарифмическую вероятность как минимизацию, что эквивалентно максимизации логарифмической вероятности или самой вероятности.
Просто для полноты я бы упомянул, что логарифм является монотонной функцией, поэтому оптимизация функции - это то же самое, что оптимизация ее логарифма. Выполнение лог-преобразования функции правдоподобия облегчает обработку (умножение становится суммой), и это также численно более стабильно. Это потому, что величина вероятности может быть очень мала. Выполнение преобразования журнала преобразует эти небольшие числа в большие отрицательные значения, с которыми машина конечной точности может справиться лучше.
источник
Здесь минимизирующие средства уменьшают расстояние двух распределений до самого низкого: целевого распределения Бернулли и распределения генерируемого результата. Мы измеряем расстояние двух распределений, используя дивергенцию Кульбака-Лейблера (также называемую относительной энтропией), и благодаря теории большого числа минимизация KL-расхождения сводится к минимизации кросс-энтропии (либо кросс-энтропия мультикласса, см. Здесь, либо двоичная классификация, см. Здесь и здесь )
таким образом
можно перевести на
Максимизация логарифмической вероятности эквивалентна минимизации расстояния между двумя распределениями, следовательно, эквивалентна минимизации расхождения KL, а затем перекрестной энтропии.
Я думаю, что это стало довольно интуитивным.
источник
Ответ проще, чем вы думаете. Это соглашение, что мы называем целевую функцию оптимизации «функцией затрат» или «функцией потерь», и поэтому мы хотим минимизировать их, а не максимизировать их, и, следовательно, формируется отрицательная логарифмическая вероятность, а не положительная вероятность в вашем слово. Технически оба верны, хотя. Кстати, если мы хотим что-то максимизировать, мы обычно называем это «функцией полезности» и, следовательно, цель - максимизировать их.
источник