Я изучаю деревья классификации и регрессии, и одним из показателей местоположения разделения является оценка GINI.
Теперь я привык определять лучшее место разделения, когда логарифм отношения правдоподобия одних и тех же данных между двумя распределениями равен нулю, что означает, что вероятность членства одинаково вероятна.
Моя интуиция говорит, что должна быть какая-то связь, что у GINI должна быть хорошая основа в математической теории информации (Шеннон), но я недостаточно хорошо понимаю GINI, чтобы вывести отношения самостоятельно.
Вопросов:
- Что является «первопринципным» выводом примесного показателя GINI в качестве меры для расщепления?
- Как оценка GINI связана с логарифмическим отношением правдоподобия или другими теоретико-информационными принципами (энтропия Шеннона, pdf и перекрестная энтропия являются частью этих данных)?
Ссылки:
- Как определяется Весовой критерий Джини?
- Математика за деревьями классификации и регрессии
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(добавлено) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
Энтропия Шеннона описывается как:
Расширяя это до многомерного случая, мы получаем:
Условная энтропия определяется следующим образом:
Журнал отношения правдоподобий используется для обнаружения резких изменений и выводится с их использованием. (У меня нет деривации передо мной.)
Джини Примеси:
- Общая форма примеси GINI:
Мысли:
- Расщепление производится по мере загрязнения. Высокая "чистота", вероятно, такая же, как низкая энтропия. Подход, вероятно, связан с минимизацией энтропии.
- Вполне вероятно, что предполагаемое базисное распределение является равномерным или, возможно, с помахиванием рукой, гауссовским. Они, вероятно, делают смесь распределений.
- Интересно, можно ли здесь применить вывод из диаграммы Шухарта?
- Примесь GINI выглядит как интеграл от функции плотности вероятности для биномиального распределения с 2 испытаниями и одним успехом.
(Дополнительный)
- Форма также согласуется с бета-биномиальным распределением, которое является сопряженным предшествованием для гипергеометрического распределения. Гипергеометрические тесты часто используются для определения того, какие образцы больше или меньше представлены в образце. Существует также связь с точным тестом Фишера, что бы это ни было (обратите внимание на себя, иди узнай больше об этом).
Редактировать: Я подозреваю, что есть форма GINI, которая очень хорошо работает с цифровой логикой и / или RB-деревьями. Я надеюсь изучить это в классном проекте этой осенью.
источник
Ответы:
Я буду использовать те же обозначения, что и здесь: математика за деревьями классификации и регрессии
Gini Gain и Information Gain ( ) являются критериями разделения на основе примесей. Единственное отличие заключается в примесной функции :Яяграмм я
Они на самом деле являются частными значениями более общей меры энтропии (энтропии Цаллиса), параметризованной в :β
Логарифмическая правдоподобие, также называемое -statistic, представляет собой линейное преобразование информационного усиления:грамм
В зависимости от сообщества (статистика / сбор данных) люди предпочитают один или другой показатель (связанный вопрос здесь ). Они могут быть в значительной степени эквивалентны в процессе индукции дерева решений. Логарифмическая правдоподобность может дать более высокие баллы сбалансированным разделам, хотя существует много классов [Техническое примечание: некоторые свойства критериев разделения. Брейман, 1996].
Gini Gain может быть лучше, потому что у него нет логарифмов, и вы можете найти закрытую форму для ее ожидаемого значения и дисперсии при предположении случайного разделения [Alin Dobra, Johannes Gehrke: Исправление смещения в построении дерева классификации. ICML 2001: 90-97]. Для получения информации это не так просто (если вам интересно, смотрите здесь ).
источник
Хороший вопрос. К сожалению, у меня пока недостаточно репутации, чтобы высказываться или комментировать, поэтому отвечаю вместо этого!
Я не очень знаком с тестом отношения, но мне кажется, что это формализм, используемый для сравнения вероятности данных, возникающих из двух (или более) различных распределений, тогда как коэффициент Джини является суммарной статистикой одного распределения.
Полезный способ представить коэффициент Джини (IMO) - это площадь под кривой Лоренца (связана с cdf).
Может быть возможно приравнять энтропию Шеннона к Джини, используя определение энтропии, данное в ОП:
и определение Джини:
Это не выглядит легкой задачей, хотя!
источник