Я знаю, что для каждой пары классов пространственных объектов значение статистики хи-квадрат вычисляется и сравнивается с пороговым значением.
Я немного смущен, хотя. Если имеется объектов и классов, как построить таблицу сопряженности? Как решить, какие функции оставить, а какие удалить?
Любое разъяснение будет высоко ценится. заранее спасибо
chi-squared
feature-selection
user721975
источник
источник
Ответы:
Критерий хи-квадрат является статистическим тестом независимости для определения зависимости двух переменных. Он имеет сходство с коэффициентом детерминации, R². Однако критерий хи-квадрат применим только к категориальным или номинальным данным, в то время как R² применим только к числовым данным.
Из определения хи-квадрат мы можем легко вывести применение техники хи-квадрат при выборе признаков. Предположим, у вас есть целевая переменная (т. Е. Метка класса) и некоторые другие функции (переменные функции), которые описывают каждую выборку данных. Теперь мы вычисляем статистику хи-квадрат между каждой переменной объекта и целевой переменной и наблюдаем наличие связи между переменными и целью. Если целевая переменная не зависит от переменной функции, мы можем отбросить эту переменную функции. Если они зависимы, переменная функции очень важна.
Математические детали описаны здесь: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
Для непрерывных переменных, хи-квадрат может быть применен после «Binning» переменных.
Пример в R, беспардонно скопирован с FSelector
Не имеет отношения к выбору функций, но в видео ниже подробно обсуждается chisquare https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8
источник