Как именно работает выбор элемента хи-квадрат?

15

Я знаю, что для каждой пары классов пространственных объектов значение статистики хи-квадрат вычисляется и сравнивается с пороговым значением.

Я немного смущен, хотя. Если имеется объектов и классов, как построить таблицу сопряженности? Как решить, какие функции оставить, а какие удалить?мК

Любое разъяснение будет высоко ценится. заранее спасибо

user721975
источник
1
Любые мысли / указатели на это кого-нибудь?
user721975

Ответы:

5

Критерий хи-квадрат является статистическим тестом независимости для определения зависимости двух переменных. Он имеет сходство с коэффициентом детерминации, R². Однако критерий хи-квадрат применим только к категориальным или номинальным данным, в то время как R² применим только к числовым данным.

Из определения хи-квадрат мы можем легко вывести применение техники хи-квадрат при выборе признаков. Предположим, у вас есть целевая переменная (т. Е. Метка класса) и некоторые другие функции (переменные функции), которые описывают каждую выборку данных. Теперь мы вычисляем статистику хи-квадрат между каждой переменной объекта и целевой переменной и наблюдаем наличие связи между переменными и целью. Если целевая переменная не зависит от переменной функции, мы можем отбросить эту переменную функции. Если они зависимы, переменная функции очень важна.

Математические детали описаны здесь: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html

Для непрерывных переменных, хи-квадрат может быть применен после «Binning» переменных.

Пример в R, беспардонно скопирован с FSelector

# Use HouseVotes84 data from  mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)

#Calculate the chi square statistics 
weights<- chi.squared(Class~., HouseVotes84)

# Print the results 
print(weights)

# Select top five variables
subset<- cutoff.k(weights, 5)

# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)

Не имеет отношения к выбору функций, но в видео ниже подробно обсуждается chisquare https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8

Discipulus
источник