Здесь я спрашиваю о том, что обычно делают другие, чтобы использовать критерий хи-квадрат для выбора функции по результатам в контролируемом обучении. Если я правильно понимаю, проверяют ли они независимость между каждой функцией и результатом и сравнивают значения p между тестами для каждой функции?
В http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Критерий хи-квадрат Пирсона - это статистический тест, применяемый к наборам категориальных данных для оценки вероятности того, что любое наблюдаемое различие между наборами возникло случайно.
...
Тест на независимость оценивает, являются ли парные наблюдения по двум переменным, выраженным в таблице непредвиденных обстоятельств , независимыми друг от друга (например, опрос ответов от людей разных национальностей, чтобы определить, связана ли национальность с ответом).
Таким образом, две переменные, независимость которых проверяется тестом, должны быть категориальными или дискретными (допускающими упорядоченные, кроме категориальных), но не непрерывными?
С http://scikit-learn.org/stable/modules/feature_selection.html они
выполните тест для набора данных iris, чтобы получить только две лучшие функции.
В наборе данных радужной оболочки все объекты имеют числовую и непрерывную оценку, и в результате получаются метки классов (категориальные). Как критерий независимости хи-квадрат применяется к непрерывным функциям?
Чтобы применить критерий независимости хи-квадрат к набору данных, нужно ли сначала преобразовать непрерывные объекты в дискретные объекты путем объединения (т. Е. Сначала дискретизировать непрерывные домены объектов в ячейки, а затем заменить объекты на вхождения значений объектов в ячейках). )?
Вхождения в нескольких ячейках образуют многочленовую особенность (встречаются или не присутствуют в каждой ячейке), поэтому к ним может применяться критерий независимости по критерию хи-квадрат.
Между прочим, мы можем применить тест независимости хи-квадрат к функциям и результатам любого рода , верно?
Для конечной части мы можем выбрать признаки не только для классификации, но и для регрессии, с помощью теста независимости хи-квадрат, путем объединения непрерывного результата, верно?
Сайт обучения Scikit также говорит
Вычислить хи-квадрат статистику между каждым неотрицательным признаком и классом.
Эта оценка может использоваться для выбора функций n_features с наивысшими значениями для тестовой статистики хи-квадрат от X, которая должна содержать только неотрицательные признаки, такие как логические значения или частоты (например, подсчет терминов в классификации документов), относительно классы.
Почему тест требует неотрицательных функций?
Если функции не имеют признаков, но являются категориальными или дискретными, может ли тест по-прежнему применяться к ним? (См. Мою часть 1)
Если функции отрицательны, мы всегда можем связать их домены и заменить их на их вхождения (точно так же, как я предполагаю для применения теста к набору данных iris, см. Часть 2), верно?
Примечание: я предполагаю, что Scikit Learn следует общим принципам, и это то, что я прошу здесь. Если нет, то все еще в порядке.