Для какого типа выбора можно использовать критерий хи-квадрат?

11
  1. Здесь я спрашиваю о том, что обычно делают другие, чтобы использовать критерий хи-квадрат для выбора функции по результатам в контролируемом обучении. Если я правильно понимаю, проверяют ли они независимость между каждой функцией и результатом и сравнивают значения p между тестами для каждой функции?

  2. В http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

    Критерий хи-квадрат Пирсона - это статистический тест, применяемый к наборам категориальных данных для оценки вероятности того, что любое наблюдаемое различие между наборами возникло случайно.

    ...

    Тест на независимость оценивает, являются ли парные наблюдения по двум переменным, выраженным в таблице непредвиденных обстоятельств , независимыми друг от друга (например, опрос ответов от людей разных национальностей, чтобы определить, связана ли национальность с ответом).

    Таким образом, две переменные, независимость которых проверяется тестом, должны быть категориальными или дискретными (допускающими упорядоченные, кроме категориальных), но не непрерывными?

  3. С http://scikit-learn.org/stable/modules/feature_selection.html они

    выполните тест для набора данных iris, чтобы получить только две лучшие функции.χ2

    В наборе данных радужной оболочки все объекты имеют числовую и непрерывную оценку, и в результате получаются метки классов (категориальные). Как критерий независимости хи-квадрат применяется к непрерывным функциям?

    Чтобы применить критерий независимости хи-квадрат к набору данных, нужно ли сначала преобразовать непрерывные объекты в дискретные объекты путем объединения (т. Е. Сначала дискретизировать непрерывные домены объектов в ячейки, а затем заменить объекты на вхождения значений объектов в ячейках). )?

    Вхождения в нескольких ячейках образуют многочленовую особенность (встречаются или не присутствуют в каждой ячейке), поэтому к ним может применяться критерий независимости по критерию хи-квадрат.

    Между прочим, мы можем применить тест независимости хи-квадрат к функциям и результатам любого рода , верно?

    Для конечной части мы можем выбрать признаки не только для классификации, но и для регрессии, с помощью теста независимости хи-квадрат, путем объединения непрерывного результата, верно?

  4. Сайт обучения Scikit также говорит

    Вычислить хи-квадрат статистику между каждым неотрицательным признаком и классом.

    Эта оценка может использоваться для выбора функций n_features с наивысшими значениями для тестовой статистики хи-квадрат от X, которая должна содержать только неотрицательные признаки, такие как логические значения или частоты (например, подсчет терминов в классификации документов), относительно классы.

    Почему тест требует неотрицательных функций?

    Если функции не имеют признаков, но являются категориальными или дискретными, может ли тест по-прежнему применяться к ним? (См. Мою часть 1)

    Если функции отрицательны, мы всегда можем связать их домены и заменить их на их вхождения (точно так же, как я предполагаю для применения теста к набору данных iris, см. Часть 2), верно?

Примечание: я предполагаю, что Scikit Learn следует общим принципам, и это то, что я прошу здесь. Если нет, то все еще в порядке.

Тим
источник

Ответы:

2

Я думаю, что часть вашей путаницы связана с тем, какие типы переменных может сравнивать хи-квадрат. Википедия говорит об этом следующее:

Он проверяет нулевую гипотезу, утверждающую, что распределение частоты определенных событий, наблюдаемых в выборке, согласуется с конкретным теоретическим распределением.

Таким образом, он сравнивает частотные распределения , также известные как отсчеты, также известные как неотрицательные числа. Различные частотные распределения определяются категориальной переменной; т. е. для каждого из значений категориальной переменной должно быть распределение частот, которое можно сравнить с другими.

Есть несколько способов получить распределение частот. Это может быть из второй категориальной переменной, в которой сосуществования с первой категориальной переменной подсчитываются для получения дискретного частотного распределения. Другой вариант - использовать (несколько) числовую переменную для различных значений категориальной переменной, она может (например) суммировать значения числовой переменной. На самом деле, если категориальные переменные преобразованы в двоичную форму, первая является конкретной версией поздней.

пример

В качестве примера рассмотрим эти наборы переменных:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Эти категориальные переменные xи yможно сравнить путем подсчета сопутствующих мест где , и это то , что происходит с помощью теста хи-квадрат:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

Тем не менее, вы также можете преобразовать в двоичную форму значения 'x' и получить следующие переменные:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Подсчет значений теперь равен суммированию значений, соответствующих значению z.

                 x1    x2
'wild'           1     0
'domesticated'   1     2

Как вы можете видеть одну категориальную переменную ( x) или несколько числовых переменных ( x1и x2) одинаково представлены в таблице сопряженности. Таким образом, критерий хи-квадрат может быть применен к категориальной переменной (метка в sklearn) в сочетании с другой категориальной переменной или несколькими числовыми переменными (функции в sklearn).

Pieter
источник
Таким образом, если выбор функции chi_square можно использовать только для неотрицательных объектов (freq, count, ect), что это означает для ситуации, когда существует объект с отрицательными значениями? Преобразовать функцию или использовать другой метод выбора функции? Предположим, мы провели новое исследование набора данных Iris, и у нас была функция, измеряющая изменение длины чашелистика каждый день. В конце концов и будут отрицательные значения. Растение увядает и сжимается, давая отрицательное изменение длины. Может быть, мы пытаемся определить, какое это растение, по тому, как быстро оно увядает или что-то в этом роде.
Араш Ховайда
1
Хи-квадрат основан на пропорции значений (то есть частотного распределения). Это реализуется путем суммирования (бинаризованных) значений признаков. Так что часть всей суммы должна иметь смысл. С отрицательными значениями это не так.
Питер