Тест ассоциации для нормально распределенного DV по направленным независимым переменным?

10

Существует ли проверка гипотезы о том, связана ли нормально-распределенная зависимая переменная с направленно-распределенной переменной?

Например, если пояснительная переменная является временем суток (и если предположить, что такие вещи, как день недели, месяц года и т. Д. Не имеют значения), - это то, как следует учитывать тот факт, что в 11 часов вечера на 22 часа больше, чем в 1 час ночи, а также 2 часов позади 1 утра в тесте ассоциации? Могу ли я проверить, объясняет ли непрерывное время суток зависимую переменную, не предполагая, что 12:00 полночь не следует за минутой после 23:59?

Применяется ли этот тест также к дискретным направленным ( модульным ?) Объясняющим переменным? Или это требует отдельного теста? Например, как проверить, объясняется ли зависимая переменная месяцем года (при условии, что день и сезон года, а конкретный год или десятилетие не имеют значения). Обработка месяца года категорически игнорирует порядок. Но если рассматривать месяц года как стандартную порядковую переменную (скажем, Jan = 1 ... Dec = 12), то игнорируется, что январь наступает через два месяца после ноября.

Alexis
источник
1
Ответ может заполнить книгу (а их там несколько). Уточнение вашего вопроса может помочь сосредоточить ответы на том, что для вас важно.
whuber
@ Whuber Гм ... черт возьми ... вы можете помочь мне сузить? Указываете дистрибутив для DV? Ограничение только одним тестом, а не регрессом? Я немного озадачен и не знаю, с чего начать ...
Алексис
@whuber Я попытался немного сузить вопрос и был бы благодарен за любые советы по повышению его полезности (на самом деле я просто хочу начать думать о модульных предикторах). Если это теперь в приличной форме, я, вероятно, задам аналогичный вопрос о таком тесте, который не распространяется в DV.
Алексис
@whuber Обдумывание дискретного модульного IV в контексте регрессии: будет ли двухуровневая смешанная модель с дискретным модульным IV в качестве идентификатора уровня 2, причем каждая единица уровня 2 имеет переменную эффекта до и после случайного воздействия, равную предыдущее и последующее значение в системе счисления будет на правильном пути?
Алексис
Смотрите здесь jstatsoft.org/article/view/v031i10/v31i10.pdf , стр. 16.
amoeba

Ответы:

9

В целом, я думаю, что с научной и статистической точки зрения было бы более плодотворно начинать с более широкого и различного вопроса, который заключается в том, насколько далеко можно предсказать ответ от кругового предиктора. Здесь я говорю круговой, а не направленный , отчасти потому, что последний включает в себя сферические и даже более сказочные пространства, которые нельзя охватить одним ответом; и отчасти потому, что ваши примеры, время дня и время года , являются круговыми. Еще одним важным примером является направление компаса (относящееся к ветрам, движениям животных или людей, выравниванию и т. Д.), Что характерно для многих круговых проблем: действительно, для некоторых ученых это является более очевидной отправной точкой.

Всякий раз, когда вам это удается, использование синусоидальных и косинусных функций времени в некоторой регрессионной модели является простым и легким для реализации методом моделирования. Это первый порт захода для многих биологических и / или экологических примеров. (Эти два вида часто объединяются, потому что биотические явления, показывающие сезонность, обычно прямо или косвенно реагируют на климат или погоду.)

Для конкретности представьте измерения времени в течение 24 часов или 12 месяцев, чтобы, например,

грех[2π(час/24)],  соз[2π(час/24)]

грех[2π(месяц/12)],  соз[2π(месяц/12)]

каждый описывает один цикл в течение всего дня или года. Формальный тест отсутствия взаимосвязи между измеренным или подсчитанным откликом и некоторым круговым временем был бы тогда стандартным тестом того, являются ли коэффициенты синуса и косинуса совместно равными нулю в обобщенной линейной модели с синусом и косинусом в качестве предикторов, соответствующей связью и семейством выбирается в зависимости от характера ответа.

Вопрос о предельном распределении ответа (нормального или другого) в этом подходе вторичен и / или должен решаться по выбору семьи.

Заслуга синусов и косинусов, естественно, заключается в том, что они являются периодическими и автоматически оборачиваются, поэтому значения в начале и в конце каждого дня или года обязательно одинаковы. Нет проблем с граничными условиями, потому что нет границ.

Этот подход был назван круговой, периодической, тригонометрической и фурье-регрессией. Для одного вступительного обзора учебника, см. Здесь

На практике,

  1. Такие тесты обычно показывают чрезвычайно значимые результаты на обычных уровнях всякий раз, когда мы ожидаем сезонность. Более интересный вопрос заключается в точной оценке сезонной кривой и в том, нужна ли нам более сложная модель с другими синусоидальными терминами.

  2. Ничто не исключает и других предикторов, и в этом случае нам просто нужны более комплексные модели с включенными другими предикторами, например, синусами и косинусами для сезонности и другими предикторами для всего остального.

  3. В какой-то момент, в зависимости от данных, проблемы, вкусов и опыта исследователя, может стать более естественным выделение аспекта временных рядов проблемы и построение модели с явной временной зависимостью. Действительно, некоторые статистически мыслящие люди отрицают, что есть какой-то другой способ приблизиться к этому.

То, что легко назвать трендом (но не всегда так легко идентифицируемо), подпадает под № 2 или № 3, или даже оба.

Многие экономисты и другие обществоведы, занимающиеся вопросами сезонности на рынках, в национальной и международной экономике или других явлений человека, обычно более впечатлены возможностями более сложной изменчивости в течение каждого дня или (чаще) года. Зачастую, хотя и не всегда, сезонность - это неприятность, которую необходимо устранить или скорректировать, в отличие от ученых-биологов и специалистов по окружающей среде, которые часто считают сезонность интересной и важной, даже главной целью проекта. Тем не менее, экономисты и другие также часто применяют регрессионный подход, но с боеприпасами набор переменных (фиктивных) переменных, чаще всего переменных для каждого месяца или каждого квартала года0,1, Это может быть практическим способом попытаться уловить последствия названных праздников, периодов отпусков, побочных эффектов школьных лет и т. Д., А также влияния или потрясения климатического или погодного происхождения. С учетом этих различий большинство приведенных выше комментариев также применимы к экономике и общественным наукам.

Отношение и подходы эпидемиологов и медицинских статистиков, связанных с различиями в заболеваемости, смертности, госпитализации, посещениях клиник и т. П., Имеют тенденцию попадать между этими двумя крайностями.

На мой взгляд, разделение дней или лет на две половины для сравнения обычно произвольно, искусственно и, в лучшем случае, неудобно. Также игнорируется вид гладкой структуры, обычно присутствующей в данных.

РЕДАКТИРОВАТЬ Учетная запись до сих пор не учитывает разницу между дискретным и непрерывным временем, но я не по своему опыту считаю это большим делом на практике.

Но точный выбор зависит от того, как поступают данные и от схемы изменений.

Если бы данные были квартальными и человеческими, я бы, как правило, использовал индикаторные переменные (например, кварталы 3 и 4 часто бывают разными). Если ежемесячно и человек, выбор не ясен, но вам придется много работать, чтобы продать синусы и косинусы большинству экономистов. Если ежемесячно или лучше и биологические или экологические, определенно синусы и косинусы.

РЕДАКТИРОВАТЬ 2 Дополнительные сведения о тригонометрической регрессии

Отличительной особенностью тригонометрической регрессии (названной любым другим способом, если вы предпочитаете) является то, что почти всегда термины синус и косинус лучше всего представлены в модели в парах. Сначала мы масштабируем время дня, время года или направление компаса так, чтобы оно было представлено в виде угла на окружности в радианах, следовательно, на интервале [ 0 , 2 π ] . Тогда мы используем как можно больше пар sin k θ , cos k θ , k = 1 , 2 , 3 , θ[0,2π]грехКθ,созКθ,Кзнак равно1,2,3,...как необходимо в модели. (В круговой статистике тригонометрические соглашения имеют тенденцию превосходить статистические соглашения, поэтому греческие символы, такие как , используются как для переменных, так и для параметров.)θ,φ,ψ

Если мы предлагаем пару предсказателей , таких как к регрессии типа модели, то есть оценки коэффициентов, скажем , б 1 , б 2 , для точки в модели, а именно Ь 1 греховную & thetas , б 2 соз θ , Это способ подбора фазы, а также амплитуды периодического сигнала. Иначе говоря, такую ​​функцию, как sin ( θ + ϕ ), можно переписать какгрехθ,созθб1,б2б1грехθ,б2созθгрех(θ+φ)

грехθсозφ+созθгрехφ,

но и sin ϕ, представляющие фазу, оцениваются при подгонке модели. Таким образом мы избежим нелинейной проблемы оценки.созφгрехφ

Если мы используем для моделирования кругового изменения, то автоматически максимум и минимум этой кривой находятся на расстоянии половины окружности. Это часто очень хорошее приближение для биологических или экологических вариаций, но, с другой стороны, нам может понадобиться еще несколько терминов, чтобы охватить экономическую сезонность в частности. Это может быть очень хорошей причиной для того, чтобы вместо этого использовать индикаторные переменные, что немедленно приведет к простой интерпретации коэффициентов.б1грехθ+б2созθ

Ник Кокс
источник
Я отмечаю некоторое удивительное совпадение с ответом @Kelvin.
Ник Кокс
+1 (особенно за то, что вы использовали «fabulous»! :) Ник Кокс, не могли бы вы прояснить ситуацию и с дискретными циклическими переменными, в соответствии с моим вопросом? Будет ли это так же просто, как подход «тригонометрического моделирования», который вы описываете, используя дискретную меру времени? Или должны быть какие-то «исправления непрерывности»?
Алексис
Насколько мне известно, единственное различие между дискретными и непрерывными круговыми переменными заключается в округлении значений до дискретных точек (например, 2 часа дня против 14.12345 часов), как с некруглыми переменными, поэтому не будет большой разницы до тех пор, пока вы применяете меньшее округление с небольшими шагами по отношению к общему периоду. По сути, это просто вопрос ошибки округления или нет. Лучше нет, если вы можете избежать этого.
Кельвин
Я согласен, что дискретный и непрерывный не сильно отличаются. На практике многие измерения более или менее укрупнены, сообщая только за кварталы, полугодия, месяцы, дни и т. Д. Или как что-либо в диапазоне от (N. S) до (N, E, S, W) и выше, до более высокого разрешения. для компаса направления. В деталях, есть разница между точечными измерениями (температура в точное время) и интервальными измерениями (например, общие ежемесячные продажи). Я бы не объединил все такие детали как ошибку округления, так как иногда нет такой ошибки, как агрегация или усреднение.
Ник Кокс
4

Вот вариант без распространения, так как кажется, что это то, что вы ищете в любом случае. Это не относится к области круговой статистики, о которой я не знаю, но применимо здесь и во многих других ситуациях.

Икс

Yрdd1

Zзнак равно(Икс,Y)мZязнак равно(Икся,Yя)

Теперь проведите тест, используя критерий независимости Гильберта Шмидта (HSIC), как показано в следующей статье:

Греттон, Фукумизу, Тео, Сонг, Шёлкопф и Смола. Ядро статистического теста независимости. NIPS 2008. ( pdf )

Это:

  • КИкс

    • Икср2К(Икс,Икс')знак равноехр(-12σ2| |Икс-Икс'| |2)σИкс
    • Икс[-π,π]К(Икс,Икс')знак равноехр(κсоз(Икс-Икс'))κ
  • LYYрN

  • ЧАСКLм×мКяJзнак равноК(Икся,ИксJ)LяJзнак равноL(Yя,YJ)ЧАС ЧАСзнак равноя-1м11T1м2Tр(КЧАСLЧАС)

Код Matlab для выполнения этого с ядрами RBF доступен от первого автора здесь .


Этот подход хорош, потому что он общий и имеет тенденцию работать хорошо. Основными недостатками являются:

  • м2
  • мм
  • КL


К(Икс-Икс')[-π,π]

Дугал
источник
3

Вы можете провести t- тест между средним значением для противоположных «половинок» периода, например, сравнивая среднее значение с 12:00 до 12:00 со средним значением с 12:00 до 12:00. А затем сравните среднее значение с 6:00 до 6:00 со средним значением с 6:00 до 18:00.

Или, если у вас достаточно данных, вы можете разбить период на более мелкие (например, ежечасные) сегменты и выполнить t- тест между каждой парой сегментов, исправляя при этом несколько сравнений.

В качестве альтернативы, для более «непрерывного» анализа (т. Е. Без произвольной сегментации) вы можете запустить линейные регрессии для функций синуса и косинуса вашей переменной направления (с правильным периодом), что автоматически «округлит» ваши данные:

Икс'знак равноsяN(Икс*2π/перяоd)
Икс"знак равносоs(Икс*2π/перяоd)

a

Икс'' 'знак равноsяN((Икс+a)*2π/перяоd)

a

YИкс'Икс"

В любом случае, я думаю, что вы должны сделать некоторые предположения относительно периода, а затем проверить соответственно.

кельвин
источник
Кельвин, «нарушение» круговые данных , как вы описываете , казалось бы игнорировать именно этот вопрос я поднял о модульной упорядоченности.
Алексис
Читали ли вы вторую половину моего ответа, который описывает непрерывный анализ множественной регрессии?
Кельвин
Вы правы насчет синуса и косинуса вместе. Это объясняется далее в моем ответе и в документе 2006 года, который он цитирует, и в последующих ссылках, которые он цитирует.
Ник Кокс
@ Ник - я не видел твой ответ, когда ты писал после моего последнего редактирования, но хорошо, что мы пришли к одному и тому же ответу независимо, потому что я просто был креативен (практически вслух размышлял) и никогда не видел, чтобы это было сделано раньше.
Кельвин