Существует ли проверка гипотезы о том, связана ли нормально-распределенная зависимая переменная с направленно-распределенной переменной?
Например, если пояснительная переменная является временем суток (и если предположить, что такие вещи, как день недели, месяц года и т. Д. Не имеют значения), - это то, как следует учитывать тот факт, что в 11 часов вечера на 22 часа больше, чем в 1 час ночи, а также 2 часов позади 1 утра в тесте ассоциации? Могу ли я проверить, объясняет ли непрерывное время суток зависимую переменную, не предполагая, что 12:00 полночь не следует за минутой после 23:59?
Применяется ли этот тест также к дискретным направленным ( модульным ?) Объясняющим переменным? Или это требует отдельного теста? Например, как проверить, объясняется ли зависимая переменная месяцем года (при условии, что день и сезон года, а конкретный год или десятилетие не имеют значения). Обработка месяца года категорически игнорирует порядок. Но если рассматривать месяц года как стандартную порядковую переменную (скажем, Jan = 1 ... Dec = 12), то игнорируется, что январь наступает через два месяца после ноября.
Ответы:
В целом, я думаю, что с научной и статистической точки зрения было бы более плодотворно начинать с более широкого и различного вопроса, который заключается в том, насколько далеко можно предсказать ответ от кругового предиктора. Здесь я говорю круговой, а не направленный , отчасти потому, что последний включает в себя сферические и даже более сказочные пространства, которые нельзя охватить одним ответом; и отчасти потому, что ваши примеры, время дня и время года , являются круговыми. Еще одним важным примером является направление компаса (относящееся к ветрам, движениям животных или людей, выравниванию и т. Д.), Что характерно для многих круговых проблем: действительно, для некоторых ученых это является более очевидной отправной точкой.
Всякий раз, когда вам это удается, использование синусоидальных и косинусных функций времени в некоторой регрессионной модели является простым и легким для реализации методом моделирования. Это первый порт захода для многих биологических и / или экологических примеров. (Эти два вида часто объединяются, потому что биотические явления, показывающие сезонность, обычно прямо или косвенно реагируют на климат или погоду.)
Для конкретности представьте измерения времени в течение 24 часов или 12 месяцев, чтобы, например,
каждый описывает один цикл в течение всего дня или года. Формальный тест отсутствия взаимосвязи между измеренным или подсчитанным откликом и некоторым круговым временем был бы тогда стандартным тестом того, являются ли коэффициенты синуса и косинуса совместно равными нулю в обобщенной линейной модели с синусом и косинусом в качестве предикторов, соответствующей связью и семейством выбирается в зависимости от характера ответа.
Вопрос о предельном распределении ответа (нормального или другого) в этом подходе вторичен и / или должен решаться по выбору семьи.
Заслуга синусов и косинусов, естественно, заключается в том, что они являются периодическими и автоматически оборачиваются, поэтому значения в начале и в конце каждого дня или года обязательно одинаковы. Нет проблем с граничными условиями, потому что нет границ.
Этот подход был назван круговой, периодической, тригонометрической и фурье-регрессией. Для одного вступительного обзора учебника, см. Здесь
На практике,
Такие тесты обычно показывают чрезвычайно значимые результаты на обычных уровнях всякий раз, когда мы ожидаем сезонность. Более интересный вопрос заключается в точной оценке сезонной кривой и в том, нужна ли нам более сложная модель с другими синусоидальными терминами.
Ничто не исключает и других предикторов, и в этом случае нам просто нужны более комплексные модели с включенными другими предикторами, например, синусами и косинусами для сезонности и другими предикторами для всего остального.
В какой-то момент, в зависимости от данных, проблемы, вкусов и опыта исследователя, может стать более естественным выделение аспекта временных рядов проблемы и построение модели с явной временной зависимостью. Действительно, некоторые статистически мыслящие люди отрицают, что есть какой-то другой способ приблизиться к этому.
То, что легко назвать трендом (но не всегда так легко идентифицируемо), подпадает под № 2 или № 3, или даже оба.
Многие экономисты и другие обществоведы, занимающиеся вопросами сезонности на рынках, в национальной и международной экономике или других явлений человека, обычно более впечатлены возможностями более сложной изменчивости в течение каждого дня или (чаще) года. Зачастую, хотя и не всегда, сезонность - это неприятность, которую необходимо устранить или скорректировать, в отличие от ученых-биологов и специалистов по окружающей среде, которые часто считают сезонность интересной и важной, даже главной целью проекта. Тем не менее, экономисты и другие также часто применяют регрессионный подход, но с боеприпасами набор переменных (фиктивных) переменных, чаще всего переменных для каждого месяца или каждого квартала года0 , 1 , Это может быть практическим способом попытаться уловить последствия названных праздников, периодов отпусков, побочных эффектов школьных лет и т. Д., А также влияния или потрясения климатического или погодного происхождения. С учетом этих различий большинство приведенных выше комментариев также применимы к экономике и общественным наукам.
Отношение и подходы эпидемиологов и медицинских статистиков, связанных с различиями в заболеваемости, смертности, госпитализации, посещениях клиник и т. П., Имеют тенденцию попадать между этими двумя крайностями.
На мой взгляд, разделение дней или лет на две половины для сравнения обычно произвольно, искусственно и, в лучшем случае, неудобно. Также игнорируется вид гладкой структуры, обычно присутствующей в данных.
РЕДАКТИРОВАТЬ Учетная запись до сих пор не учитывает разницу между дискретным и непрерывным временем, но я не по своему опыту считаю это большим делом на практике.
Но точный выбор зависит от того, как поступают данные и от схемы изменений.
Если бы данные были квартальными и человеческими, я бы, как правило, использовал индикаторные переменные (например, кварталы 3 и 4 часто бывают разными). Если ежемесячно и человек, выбор не ясен, но вам придется много работать, чтобы продать синусы и косинусы большинству экономистов. Если ежемесячно или лучше и биологические или экологические, определенно синусы и косинусы.
РЕДАКТИРОВАТЬ 2 Дополнительные сведения о тригонометрической регрессии
Отличительной особенностью тригонометрической регрессии (названной любым другим способом, если вы предпочитаете) является то, что почти всегда термины синус и косинус лучше всего представлены в модели в парах. Сначала мы масштабируем время дня, время года или направление компаса так, чтобы оно было представлено в виде угла на окружности в радианах, следовательно, на интервале [ 0 , 2 π ] . Тогда мы используем как можно больше пар sin k θ , cos k θ , k = 1 , 2 , 3 , …θ [ 0 , 2 π] грехk θ , cosk θ , k = 1 , 2 , 3 , … как необходимо в модели. (В круговой статистике тригонометрические соглашения имеют тенденцию превосходить статистические соглашения, поэтому греческие символы, такие как , используются как для переменных, так и для параметров.)θ , ϕ , ψ
Если мы предлагаем пару предсказателей , таких как к регрессии типа модели, то есть оценки коэффициентов, скажем , б 1 , б 2 , для точки в модели, а именно Ь 1 греховную & thetas , б 2 соз θ , Это способ подбора фазы, а также амплитуды периодического сигнала. Иначе говоря, такую функцию, как sin ( θ + ϕ ), можно переписать какгрехθ , cosθ б1, б2 б1грехθ , б2созθ грех( θ + ϕ )
но и sin ϕ, представляющие фазу, оцениваются при подгонке модели. Таким образом мы избежим нелинейной проблемы оценки.созφ грехφ
Если мы используем для моделирования кругового изменения, то автоматически максимум и минимум этой кривой находятся на расстоянии половины окружности. Это часто очень хорошее приближение для биологических или экологических вариаций, но, с другой стороны, нам может понадобиться еще несколько терминов, чтобы охватить экономическую сезонность в частности. Это может быть очень хорошей причиной для того, чтобы вместо этого использовать индикаторные переменные, что немедленно приведет к простой интерпретации коэффициентов.б1грехθ + b2созθ
источник
Вот вариант без распространения, так как кажется, что это то, что вы ищете в любом случае. Это не относится к области круговой статистики, о которой я не знаю, но применимо здесь и во многих других ситуациях.
Теперь проведите тест, используя критерий независимости Гильберта Шмидта (HSIC), как показано в следующей статье:
Это:
Код Matlab для выполнения этого с ядрами RBF доступен от первого автора здесь .
Этот подход хорош, потому что он общий и имеет тенденцию работать хорошо. Основными недостатками являются:
источник
Вы можете провести t- тест между средним значением для противоположных «половинок» периода, например, сравнивая среднее значение с 12:00 до 12:00 со средним значением с 12:00 до 12:00. А затем сравните среднее значение с 6:00 до 6:00 со средним значением с 6:00 до 18:00.
Или, если у вас достаточно данных, вы можете разбить период на более мелкие (например, ежечасные) сегменты и выполнить t- тест между каждой парой сегментов, исправляя при этом несколько сравнений.
В качестве альтернативы, для более «непрерывного» анализа (т. Е. Без произвольной сегментации) вы можете запустить линейные регрессии для функций синуса и косинуса вашей переменной направления (с правильным периодом), что автоматически «округлит» ваши данные:
В любом случае, я думаю, что вы должны сделать некоторые предположения относительно периода, а затем проверить соответственно.
источник