Способ генерации коррелированных ненормальных данных

14

Я заинтересован в поиске метода для генерации коррелированных, ненормальных данных. Таким образом, в идеале это некое распределение, которое принимает в качестве параметра ковариационную (или корреляционную) матрицу и генерирует данные, которые приближаются к ней. Но здесь есть одна загвоздка: метод, который я пытаюсь найти, должен иметь гибкость, чтобы также контролировать его многомерную асимметрию и / или эксцесс.

Я знаком с методом Флейшмана и использованием метода степеней нормальных вариаций, но я полагаю, что большинство из этих расширений разрешают пользователю только определенные комбинации маргинальной асимметрии и эксцесса, оставляя многомерную асимметрию / эксцесс только там. Мне было интересно, есть ли метод, который помогает определять многомерную асимметрию и / или эксцесс, наряду с некоторой структурой корреляции / ковариации.

Около года назад я провел семинар по распространению связок, и я помню, как профессор небрежно упоминал, что с помощью связок виноградной лозы можно генерировать данные, которые, скажем, симметричны по каждому из своих одномерных маргиналов, но совместно искажены и порочны. -versa. Или, что еще важнее, любые нижние поля могут иметь некоторую асимметрию или эксцесс, сохраняя симметричность (или нет) максимальных размеров. Меня поразила идея, что такая гибкость может существовать. Я пытался найти какую-то статью или документ для конференции, в котором описан указанный метод, но у меня ничего не получилось :(. Это не обязательно из-за использования связок, Я открыт для всего, что работает.

Изменить: я добавил код R, чтобы попытаться показать, что я имею в виду. До сих пор я хорошо знаком с определением Mardia многомерной асимметрии и эксцессов. Когда я впервые подошел к своей проблеме, я наивно подумал, что, если бы я использовал симметричную связку (в данном случае гауссову) с перекошенными маргиналами (бета, в этом примере), одномерные тесты на маргиналах дали бы значение, но тест Мардии для многовариантной асимметрии / эксцессов быть незначительным. Я попробовал это, и это не вышло, как я ожидал:

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

После проверки контуров для «cop1» VS «cop2», а также эмпирических двумерных графиков плотности, я также вижу, что ни один из них не выглядит симметричным вообще. Вот тогда я понял, что это, вероятно, немного сложнее, чем я думал.

Я знаю, что Mardia - не единственное определение многомерной асимметрии / эксцесса, поэтому я не ограничиваю себя поиском метода, который удовлетворяет только определениям Mardia.

Спасибо!

С. Панки
источник
+1 Самый интересный вопрос. Не могли бы вы более конкретно сказать, что означает «совместный перекос» в этом контексте (особенно двумерный)? Хотя я могу изобразить формы совместного распределения, которые в некотором смысле «различны» в четырех квадрантах (скажем, относительно осей, размещенных на средстве), я не знаком с тем, что конкретно может означать «совместно искаженный».
Glen_b
ехрИксИкс
Здравствуйте. Большое спасибо за интерес к моему вопросу. Это первый раз, когда я пишу здесь, поэтому я надеюсь, что я делаю все правильно. я подробнее остановлюсь на разделе комментариев, потому что ограничение по количеству символов не позволяет мне использовать R-код, чтобы попытаться передать то, что я делаю
S. Punky
да, я только что понял это и добавил больше деталей. Я ценю, что вы нашли время, чтобы показать мне, как использовать эту доску. Благодарность!
С. Панки
« Не ограничиваясь поиском метода, который удовлетворяет только определениям Мардиа » - метод что делать?
Glen_b

Ответы:

3

После долгих поисков, прыгая вокруг интернет - форумы, консультации с преподавателями и делать много обзора литературы, я пришел к выводу , что , вероятно , единственный способ решения этой проблемы лежит через использование связках лозы действительно. Это дает вам некоторый контроль над попарной асимметрией и эксцессом (или любыми более высокими моментами) - для случайного вектора с p-вариацией и свободой для указания пары связок p-1 и оставшихся p * (p-1) / 2 - ( р-1) размеры могут быть указаны в какой-то условной связке.

Я приветствую другие методы, с которыми люди могли столкнуться, но, по крайней мере, я собираюсь оставить этот указатель на ответ, потому что я, по жизни, не могу найти другие способы решения этой проблемы.

С. Панки
источник
2
Что такое виноградная связка?
Секст Эмпирик
1

Вы могли бы решить эту проблему, изменив алгоритм Ruscio и Kaczetow (2008). В их статье представлен итерационный алгоритм (с кодом R), который минимизирует разницу между фактической и предполагаемой формами полей. Вы можете изменить его так, чтобы он нацеливался на многовариантные (а не маргинальные) моменты.

Ruscio, J. & Kaczetow, W. (2008). Моделирование многомерных ненормальных данных с использованием итерационного алгоритма. Многомерное поведенческое исследование, 43 (3), 355‐381. DOI: 10,1080 / 00273170802285693

Энтони
источник
О, МОЙ БОГ! СПАСИБО! я на мгновение подумал, что этот вопрос будет просто заброшен
С. Панки
1
ну ... я рецензировал статью Ruscio & Kaczetow (2008). к сожалению, это всего лишь еще одна (но более гибкая) реализация семейства алгоритмов NORTA (NORmal To Anything), которая, как известно, плохо работает с многомерными 3-м и 4-м моментами. Я думаю, что я вернулся на круги своя на этом.
С. Панки
0

Возможно, вы захотите проверить обобщенное эллиптическое распределение , которое допускает «классическую» матрицу формы с гибкостью для других функций.

кварцевый
источник
Спасибо! Я обязательно проверю эту ссылку. Разве эллиптические распределения не симметричны? Таким образом, можно контролировать эксцесс, но асимметрия должна оставаться на 0?
С. Панки
Конечно, но GE не подразумевает эллиптический. Для некоторых косых эллиптических изменений проверьте также здесь: stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
Кварц
0

Я придумал простой метод для этого, который не включает коплас и другие сложные конструкции. Я боюсь, что у меня нет никакой официальной ссылки, хотя метод, кажется, очень эффективен.

Идея проста. 1. Нарисуйте любое количество переменных из совместного нормального распределения. 2. Примените одномерный нормальный CDF переменных для получения вероятностей для каждой переменной. 3. Наконец, примените обратный CDF любого дистрибутива для имитации ничьих из этого дистрибутива.

Я придумал этот метод в 2012 году и продемонстрировал использование Stata . Я также написал недавний пост , показывающий один и тот же метод с использованием R .

Фрэнсис Смарт
источник
(1) Что такое «нормальное распределение Спирмена»? (2) Какое различие вы проводите между CDF и «нормальным CDF»? (3) Не могли бы вы объяснить, как этот метод вводит какую-либо корреляцию вообще? Боюсь, что ваше общее использование «переменных» и «распределения» делает ваше описание довольно расплывчатым, поэтому трудно сказать, что он на самом деле делает. Не могли бы вы перефразировать ваш ответ, чтобы быть более точным?
whuber
Спасибо за ваше сообщение! перейдя по ссылкам, можно увидеть больше информации о методе. это не совсем то, что я надеялся достичь (т.е. контроль над моментами распределения более высокого порядка, более высокого измерения), но все же очень ценный подход.
S. Punky
1
Неудивительно, что я не придумал новый метод, см .: Карио, Марн С. и Барри Л. Нельсон. Моделирование и генерация случайных векторов с произвольными краевыми распределениями и корреляционной матрицей. Технический отчет, Департамент промышленной инженерии и наук управления, Северо-Западный университет, Эванстон, Иллинойс, 1997. Яхав, Инбал и Галит Шмуэли. «О создании многомерных пуассоновых данных в приложениях науки управления». Научно-исследовательская работа школы Роберта Х. Смита № RHS (2009): 06-085.
Фрэнсис Смарт
даже если это не «новый метод», я все же хотел бы поблагодарить вас за то, что вы нашли время, чтобы просмотреть мой вопрос и добавить что-то проницательное :)
S. Punky
0

Я полагаю, что метод, представленный в следующих статьях, позволяет генерировать случайные многовариантные значения с любой (возможной) комбинацией среднего значения, дисперсии, асимметрии и эксцесса.

  1. Стэнфилд П.М., Уилсон Р.Р. и Мирка Г.А., 1996. Многомерное моделирование входных данных с распределениями Джонсона. Материалы Зимней симуляционной конференции 1996 г. , ред. Charnes, JM, Morrice, DJ, Brunner, DT и Swain, JJ, 1457-1464.
  2. Стэнфилд, PM, Уилсон, JR, и Кинг, RE 2004. Гибкое моделирование коррелированных времен работы с применением в средствах повторного использования продукта, Международный журнал исследований производства , Том 42, № 11, 2179–2196.

Отказ от ответственности: я не один из авторов.

SecretAgentMan
источник