Скажем, например, вы делаете линейную модель, но данные сложны.
Мой набор данных сложен, так как все числа в имеют форму . Есть ли что-то процедурное при работе с такими данными?( а + б я )
Я спрашиваю, потому что вы в конечном итоге получите сложные ковариационные матрицы и протестируете статистику, которая имеет комплексное значение.
Вам нужно использовать сопряженные транспонирования вместо транспозирования при выполнении наименьших квадратов? имеет смысл комплексная ковариация?
Ответы:
Резюме
Обобщение регрессии наименьших квадратов на комплексные переменные является простым, состоящим главным образом из замены транспонирования матриц сопряженными транспонированиями в обычных матричных формулах. Однако комплексная регрессия соответствует сложной многовариантной множественной регрессии, решение которой было бы намного сложнее получить с помощью стандартных (реальных переменных) методов. Таким образом, когда комплексная модель имеет смысл, настоятельно рекомендуется использовать комплексную арифметику для получения решения. Этот ответ также включает некоторые предлагаемые способы отображения данных и представления диагностических графиков подгонки.
Для простоты, давайте обсудим случай обычной (одномерной) регрессии, которая может быть записана
Я взял на себя смелость назвать независимую переменную и зависимую переменную , что является общепринятым (см., Например, Lars Ahlfors, Complex Analysis ). Все, что следует, легко распространить на настройку множественной регрессии.ZW Z
интерпретация
Эта модель имеет легко визуализируемую геометрическую интерпретацию: умножение на будет масштаб по модулю и поворачивать его вокруг начала координат с помощью аргумента . Впоследствии добавление переводит результат на эту сумму. Эффект том, чтобы немного «дрожать» в этом переводе. Таким образом, регрессия на таким способом является попыткой понять совокупность 2D точек как возникающую из 2D точекw j β 1 β 1 β 0 ε j z j w j ( z j ) ( w j )β1 wj β1 β1 β0 εj zj wj (zj) (wj) посредством такого преобразования, допускающего некоторую ошибку в процессе. Это проиллюстрировано ниже с помощью фигуры под названием «Подходить как трансформация».
Обратите внимание, что изменение масштаба и вращение - это не просто линейное преобразование плоскости: например, они исключают перекос. Таким образом, эта модель отличается от двумерной множественной регрессии с четырьмя параметрами.
Обычные наименьшие квадраты
Чтобы связать сложный случай с реальным случаем, напишем
Кроме того, для параметров напишите
β 1 = γ 1 + i δ 1β0=γ0+iδ0 и . β1=γ1+iδ1
Каждый из введенных новых терминов, конечно, действителен, и является мнимым, а индексирует данные.j = 1 , 2 , … , ni2=−1 j=1,2,…,n
OLS находит и которые минимизируют сумму квадратов отклонений, β 1β^0 β^1
Формально это идентично обычной матричной формулировке: сравните ее с Единственное различие, которое мы находим, состоит в том, что транспонирование проектной матрицы заменяется сопряженным транспонированием . Следовательно, решение формальной матрицыX ′ X ∗ = ˉ X ′(z−Xβ)′(z−Xβ). X′ X∗=X¯′
В то же время, чтобы увидеть, что может быть достигнуто путем превращения этого в проблему чисто вещественных переменных, мы можем записать цель OLS в терминах реальных компонентов:
Очевидно, это представляет две связанные реальные регрессии: одна из них регрессирует на и , другая регрессирует на и ; и мы требуем, чтобы коэффициент для был отрицательным по отношению к коэффициенту для а коэффициент для равен коэффициенту для . Более того, потому что общееu v y u v v x u y u x v y x yx u v y u v v x u y u x v y квадраты невязок от двух регрессий должны быть минимизированы, обычно это не тот случай, когда любой набор коэффициентов дает наилучшую оценку только для или . Это подтверждается в приведенном ниже примере, который выполняет две реальные регрессии отдельно и сравнивает их решения со сложной регрессией.x y
Этот анализ показывает, что переписывание сложной регрессии в терминах действительных частей (1) усложняет формулы, (2) затеняет простую геометрическую интерпретацию, и (3) потребует обобщенной многомерной множественной регрессии (с нетривиальными корреляциями между переменными ) решать. Мы можем сделать лучше.
пример
В качестве примера я использую сетку значений в целых точках вблизи начала координат в комплексной плоскости. К преобразованным значениям добавляются ошибки, имеющие двумерное распределение Гаусса: в частности, действительная и мнимая части ошибок не являются независимыми.w βw wβ
Трудно нарисовать обычную диаграмму рассеяния для комплексных переменных, потому что она будет состоять из точек в четырех измерениях. Вместо этого мы можем просмотреть матрицу рассеяния их реальной и мнимой частей.(wj,zj)
Не обращайте внимания на подгонку и посмотрите на верхние четыре строки и четыре левых столбца: они отображают данные. Круглая сетка видна в левом верхнем углу; у него балл. Диаграммы рассеяния компонентов относительно компонентов показывают четкие корреляции. Три из них имеют отрицательные корреляции; только (мнимая часть ) и (действительная часть ) имеют положительную корреляцию.81 W Z Y Z U Ww 81 w z y z u w
Для этих данных истинное значение равно . Он представляет собой расширение на и вращение против часовой стрелки на 120 градусов с последующим переводом на единиц влево и на единиц вверх. Я рассчитываю три подбора: комплексное решение наименьших квадратов и два решения OLS для и отдельно для сравнения.( - 20 + 5 я , - 3 / 4 + 3 / 4 √β 3/220(уJ)(−20+5i,−3/4+3/43–√i) 3/2 20 ( x j )5 (xj) (yj)
Всегда будет случай, когда только реальный перехват согласуется с действительной частью комплексного перехвата, а мнимый перехват согласуется с мнимой частью сложного перехвата. Тем не менее, очевидно, что наклоны только для реального и только для мнимых типов не совпадают ни с комплексными коэффициентами наклона, ни друг с другом, в точности так, как прогнозировалось.
Давайте внимательнее посмотрим на результаты комплексной посадки. Во-первых, график остатков дает нам указание на их двумерное распределение Гаусса. (Базовое распределение имеет предельные стандартные отклонения и корреляцию .) Затем мы можем построить амплитуды остатков (представленных размерами круглых символов) и их аргументов (представленных цветами точно так же, как на первом графике) в зависимости от установленных значений: этот график должен выглядеть как случайное распределение размеров и цветов, что он и делает.0,82 0.8
Наконец, мы можем изобразить подгонку несколькими способами. Подгонка появилась в последних строках и столбцах матрицы диаграммы рассеяния ( qv ) и, возможно, стоит более внимательно рассмотреть этот момент. Внизу слева посадки изображены в виде открытых синих кружков, а стрелки (представляющие остатки) связывают их с данными, показанными сплошными красными кружками. Справа показаны как открытые черные круги, заполненные цветами, соответствующими их аргументам; они связаны стрелками с соответствующими значениями . Напомним, что каждая стрелка представляет расширение на вокруг начала координат, поворот на градусов и перевод на , плюс это двумерная ошибка Гасса.( г J ) 3 / 2 120 ( - 20 , 5 )(wj) (zj) 3/2 120 (−20,5)
Эти результаты, графики и диагностические графики позволяют предположить, что комплексная формула регрессии работает правильно и достигает чего-то отличного от отдельных линейных регрессий действительной и мнимой частей переменных.
Код
R
Код для создания данных, припадки, и участки , приводится ниже. Обратите внимание, что фактическое решение получается в одной строке кода. Для получения обычного результата наименьших квадратов потребовалась бы дополнительная работа - но не слишком большая ее часть: матрица дисперсии-ковариации соответствия, стандартные ошибки, p-значения и т. Д.источник
zapsmall
вR
). В противном случае это признак того, что что-то в корне неверно.После хорошего долгого гугл-сеша я нашел некоторую актуальную информацию о понимании проблемы альтернативным способом. Оказывается, подобные проблемы несколько распространены в статистической обработке сигналов. Вместо того, чтобы начинать с гауссовой вероятности, которая соответствует линейным наименьшим квадратам для реальных данных, мы начинаем с:
http://en.wikipedia.org/wiki/Complex_normal_distribution
Эта страница Википедии дает удовлетворительное краткое изложение этого объекта.
В частности, если вы можете предположить, что распределение вашей оценки является многовариантным гауссовским, то в случае сложных данных можно использовать комплексную нормаль. Вычисление ковариации этой оценки немного отличается и дано на вики-странице.β^
Другой источник, который я нашел, который приходит к тому же выводу, что и whuber, но исследует другие оценки, такие как максимальная вероятность: «Оценки неправильных моделей линейной регрессии», от Yan et al.
источник
Хотя у @whuber есть прекрасно иллюстрированный и хорошо объясненный ответ, я думаю, что это упрощенная модель, в которой не хватает всей силы сложного пространства.
Линейная регрессия наименьших квадратов на вещественных числах эквивалентна следующей модели с входными данными , параметрами и target :w β x
где нормально распределен с нулевым средним и некоторой (обычно постоянной) дисперсией.ϵ
Я предлагаю, чтобы сложная линейная регрессия была определена следующим образом:
Есть два основных различия.
Во-первых, есть дополнительная степень свободы которая допускает фазовую чувствительность. Вы можете этого не хотеть, но вы можете легко иметь это.β2
Во-вторых, - это сложное нормальное распределение с нулевым средним и некоторой дисперсией и «псевдовариантностью».ϵ
Возвращаясь к реальной модели, получается обычное решение наименьших квадратов, минимизирующее потери, что является отрицательной логарифмической вероятностью. Для нормального распределения это парабола:
где , является фиксированным (обычно), равно нулю согласно модели, и не имеет значения, поскольку функции потерь инвариантны при постоянном сложении.x=z−(β0+β1w) a c d
Возвращаясь к сложной модели, отрицательное логарифмическое правдоподобие равно
Вот изображение сложной плотности нормального распределения:
Обратите внимание, как это асимметрично. Без параметра он не может быть асимметричным.b
Это усложняет регресс, хотя я уверен, что решение все еще аналитическое. Я решил это для случая с одним входом, и я рад изложить свое решение здесь, но у меня есть ощущение, что whuber может решить общий случай.
источник
Эта проблема снова возникла в Mathematica StackExchange, и мой ответ / расширенный комментарий заключается в том, что за превосходным ответом @whuber следует следовать.
Мой ответ здесь - попытка немного расширить ответ @whuber, сделав структуру ошибки немного более явной. Предложенная оценка наименьших квадратов - это то, что можно использовать, если двумерное распределение ошибок имеет нулевую корреляцию между действительной и мнимой составляющими. (Но сгенерированные данные имеют корреляцию ошибок 0,8.)
Если кто-то имеет доступ к программе символьной алгебры, то можно устранить некоторые из сложностей построения оценок максимального правдоподобия параметров (как «фиксированных» эффектов, так и ковариационной структуры). Ниже я использую те же данные, что и в ответе @whuber, и строю оценки максимального правдоподобия, предполагая а затем - . Я использовал Mathematica, но я подозреваю, что любая другая программа символической алгебры может сделать что-то подобное. (И я сначала опубликовал изображение кода и вывода, за которым следует фактический код в приложении, так как я не могу заставить код Mathematica выглядеть так, как следует, просто используя текст.)ρ=0 ρ≠0
Теперь для оценки максимального правдоподобия, предполагая ...ρ=0
Мы видим, что оценки максимального правдоподобия, которые предполагают, что идеально совпадают с оценками полных наименьших квадратов.ρ=0
Теперь позвольте данным определить оценку для :ρ
Мы видим, что и по существу идентичны, независимо от того, допускаем мы или нет оценку . Но намного ближе к значению, которое сгенерировало данные (хотя логические выводы с размером выборки 1 не должны считаться окончательными, если не сказать больше), и лог вероятности намного выше.γ0 δ0 ρ γ1
Моя точка зрения во всем этом заключается в том, что подходящая модель должна быть полностью явной, и что программы символической алгебры могут помочь уменьшить беспорядок. (И, конечно, оценки максимального правдоподобия предполагают двумерное нормальное распределение, которое не предполагают оценки наименьших квадратов.)
Приложение: полный код Mathematica
источник