Предполагают ли статистики, что нельзя завалить растение или я просто использую неправильные условия поиска для криволинейной регрессии?

18

Почти все, что я читал о линейной регрессии и GLM, сводится к следующему: где - не возрастающая или неубывающая функция а - параметр, который вы оценить и проверить гипотезы о. Существуют десятки функций связи и преобразований и чтобы сделать линейной функцией от .f ( x , β ) x β y x y f ( x , β )Yзнак равное(Икс,β)е(Икс,β)ИксβYИксYе(Икс,β)

Теперь, если вы удалите не возрастающее / неубывающее требование для , я знаю только два варианта подбора параметрической линеаризованной модели: тригонометрические функции и полиномы. И то, и другое создает искусственную зависимость между каждым предсказанным и всем набором , что делает их очень ненадежным соответствием, если нет предварительных причин полагать, что ваши данные фактически генерируются циклическим или полиномиальным процессом.y Xе(Икс,β)YИкс

Это не какой-то эзотерический крайний случай. Это фактические, основанные на здравом смысле отношения между водой и урожайностью (как только участки станут достаточно глубокими под водой, урожайность начнет уменьшаться), или между калориями, потребляемыми во время завтрака и производительностью в математической викторине, или количеством рабочих на фабрике и количество производимых ими виджетов ... короче говоря, почти любой реальный случай, для которого используются линейные модели, но с данными, покрывающими достаточно широкий диапазон, который вы преодолеваете, уменьшая отдачу в отрицательную доходность.

Я попытался найти термины «вогнутый», «выпуклый», «криволинейный», «немонотонный», «ванна», и я забыл, сколько других. Мало уместных вопросов и еще меньше полезных ответов. Таким образом, на практике, если у вас были следующие данные (код R, у - функция непрерывной переменной х и группы дискретных переменных):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

разброс точек

Сначала вы можете попробовать преобразование Бокса-Кокса и посмотреть, имеет ли оно механистический смысл, и в случае неудачи вы можете дополнить нелинейную модель наименьших квадратов функцией логистического или асимптотического связывания.

Итак, почему вы должны полностью отказаться от параметрических моделей и прибегнуть к методу черного ящика, например сплайнам, когда обнаружите, что полный набор данных выглядит следующим образом ...

plot(y~x,updown,col=group);

Мои вопросы:

  • Какие термины мне следует искать, чтобы найти функции ссылок, которые представляют этот класс функциональных отношений?

или

  • Что я должен читать и / или искать, чтобы научить себя, как проектировать функции связи для этого класса функциональных отношений или расширять существующие, которые в настоящее время предназначены только для монотонных ответов?

или

  • Черт возьми, даже какой тег StackExchange наиболее подходит для этого типа вопроса!
f1r3br4nd
источник
4
Понятия не имею, о чем ты спрашиваешь. Вы хотите соответствовать немонотонной функции ... что именно является вашей проблемой с полиномиальной или синусоидальной регрессией снова ?? Кроме того ... "функция ссылки" ... вы продолжаете использовать это слово ... Я не думаю, что это означает, что вы думаете, что это значит. Икс
Джейк Уэстфолл,
5
(1) Ваш Rкод имеет синтаксические ошибки: groupне должен быть в кавычках. (2) Сюжет прекрасен: красные точки демонстрируют линейную зависимость, в то время как черные могут подходить несколькими способами, включая кусочно-линейную регрессию (полученную с помощью модели точек изменения) и, возможно, даже как экспоненциальную. Я не рекомендую их, однако, потому что выбор моделей должен основываться на понимании того, что привело к получению данных и мотивировано теориями в соответствующих дисциплинах. Они могут быть лучшим началом для ваших исследований.
whuber
1
@ whuber спасибо! Исправлен код. Относительно теоретической мотивации: откуда они вообще берутся? Мои коллеги-коллеги с радостью дихотомируют переменные-предикторы и проводят t-тесты на них. Поэтому мне выпало найти способ прекратить тратить данные, найдя математическое соотношение, которое фиксирует переход от «у положительно коррелирует с х» к «у мало реагирует на х» к «у коррелирует отрицательно с х». Если это не удастся, мне придется вспомнить, что, например, сделали Михаэлис и Ментен, когда нашли связь между ферментом, субстратом и продуктом.
f1r3br4nd
1
Точки, где эти вещи «изломаны» известны заранее?
Glen_b
3
+1 за провокационное название и продолжение, которое на самом деле имеет смысл
Stumpy Joe Pete

Ответы:

45

Замечания в вопросе о ссылочных функциях и монотонности - красная сельдь. По-видимому, в их основе лежит неявное предположение о том, что обобщенная линейная модель (GLM), выражающая ожидание ответа в виде монотонной функции f линейной комбинации X β объясняющих переменных X , не является достаточно гибкой, чтобы учитывать не монотонные ответы. Это просто не так.YеИксβИкс


Возможно, проработанный пример осветит этот момент. В исследовании 1948 года (опубликованном посмертно в 1977 году и никогда не рецензированном) Дж. Толкин сообщил о результатах эксперимента по поливу растений, в котором 13 группам из 24 подсолнухов ( Helianthus Gondorensis ) дали контролируемое количество воды, начиная с прорастания через три месяца роста. Общее количество примененных варьировалось от одного дюйма до 25 дюймов с шагом в два дюйма.

фигура 1

Существует явный положительный ответ на полив и сильный отрицательный ответ на полив. В более ранних работах, основанных на гипотетических кинетических моделях переноса ионов, была выдвинута гипотеза о том, что такое поведение может объясняться двумя конкурирующими механизмами: один приводил к линейному отклику на небольшое количество воды (как измерено в лог-коэффициентах выживания), а другой - -ингибирующий фактор - действовал экспоненциально (что является сильно нелинейным эффектом). При большом количестве воды ингибирующий фактор подавляет положительный эффект воды и значительно повышает смертность.

κYNИкс

бином(N,е(β0+β1Икс-β2ехр(κИкс)))
еИксκβ0β1β2е-1(Е[Y])Икс1β0Иксβ1-ехр(κИкс)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

Нет технических сложностей; расчет занимает всего 1/30 секунды.

фигура 2

Е[Y]

Е[Y]ИксR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Ответы на вопросы:

Какие термины мне следует искать, чтобы найти функции ссылок, которые представляют этот класс функциональных отношений?

None : это не цель функции ссылки.

Что я должен ... искать, чтобы ... расширить существующие [функции ссылок], которые в настоящее время предназначены только для монотонных ответов?

Ничего : это основано на неправильном понимании того, как моделируются ответы.

Очевидно, что сначала следует сосредоточиться на том, какие объясняющие переменные использовать или построить при построении регрессионной модели. Как предлагается в этом примере, ищите руководство из прошлого опыта и теории.

Whuber
источник
офигенный ответ! Это реальные данные Толкина из романа?
Cam.Davidson.Pilon
1
@Cam Данные не попали в окончательный вариант :-). (Боюсь, контекст довольно
ненормативен
1
κ
5
κκχ2(1)
1
@zipzapboing Пример, который я привожу здесь, является особенным, потому что он основан на основной теории. Когда такая информация доступна, она может стать мощным руководством по выбору модели. Во многих случаях, однако, такой информации нет, или можно только надеяться, что ожидаемый ответ может изменяться монотонно с регрессорами. Возможно, самая фундаментальная причина, на которую можно было бы указать, - это надежда на то, что отклик различается в зависимости от регрессоров и что для диапазона регрессоров в данных изменение производной невелико: линейный отклик будет хорошо аппроксимироваться.
whuber
9

Виновато смотрит на умирающее растение на своем столе .... видимо, нет

В комментариях @whuber говорит, что «выбор модели должен основываться на понимании того, что послужило причиной получения данных и мотивации теориями в соответствующих дисциплинах», на что вы спросили, как это сделать.

Кинетика Михаэлиса и Ментена на самом деле является довольно полезным примером. Эти уравнения можно вывести, исходя из некоторых допущений (например, субстрат находится в равновесии со своим комплексом, фермент не расходуется) и некоторых известных принципов (закон действия массы). Математическая биология Мюррея: Введение проходит через вывод в главе 6 (держу пари, что многие другие книги тоже!).

В целом, это помогает создать «репертуар» моделей и предположений. Я уверен, что в вашей области есть некоторые общепринятые, проверенные временем модели. Например, если что-то заряжается или разряжается, я бы взял экспоненту, чтобы моделировать его напряжение как функцию времени. И наоборот, если я вижу экспоненциальную фигуру на графике напряжения-времени, мое первое предположение состоит в том, что что-то в цепи емкостно разряжается, и, если я не знаю, что это было, я бы попытался найти это. В идеале теория может помочь вам построить модель и предложить новые эксперименты.

Yзнак равноК-(Икс+час)2Колорадо2 захват от меньшего количества транспирации?) и наводнения (бактерии, питающиеся корнями?) могут предложить конкретную форму для каждого куска.

Мэтт Краузе
источник
8

У меня довольно неформальный ответ с точки зрения того, кто половину своей научной жизни провел за скамейкой, а другую половину за компьютером, играя со статистикой. Я пытался добавить комментарий, но это было слишком долго.

Видите ли, если бы я был ученым, наблюдающим тип результатов, которые вы получаете, я был бы в восторге. Различные монотонные отношения скучны и едва различимы. Тем не менее, тип отношений, который вы нам показываете, предполагает весьма специфический эффект. Это дает нам прекрасную площадку для теоретиков для выдвижения гипотез о том, что такое отношения, как они изменяются в крайности. Это дает отличную площадку для ученого, чтобы он мог выяснить, что происходит, и широко экспериментировать с условиями.

В некотором смысле, я бы предпочел иметь дело, которое вы демонстрируете, и не знаю, как подобрать простую модель (но иметь возможность выработать новую гипотезу), чем иметь простые отношения, которые легко моделировать, но сложнее исследовать механически. Однако я еще не сталкивался с подобным случаем в моей практике.

Наконец, есть еще одно соображение. Если вы ищете тест, который показывает, что черный отличается от красного (по вашим данным) - как бывший ученый, я скажу, зачем вообще беспокоиться? Это достаточно ясно из рисунка.

январь
источник
5

Для таких данных я бы, по крайней мере, рассмотрел линейные сплайны.

Вы можете сделать это в лм или глм достаточно легко.

Если вы выберете такой подход, ваша проблема будет заключаться в выборе количества узлов и мест расположения узлов; Одним из решений может быть рассмотрение достаточного количества возможных мест и использование чего-то вроде лассо или других методов регуляризации и отбора для определения небольшого набора; Вы должны будете принять во внимание эффект такого выбора в выводе все же.

Glen_b - Восстановить Монику
источник
Но разве сплайн-регрессия в основном не говорит, что «существует неизвестная функция, описывающая форму ответа, и мы будем только проверять гипотезы о том, как другие переменные сдвигают эту кривую вверх / вниз или наклоняют ее»? Что, если лечение изменяет саму форму - как интерпретировать такой термин взаимодействия, если он значим?
f1r3br4nd
2
Насколько общая альтернатива? Даже для общего случая существует множество подходов, в которых можно сравнить сравнение, предполагая идентичные непараметрические функции по сравнению с отдельными. Аддитивные модели и обобщенные аддитивные модели могут иметь дело с такими сравнениями.
Glen_b
В качестве примера более общего случая, чем вы обсуждаете (со ссылками, обсуждающими множество других подходов), если вы можете воспользоваться им, взгляните на эту статью J.Roca-Pardiñas et al (2006) «Bootstrap-based методы для тестирования межфакторных взаимодействий в обобщенных аддитивных моделях: оценка нейронной активности префронтальной коры, связанной с принятием решений ", Статистика в медицине , 30 июля; 25 (14): 2483-501. В этой статье они используют начальную загрузку (и биннинг для уменьшения вычислительной нагрузки), но там упоминаются и другие подходы.
Glen_b
Более простым и старым справочником будет что-то вроде Hastie and Tibshirani (1990), Обобщенные аддитивные модели (например, см. С.265). Кроме того , посмотрите здесь , в частности, последнее уравнение на слайде 34. Вокруг также объясняет , как уместить такую модель , используя gamв пакете R mgcv.
Glen_b
2

У меня не было времени прочитать весь ваш пост, но, похоже, ваша главная проблема в том, что функциональные формы ответов могут меняться в зависимости от лечения. Есть методы для решения этой проблемы, но они требуют больших объемов данных.
К вашему конкретному примеру:

G - рост W - вода T - обработка

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

В последнее десятилетие было проведено множество исследований полупараметрической регрессии, и эти жалобы о функциональных формах становятся все более управляемыми. Но, в конце концов, статистика играет с числами и полезна только потому, что она создает интуицию о наблюдаемых явлениях. Это, в свою очередь, требует понимания способов, которыми играют числа. Тон вашего поста свидетельствует о готовности выбросить ребенка с водой из ванны.

generic_user
источник