Почти все, что я читал о линейной регрессии и GLM, сводится к следующему: где - не возрастающая или неубывающая функция а - параметр, который вы оценить и проверить гипотезы о. Существуют десятки функций связи и преобразований и чтобы сделать линейной функцией от .f ( x , β ) x β y x y f ( x , β )
Теперь, если вы удалите не возрастающее / неубывающее требование для , я знаю только два варианта подбора параметрической линеаризованной модели: тригонометрические функции и полиномы. И то, и другое создает искусственную зависимость между каждым предсказанным и всем набором , что делает их очень ненадежным соответствием, если нет предварительных причин полагать, что ваши данные фактически генерируются циклическим или полиномиальным процессом.y X
Это не какой-то эзотерический крайний случай. Это фактические, основанные на здравом смысле отношения между водой и урожайностью (как только участки станут достаточно глубокими под водой, урожайность начнет уменьшаться), или между калориями, потребляемыми во время завтрака и производительностью в математической викторине, или количеством рабочих на фабрике и количество производимых ими виджетов ... короче говоря, почти любой реальный случай, для которого используются линейные модели, но с данными, покрывающими достаточно широкий диапазон, который вы преодолеваете, уменьшая отдачу в отрицательную доходность.
Я попытался найти термины «вогнутый», «выпуклый», «криволинейный», «немонотонный», «ванна», и я забыл, сколько других. Мало уместных вопросов и еще меньше полезных ответов. Таким образом, на практике, если у вас были следующие данные (код R, у - функция непрерывной переменной х и группы дискретных переменных):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Сначала вы можете попробовать преобразование Бокса-Кокса и посмотреть, имеет ли оно механистический смысл, и в случае неудачи вы можете дополнить нелинейную модель наименьших квадратов функцией логистического или асимптотического связывания.
Итак, почему вы должны полностью отказаться от параметрических моделей и прибегнуть к методу черного ящика, например сплайнам, когда обнаружите, что полный набор данных выглядит следующим образом ...
plot(y~x,updown,col=group);
Мои вопросы:
- Какие термины мне следует искать, чтобы найти функции ссылок, которые представляют этот класс функциональных отношений?
или
- Что я должен читать и / или искать, чтобы научить себя, как проектировать функции связи для этого класса функциональных отношений или расширять существующие, которые в настоящее время предназначены только для монотонных ответов?
или
- Черт возьми, даже какой тег StackExchange наиболее подходит для этого типа вопроса!
R
код имеет синтаксические ошибки:group
не должен быть в кавычках. (2) Сюжет прекрасен: красные точки демонстрируют линейную зависимость, в то время как черные могут подходить несколькими способами, включая кусочно-линейную регрессию (полученную с помощью модели точек изменения) и, возможно, даже как экспоненциальную. Я не рекомендую их, однако, потому что выбор моделей должен основываться на понимании того, что привело к получению данных и мотивировано теориями в соответствующих дисциплинах. Они могут быть лучшим началом для ваших исследований.Ответы:
Замечания в вопросе о ссылочных функциях и монотонности - красная сельдь. По-видимому, в их основе лежит неявное предположение о том, что обобщенная линейная модель (GLM), выражающая ожидание ответа в виде монотонной функции f линейной комбинации X β объясняющих переменных X , не является достаточно гибкой, чтобы учитывать не монотонные ответы. Это просто не так.Y е Иксβ Икс
Возможно, проработанный пример осветит этот момент. В исследовании 1948 года (опубликованном посмертно в 1977 году и никогда не рецензированном) Дж. Толкин сообщил о результатах эксперимента по поливу растений, в котором 13 группам из 24 подсолнухов ( Helianthus Gondorensis ) дали контролируемое количество воды, начиная с прорастания через три месяца роста. Общее количество примененных варьировалось от одного дюйма до 25 дюймов с шагом в два дюйма.
Существует явный положительный ответ на полив и сильный отрицательный ответ на полив. В более ранних работах, основанных на гипотетических кинетических моделях переноса ионов, была выдвинута гипотеза о том, что такое поведение может объясняться двумя конкурирующими механизмами: один приводил к линейному отклику на небольшое количество воды (как измерено в лог-коэффициентах выживания), а другой - -ингибирующий фактор - действовал экспоненциально (что является сильно нелинейным эффектом). При большом количестве воды ингибирующий фактор подавляет положительный эффект воды и значительно повышает смертность.
R
Нет технических сложностей; расчет занимает всего 1/30 секунды.
R
Ответы на вопросы:
None : это не цель функции ссылки.
Ничего : это основано на неправильном понимании того, как моделируются ответы.
Очевидно, что сначала следует сосредоточиться на том, какие объясняющие переменные использовать или построить при построении регрессионной модели. Как предлагается в этом примере, ищите руководство из прошлого опыта и теории.
источник
Виновато смотрит на умирающее растение на своем столе .... видимо, нет
В комментариях @whuber говорит, что «выбор модели должен основываться на понимании того, что послужило причиной получения данных и мотивации теориями в соответствующих дисциплинах», на что вы спросили, как это сделать.
Кинетика Михаэлиса и Ментена на самом деле является довольно полезным примером. Эти уравнения можно вывести, исходя из некоторых допущений (например, субстрат находится в равновесии со своим комплексом, фермент не расходуется) и некоторых известных принципов (закон действия массы). Математическая биология Мюррея: Введение проходит через вывод в главе 6 (держу пари, что многие другие книги тоже!).
В целом, это помогает создать «репертуар» моделей и предположений. Я уверен, что в вашей области есть некоторые общепринятые, проверенные временем модели. Например, если что-то заряжается или разряжается, я бы взял экспоненту, чтобы моделировать его напряжение как функцию времени. И наоборот, если я вижу экспоненциальную фигуру на графике напряжения-времени, мое первое предположение состоит в том, что что-то в цепи емкостно разряжается, и, если я не знаю, что это было, я бы попытался найти это. В идеале теория может помочь вам построить модель и предложить новые эксперименты.
источник
У меня довольно неформальный ответ с точки зрения того, кто половину своей научной жизни провел за скамейкой, а другую половину за компьютером, играя со статистикой. Я пытался добавить комментарий, но это было слишком долго.
Видите ли, если бы я был ученым, наблюдающим тип результатов, которые вы получаете, я был бы в восторге. Различные монотонные отношения скучны и едва различимы. Тем не менее, тип отношений, который вы нам показываете, предполагает весьма специфический эффект. Это дает нам прекрасную площадку для теоретиков для выдвижения гипотез о том, что такое отношения, как они изменяются в крайности. Это дает отличную площадку для ученого, чтобы он мог выяснить, что происходит, и широко экспериментировать с условиями.
В некотором смысле, я бы предпочел иметь дело, которое вы демонстрируете, и не знаю, как подобрать простую модель (но иметь возможность выработать новую гипотезу), чем иметь простые отношения, которые легко моделировать, но сложнее исследовать механически. Однако я еще не сталкивался с подобным случаем в моей практике.
Наконец, есть еще одно соображение. Если вы ищете тест, который показывает, что черный отличается от красного (по вашим данным) - как бывший ученый, я скажу, зачем вообще беспокоиться? Это достаточно ясно из рисунка.
источник
Для таких данных я бы, по крайней мере, рассмотрел линейные сплайны.
Вы можете сделать это в лм или глм достаточно легко.
Если вы выберете такой подход, ваша проблема будет заключаться в выборе количества узлов и мест расположения узлов; Одним из решений может быть рассмотрение достаточного количества возможных мест и использование чего-то вроде лассо или других методов регуляризации и отбора для определения небольшого набора; Вы должны будете принять во внимание эффект такого выбора в выводе все же.
источник
gam
в пакете Rmgcv
.У меня не было времени прочитать весь ваш пост, но, похоже, ваша главная проблема в том, что функциональные формы ответов могут меняться в зависимости от лечения. Есть методы для решения этой проблемы, но они требуют больших объемов данных.
К вашему конкретному примеру:
G - рост W - вода T - обработка
В последнее десятилетие было проведено множество исследований полупараметрической регрессии, и эти жалобы о функциональных формах становятся все более управляемыми. Но, в конце концов, статистика играет с числами и полезна только потому, что она создает интуицию о наблюдаемых явлениях. Это, в свою очередь, требует понимания способов, которыми играют числа. Тон вашего поста свидетельствует о готовности выбросить ребенка с водой из ванны.
источник