Как бы вы объяснили обобщенные линейные модели людям без статистического фона?

16

Мне всегда трудно объяснить статистические методы аудитории без статистического фона. Если бы я хотел объяснить, что такое GLM для такой аудитории (не выбрасывая статистический жаргон), что было бы лучшим или наиболее эффективным способом?

Я обычно объясняю GLM тремя частями - (1) случайный компонент, который является переменной отклика, (2) систематический компонент, который является линейным предиктором, и (3) функция связи, которая является «ключом» к соединению (1) и (2). Затем я приведу пример линейной или логистической регрессии и объясню, как функция связи выбирается на основе переменной отклика. Следовательно, он действует как ключ, соединяющий два компонента.

кругозор
источник
Какой фон у аудитории? Объяснение ГЛМ математику или биологу совсем другое.
1
Математиков без статистического образования будет мало, @Procrastinator. Но ваша точка зрения хорошая: более четкое представление о предполагаемой аудитории поможет сохранить ответы согласованными и целенаправленными. Не могли бы вы отредактировать вопрос, чтобы расширить это, Кен?
whuber
1
Я понимаю вашу точку зрения, @Procrastinator, но я надеялся получить простой для понимания ответ для всех (математиков и / или биологов), в общем, потому что, если у меня нет математического или биологического фона (что имеет место), В любом случае, я не знаю, как объяснить им GLM в отношении их происхождения.
Кен,
4
Я думаю, что важно помнить, что вы можете получить степень бакалавра, магистра или даже доктора биологических наук, даже не посещая занятия по статистике, даже во многих университетах первого уровня. Моя степень в области биохимии потребовала два семестра вступительного исчисления и один семестр дифференциальных уравнений. Суть этих занятий быстро забывается, потому что многие ученики никогда не будут использовать эти навыки снова! Так что я действительно думаю, что необходимо придумать объяснение для типичных не статистиков.
Александр
Комментарий для добавления к ответам ниже; если вы можете найти подходящую линию (т. е. функцию связи и линейные предикторы), то связь с эффективным взвешиванием обратной дисперсии не так сложна для связи; мы просто хотим увеличить точный вклад и уменьшить вес остальных. Это позволяет вам не говорить ничего слишком технического о случайности результатов. NB GLM были разработаны как (просто) модели, в которых IWLS могут использоваться для предоставления MLE, поэтому описанный выше способ мышления о них отражает большую часть того, почему они действительно полезны.
гость

Ответы:

25

Если у аудитории действительно нет статистического фона, думаю, я бы попытался немного упростить объяснение. Сначала я бы нарисовал на доске координатную плоскость с линией, например:

у = мх + б

 Yзнак равномИкс+б

 мИкс+бзнак равноY

Я бы сказал, что это уравнение является примером простой линейной регрессии. Затем я бы объяснил, как вы (или компьютер) могли бы приспособить такое уравнение к точечной диаграмме точек данных, как показано на этом рисунке:

Точечный график

Я бы сказал, что здесь мы используем возраст организма, который мы изучаем, чтобы предсказать, насколько он велик, и что полученное нами уравнение линейной регрессии (показано на рисунке) может быть использовано, чтобы предсказать, насколько велик организм если мы знаем его возраст

 мИкс+бзнак равноY

Затем я хотел бы еще раз объяснить, что это был пример простого уравнения линейной регрессии и что на самом деле существуют более сложные разновидности. Например, во множестве, называемом логистической регрессией , y могут быть только 1 или 0. Можно использовать модель такого типа, если вы пытаетесь предсказать ответ «да» или «нет», например, есть ли у кого-то заболевание. Еще одна особая разновидность - это регрессия Пуассона , которая используется для анализа данных «подсчета» или «события» (я бы не стал углубляться в это, если в этом нет особой необходимости).

Затем я бы объяснил, что линейная регрессия, логистическая регрессия и пуассоновская регрессия действительно являются специальными примерами более общего метода, называемого «обобщенной линейной моделью». Самое замечательное в «обобщенных линейных моделях» заключается в том, что они позволяют нам использовать «ответные» данные, которые могут принимать любое значение (например, насколько велик организм в линейной регрессии), принимать только 1 или 0 (например, есть ли у кого-то болезнь в логистической регрессии), или принять дискретные подсчеты (например, число событий в регрессии Пуассона).

Затем я бы сказал, что в уравнениях такого типа x (предикторы) связаны с y (ответами) через то, что статистики называют «функцией связи». Мы используем эти «функции связи» в случаях, когда x не связаны с y линейным образом.

Во всяком случае, это мои два цента по этому вопросу! Может быть, мое предложенное объяснение звучит немного глупо и глупо, но если цель этого упражнения состоит в том, чтобы просто донести до аудитории «суть», возможно, такое объяснение не так уж плохо. Я думаю, что важно, чтобы концепция была объяснена интуитивно понятным образом и чтобы вы не набрасывались на слова типа «случайный компонент», «систематический компонент», «функция связи», «детерминистический», «функция логита» и т. Д. Если вы Разговаривая с людьми, которые на самом деле не имеют статистического опыта, как, например, типичные биологи или врачи, их глаза просто слепят, услышав эти слова. Они не знают, что такое распределение вероятностей, они никогда не слышали о функции связи и не знают, что такое «логит».

В вашем объяснении для нестатистической аудитории я бы также остановился на том, когда использовать какую модель. Я мог бы поговорить о том, сколько предикторов вам разрешено включить в левую часть уравнения (я слышал эмпирические правила, например, не более, чем размер вашей выборки, деленный на десять). Также было бы неплохо включить пример электронной таблицы с данными и объяснить аудитории, как использовать статистический программный пакет для генерации модели. Затем я пошагово изучу результаты этой модели и попытаюсь объяснить, что означают все разные буквы и цифры. Биологи ничего не знают об этом и больше заинтересованы в изучении того, какой тест использовать, а не в том, чтобы понять математику, стоящую за графическим интерфейсом SPSS!

Буду признателен за любые комментарии или предложения, касающиеся моего предложенного объяснения, особенно если кто-то заметит ошибки или придумает лучший способ объяснить это!

Александр
источник
4
Не все знакомы с уравнением для линии; даже не все аспиранты, не все люди с докторской степенью.
Питер Флом - Восстановить Монику
6
Я имею в виду, я уверен, что в мире существует аспирант, который не знает уравнения для линии, но, вероятно, аудитория, которой вы хотели бы объяснить обобщенные линейные модели, по крайней мере, имела бы половину понятия о высоком алгебра школьного уровня! : -o
Александр
Я согласен с тобой, Александр, и твой подход кажется мне очень естественным. Я бы не стал слишком сильно (или слишком рано) фокусироваться на «g» glm и не стал бы различать случайные и фиксированные значения. Конечно, это зависит от количества времени, которое вы должны объяснить все это.
Доминик Комтуа
Yзнак равноαИкс+βα
10

Я бы не назвал ответ случайным компонентом. Это комбинация детерминированного и случайного компонента.

журнал(п/(1-п))[0,1]

Майкл Р. Черник
источник
3
Интересно об этом использовании «ответа». Наша целевая аудитория, скорее всего, поймет, что означает наблюдаемый ответ: да или нет, 0 или 1 и т. Д. В логистической регрессии мы моделируем что-то ненаблюдаемое (и никогда непосредственно не наблюдаемое); а именно, гипотетический шанс ответа. «Ссылка» - это просто выражение этих шансов как логарифмов, а не вероятностей. Логистическая регрессия предполагает, что логарифмические коэффициенты изменяются линейно с IV. (Мое использование «модель», «предположить» и «гипотетический», а не «есть» и «предсказать», также указывает на другую когнитивную и онтологическую точку зрения.)
whuber
1
Хорошая точка зрения.
Майкл Р. Черник
-2

Я бы объяснил это, сказав, что иногда мне нужны предсказанные вещи. Например, цена дома дана некоторая информация о нем. Скажем, его размер, местоположение, сколько лет конструкции и т. Д. Я хочу учесть это в модели, которая учитывает влияние этих факторов для прогнозирования цены.

Теперь рассмотрим пример, скажем, я рассматриваю только размер дома. Это означало бы, что ничто иное не влияет на цену. Это может быть случай, когда я сравниваю дома, которые находятся в одной местности, были построены в одно и то же время и т. Д. Или это может быть из-за того, что я не хочу усложнять ситуацию для себя и, следовательно, хочу, чтобы реальная жизнь соответствовала тому, как далеко я могу думать. Двигаясь дальше, я создаю модель, в которой у меня есть список размеров и соответствующих цен на аналогичные объекты (скажем, из-за продаж, которые произошли в последнее время ... но это будет иметь серьезный уклон от домов, которые не продаются и, следовательно, влияют на цену). домов, которые есть. но давайте проигнорируем это).

Теперь я вижу, что дом площадью 100 кв. Футов стоит 1 миллион долларов (покончите с собой, это упрощенный пример). Поэтому, естественно, вы ожидаете, что дом площадью 200 кв. Футов будет стоить вдвое больше. И это то, что мы бы назвали «линейным шаблоном». Конечно, когда мы собираем данные и размер графика в зависимости от цены, мы видим, что она не совсем двойная. Но, безусловно, есть тенденция к увеличению.

Поэтому я пытаюсь количественно оценить тенденцию. Сколько увеличение на каждый увеличенный квадратный фут? Это линейная регрессия.

ВСТАВЬТЕ терминологическую карту и продолжайте со статистическими понятиями. Одним из способов объяснения случайного и систематического компонента может быть то, что все, что вы забыли смоделировать или не могли измерить, является случайным. Все, что вы могли, является систематическим. (Например, скажем, что это 2008 год, и вы хотите продать дом.)

Предположения, лежащие в основе этой модели, заключаются в том, что диаграмма рассеяния должна выглядеть как стержень. Что означает, что оба X и Y являются «нормальными». и все имеют одинаковую дисперсию.

Если это не так, введите GLM. а теперь объясни функцию связи и все такое.

Это упрощено, но это должно работать как введение.

Вы можете поместить в историю GLM и факторных моделей. Там, где Фишер требовал, чтобы вещи начали меняться вместе, и эта структура подходила для такого рода сложности.

Надеюсь это поможет...

Нага
источник
1
Мы ценим ваши усилия, но нет необходимости публиковать материалы до тех пор, пока вы не закончите их писать. В его нынешнем виде способ, которым он разлагается на редкие загадочные заметки в конце, разочарует читателей.
whuber