Мне всегда трудно объяснить статистические методы аудитории без статистического фона. Если бы я хотел объяснить, что такое GLM для такой аудитории (не выбрасывая статистический жаргон), что было бы лучшим или наиболее эффективным способом?
Я обычно объясняю GLM тремя частями - (1) случайный компонент, который является переменной отклика, (2) систематический компонент, который является линейным предиктором, и (3) функция связи, которая является «ключом» к соединению (1) и (2). Затем я приведу пример линейной или логистической регрессии и объясню, как функция связи выбирается на основе переменной отклика. Следовательно, он действует как ключ, соединяющий два компонента.
Ответы:
Если у аудитории действительно нет статистического фона, думаю, я бы попытался немного упростить объяснение. Сначала я бы нарисовал на доске координатную плоскость с линией, например:
Я бы сказал, что это уравнение является примером простой линейной регрессии. Затем я бы объяснил, как вы (или компьютер) могли бы приспособить такое уравнение к точечной диаграмме точек данных, как показано на этом рисунке:
Я бы сказал, что здесь мы используем возраст организма, который мы изучаем, чтобы предсказать, насколько он велик, и что полученное нами уравнение линейной регрессии (показано на рисунке) может быть использовано, чтобы предсказать, насколько велик организм если мы знаем его возраст
Затем я хотел бы еще раз объяснить, что это был пример простого уравнения линейной регрессии и что на самом деле существуют более сложные разновидности. Например, во множестве, называемом логистической регрессией , y могут быть только 1 или 0. Можно использовать модель такого типа, если вы пытаетесь предсказать ответ «да» или «нет», например, есть ли у кого-то заболевание. Еще одна особая разновидность - это регрессия Пуассона , которая используется для анализа данных «подсчета» или «события» (я бы не стал углубляться в это, если в этом нет особой необходимости).
Затем я бы объяснил, что линейная регрессия, логистическая регрессия и пуассоновская регрессия действительно являются специальными примерами более общего метода, называемого «обобщенной линейной моделью». Самое замечательное в «обобщенных линейных моделях» заключается в том, что они позволяют нам использовать «ответные» данные, которые могут принимать любое значение (например, насколько велик организм в линейной регрессии), принимать только 1 или 0 (например, есть ли у кого-то болезнь в логистической регрессии), или принять дискретные подсчеты (например, число событий в регрессии Пуассона).
Затем я бы сказал, что в уравнениях такого типа x (предикторы) связаны с y (ответами) через то, что статистики называют «функцией связи». Мы используем эти «функции связи» в случаях, когда x не связаны с y линейным образом.
Во всяком случае, это мои два цента по этому вопросу! Может быть, мое предложенное объяснение звучит немного глупо и глупо, но если цель этого упражнения состоит в том, чтобы просто донести до аудитории «суть», возможно, такое объяснение не так уж плохо. Я думаю, что важно, чтобы концепция была объяснена интуитивно понятным образом и чтобы вы не набрасывались на слова типа «случайный компонент», «систематический компонент», «функция связи», «детерминистический», «функция логита» и т. Д. Если вы Разговаривая с людьми, которые на самом деле не имеют статистического опыта, как, например, типичные биологи или врачи, их глаза просто слепят, услышав эти слова. Они не знают, что такое распределение вероятностей, они никогда не слышали о функции связи и не знают, что такое «логит».
В вашем объяснении для нестатистической аудитории я бы также остановился на том, когда использовать какую модель. Я мог бы поговорить о том, сколько предикторов вам разрешено включить в левую часть уравнения (я слышал эмпирические правила, например, не более, чем размер вашей выборки, деленный на десять). Также было бы неплохо включить пример электронной таблицы с данными и объяснить аудитории, как использовать статистический программный пакет для генерации модели. Затем я пошагово изучу результаты этой модели и попытаюсь объяснить, что означают все разные буквы и цифры. Биологи ничего не знают об этом и больше заинтересованы в изучении того, какой тест использовать, а не в том, чтобы понять математику, стоящую за графическим интерфейсом SPSS!
Буду признателен за любые комментарии или предложения, касающиеся моего предложенного объяснения, особенно если кто-то заметит ошибки или придумает лучший способ объяснить это!
источник
Я бы не назвал ответ случайным компонентом. Это комбинация детерминированного и случайного компонента.
источник
Я бы объяснил это, сказав, что иногда мне нужны предсказанные вещи. Например, цена дома дана некоторая информация о нем. Скажем, его размер, местоположение, сколько лет конструкции и т. Д. Я хочу учесть это в модели, которая учитывает влияние этих факторов для прогнозирования цены.
Теперь рассмотрим пример, скажем, я рассматриваю только размер дома. Это означало бы, что ничто иное не влияет на цену. Это может быть случай, когда я сравниваю дома, которые находятся в одной местности, были построены в одно и то же время и т. Д. Или это может быть из-за того, что я не хочу усложнять ситуацию для себя и, следовательно, хочу, чтобы реальная жизнь соответствовала тому, как далеко я могу думать. Двигаясь дальше, я создаю модель, в которой у меня есть список размеров и соответствующих цен на аналогичные объекты (скажем, из-за продаж, которые произошли в последнее время ... но это будет иметь серьезный уклон от домов, которые не продаются и, следовательно, влияют на цену). домов, которые есть. но давайте проигнорируем это).
Теперь я вижу, что дом площадью 100 кв. Футов стоит 1 миллион долларов (покончите с собой, это упрощенный пример). Поэтому, естественно, вы ожидаете, что дом площадью 200 кв. Футов будет стоить вдвое больше. И это то, что мы бы назвали «линейным шаблоном». Конечно, когда мы собираем данные и размер графика в зависимости от цены, мы видим, что она не совсем двойная. Но, безусловно, есть тенденция к увеличению.
Поэтому я пытаюсь количественно оценить тенденцию. Сколько увеличение на каждый увеличенный квадратный фут? Это линейная регрессия.
ВСТАВЬТЕ терминологическую карту и продолжайте со статистическими понятиями. Одним из способов объяснения случайного и систематического компонента может быть то, что все, что вы забыли смоделировать или не могли измерить, является случайным. Все, что вы могли, является систематическим. (Например, скажем, что это 2008 год, и вы хотите продать дом.)
Предположения, лежащие в основе этой модели, заключаются в том, что диаграмма рассеяния должна выглядеть как стержень. Что означает, что оба X и Y являются «нормальными». и все имеют одинаковую дисперсию.
Если это не так, введите GLM. а теперь объясни функцию связи и все такое.
Это упрощено, но это должно работать как введение.
Вы можете поместить в историю GLM и факторных моделей. Там, где Фишер требовал, чтобы вещи начали меняться вместе, и эта структура подходила для такого рода сложности.
Надеюсь это поможет...
источник