В настоящее время я читаю статью, касающуюся места голосования и предпочтений при голосовании на выборах 2000 и 2004 годов. В нем есть диаграмма, которая отображает коэффициенты логистической регрессии. Из курсов лет назад и немного читаяЯ понимаю логистическую регрессию как способ описания взаимосвязи между несколькими независимыми переменными и двоичной переменной ответа. Что меня смущает, так это приведенная ниже таблица, поскольку на юге коэффициент логистической регрессии равен 0,903, означает ли это, что 90,3% южан голосуют за республиканцев? Из-за логистической природы метрики этой прямой корреляции не существует. Вместо этого я полагаю, что вы можете только сказать, что юг с 0,903 голосует за республиканцев больше, чем горы / равнины, с регрессией 0,506. Учитывая последний случай, как я узнаю, что важно, а что нет, и можно ли экстраполировать процент республиканских голосов, учитывая этот коэффициент логистической регрессии.
Как примечание, пожалуйста, отредактируйте мой пост, если что-то указано неправильно
источник
Ответы:
То , что автор заставил кого - то , как вдумчивые , как вы , чтобы задать вопрос , как это убедительные иллюстрации того , почему практика - еще путь слишком часто - удерживающая отчетность результатов регрессионной модели в таблицу , как это так неприемлемо.
Как указывалось выше, вы можете попытаться преобразовать логит-коэффициент в какое-то значимое указание оцениваемого эффекта для рассматриваемого предиктора, но это громоздко и не дает информации о точности прогноза, что обычно довольно важно в модель логистической регрессии (в частности, при голосовании).
Кроме того, использование нескольких звездочек для сообщения о «уровнях» значимости усиливает заблуждение, что p-значения являются неким значимым показателем величины эффекта («вау, у кого есть 3 звездочки !!»); для вслух вопля от 10000 до 20000 совершенно тривиальные различия будут "значительными" при p <0,001 бла-бла.
Нет никакой необходимости мистифицировать таким образом. Модель логистической регрессии - это уравнение, которое можно использовать (посредством детерминированных вычислений или, что еще лучше, моделирования) для прогнозирования вероятности исхода, обусловленного указанными значениями для предикторов, в зависимости от ошибки измерения. Таким образом, исследователь должен сообщитькаково влияние предикторов интереса на вероятность представляющей интерес переменной результата и связанной с ней CI, измеряемой в единицах, практическую важность которых можно легко понять. Чтобы обеспечить готовность к восприятию, результаты должны быть графически отображены. Здесь, например, исследователь может сообщить, что, будучи сельским избирателем, а не городским избирателем, вероятность избрания республиканца, при прочих равных условиях, увеличивается на X% (я предполагаю, что в 2000 году около 17; «делить на 4» - это разумная эвристика) +/- x% при уровне доверия 0,95 - если это то, что полезно знать.
Сообщение о псевдо R ^ 2 также является признаком того, что разработчик моделей участвует в статистическом ритуале, а не в какой-либо попытке пролить свет. Есть множество способов вычислить «псевдо R ^ 2»; Кто-то может жаловаться, что используемый здесь не указан, но зачем? Все рядом бессмысленно. Единственная причина, по которой кто-либо использует псевдо R ^ 2, заключается в том, что они или рецензент, который их мучает, узнали (вероятно, 25 или более лет назад), что линейная регрессия OLS является священным граалем статистики и считает, что единственное, что когда-либо пытаются выяснить это «объяснение дисперсии». Существует множество надежных способов оценки адекватности общей модели, пригодной для логистического анализа, и отношение правдоподобия дает значимую информацию для сравнения моделей, отражающих альтернативные гипотезы. Кинг Г. Как не врать со статистикой, Am. J. Pol. Sci. 30, 666-687 (1986).
Если вы читаете статью, в которой отчетность более или менее ограничена таблицей, как эта, не путайте, не пугайтесь и, безусловно, не впечатляйтесь; вместо этого будьте сердиты и скажите исследователю, что он или она выполняет паршивую работу (особенно, если он или она загрязняет вашу местную интеллектуальную среду мистиками и трепетом - удивительно, как много посредственных мыслителей заставляют умных людей думать, что они знают что-то, / c они могут создать таблицу, которую последний не может понять). Для умных и умеренных изложения этих идей см. King, G., Tomz, M. & Wittenberg., J. Использование статистического анализа: улучшение интерпретации и представления . Am. J. Pol. Sci. 44, 347-361 (2000); и Gelman A., Pasarica C. & Dodhia R.Давайте попрактикуемся в том, что проповедуем: превращая таблицы в графики . Am. Стат. 56, 121-130 (2002).
источник
Идея здесь заключается в том, что в логистической регрессии мы прогнозируем не реальную вероятность того, что, скажем, южанин голосует за республиканцев, а трансформированную версию, «логарифмические шансы». Вместо вероятности мы имеем дело с и находим коэффициенты линейной регрессии для лог-шансов.log p / ( 1 - p )p logp/(1−p)
Так, например, давайте предположим, что у городского северо-востока вероятность 0,3 для голосования за республиканца составляет 0,3. (Это, конечно, было бы частью регрессии; я не вижу, чтобы это сообщалось в этой таблице, хотя я предполагаю, что это в оригинальной статье.) Теперь, дает ; то есть , «шансы журнала», соответствующие . Эти «шансы журнала» - это то, что ведет себя линейно; логарифмические коэффициенты, соответствующие равны . Таким образом, логарифмические шансы для городского южанина, голосующего за республиканцев, таковы (то, что Википедия называет перехватом, ) плюс коэффициент логистической регрессии для юга,x=1/(1+e−z) z=logx1−x f−1(x)=logx1−x x 0.3 log0.3/0.7≈−0.85 β0 0.903 - то есть . Но вам нужна реальная вероятность, поэтому нам нужно инвертировать функцию . Это дает . Фактические шансы увеличились с до , с до ; отношение составляет , экспонента коэффициента логистической регрессии.−0.85+0.904=0.05 p→logp/(1−p) f(0.05)≈1/(1+e−0.05)≈0.51 0.43 1 1.05 1 1.05/0.43 e0.903
Кроме того, эффекты, скажем, для региона страны и городского / пригородного / сельского не взаимодействуют. Таким образом, в соответствии с этой моделью логарифм сельского республиканца, голосующего на Среднем Западе, составляет ; вероятность составляет .−0.85+0.37+0.68=+0.20 f(0.20)=1/(1+e−0.20)=0.55
источник
Коэффициенты в логистической регрессии представляют тенденцию для данного региона / демографического голоса голосовать за республиканцев по сравнению с контрольной категорией. Положительный коэффициент означает, что регион с большей вероятностью проголосует за республиканца, и наоборот за отрицательный коэффициент; большее абсолютное значение означает более сильную тенденцию, чем меньшее значение.
Эталонными категориями являются «Северо-восток» и «городской избиратель», поэтому все коэффициенты представляют контрасты с этим конкретным типом избирателей.
В общем, нет также ограничений на коэффициенты в логистической регрессии, которые должны быть в [0, 1], даже в абсолютном значении. Обратите внимание, что в самой статье Википедии есть пример логистической регрессии с коэффициентами -5 и 2.
источник
Вы также спросили: «Как я знаю, что важно, а что нет». (Я предполагаю, что вы имеете в виду статистически значимое, поскольку практическое или существенное значение - это другое дело.) Звездочки в таблице относятся к сноске: некоторые эффекты отмечены как имеющие небольшие значения р . Они получены с использованием теста Вальда значимости каждого коэффициента. Предполагая случайную выборку, p <.05 означает, что, если бы не было такого эффекта в большей популяции, вероятность увидеть соединение столь же сильное, как наблюдаемое или более сильное, в выборке такого размера было бы меньше .05 , На этом сайте вы увидите множество тем, обсуждающих тонкий, но важный связанный с этим вопрос, который не дает p <.05 означает, что есть вероятность, что в большей части населения не будет никакой связи.
источник
Позвольте мне подчеркнуть важность того, что оба rolando2 и dmk38 отметили: значимость обычно неверно истолковывается, и существует высокий риск того, что это произойдет при таком табличном представлении результатов.
Пол Шродт недавно предложил хорошее описание проблемы:
(fn) Сноска также сообщает о другой проблеме, упомянутой в dmk38: «[вездесущий Мистический Культ Звезд и Р-значений] вытеснил более ранний и столь же распространяющийся Культ Высшего R2, разрушенный… Королем (1986) «.
источник