У меня есть опыт работы на уровне начального уровня для выпускников (предположим, я знаю математическую статистику и вероятность на уровне бакалавриата (например, Wackerly et al., Ross 'Вероятность) и немного знаком с теорией мер).
Недавно я начал работу по созданию экспериментального дизайна и статистической отчетности в области статистики образования, и меня привлекли к проекту, в котором я в основном оцениваю показатели подотчетности для школ и должен анализировать данные, предлагать изменения и т. Д. Обратите внимание, что я единственный один в моем отделе с фоном математической статистики.
На моей позиции, люди настоятельно рекомендовали использовать величину эффекта для измерения эффективности программ. Единственный раз, когда я слышал о величине эффекта, это мой друг, который изучал психологию. У меня сложилось впечатление, что
Что такого полезного в этой метрике по сравнению с традиционным тестированием гипотез и почему я должен беспокоиться об этом? Для меня это выглядит не более чем тестовой статистикой для теста с двумя выборками. Я не вижу в этом ничего полезного, за исключением того, что, возможно, все в одном масштабе (и поэтому кто-то что-то действительно «нормализует»), но я подумал, что статистика тестов (как мне кажется, размер эффекта) вышла из моды и p-значения являются предпочтительными.
источник
Ответы:
Это одна мера величины эффекта, но есть много других. Это, конечно , не тестовой статистики. Ваш размер эффекта часто называют Коэном d (строго говоря, это правильно, только если SD оценивается с помощью MLE, т.е. без коррекции Бесселя ); в более общем смысле это называется «стандартизированная средняя разница». Возможно, это прояснит, что t ≠ d : dT d т ≠ d
То есть, "/√
источник
Я ожидаю, что кто-то с опытом работы в более релевантной области (скажем, в области психологии или образования) даст лучший ответ, но я попробую.
« Размер эффекта » - это термин, имеющий более одного значения - который много лет назад приводил к некоторым запутанным разговорам, пока я в конце концов не пришел к этому пониманию. Здесь мы имеем дело с версией с масштабированием по стандартному отклонению («на сколько стандартных отклонений это изменилось?»)
Одной из причин рассмотрения такого рода «величины эффекта» в предметных областях, в которых они распространены, является то, что они часто имеют переменные, чьи конкретные значения не имеют существенного значения, но сконструированы так, чтобы пытаться измерить какую-то базовую вещь, которую трудно получить. в.
Например, представьте, что вы пытаетесь измерить удовлетворенность работой (возможно, для модели, которая связывает ее с каким-то набором независимых переменных, например, может включать некоторую обработку интереса). У вас нет никакого способа получить это напрямую, но вы можете (например) попытаться составить какую-то анкету, чтобы разобраться в разных ее аспектах, возможно, используя что-то вроде шкалы Лайкерта.
У другого исследователя может быть другой подход к измерению удовлетворенности работой, и поэтому ваши два набора измерений "Удовлетворенности" не могут быть напрямую сопоставлены - но если они имеют различные формы достоверности и т. Д., На которые эти вещи проверяются (так, чтобы они могут разумно измерять удовлетворение), тогда можно надеяться, что они будут иметь очень похожие величины эффекта; по крайней мере, размер эффекта будет более сопоставимым.
источник
Приведенная выше формула показывает, как вы вычисляете d Коэна для связанных выборок (что, вероятно, то, что у вас есть?), Если они не связаны, вы можете вместо этого использовать объединенную дисперсию. Существуют различные статистические данные, которые скажут вам о величине эффекта, но d Коэна - это стандартизированная мера, которая может варьироваться от 0 до 3. Если у вас много разных переменных, было бы неплохо иметь стандартизированную меру, когда вы думаете о они все вместе. С другой стороны, многие люди предпочитают понимать величину эффекта с точки зрения измеряемых единиц. Зачем вычислять d, если у вас уже есть значения p? Вот пример из набора данных, с которым я сейчас работаю. Я смотрю на поведенческое вмешательство, проводимое в школах, измеряемое с помощью проверенных психологических опросников (с получением данных Лайкерта). Почти все мои переменные показывают статистически значимое изменение, возможно, неудивительное, поскольку у меня большая выборка (n = ~ 250). Тем не менее, для некоторых переменных Коэна dдовольно незначительно, скажем, 0,12, что указывает на то, что, хотя есть определенное изменение, оно не может быть клинически важным изменением и поэтому важно для обсуждения и интерпретации того, что происходит в данных. Эта концепция широко используется в психологии и науках о здоровье, где практикующим врачам (или школам, в вашем случае) необходимо учитывать реальную клиническую полезность лечения (или того, с чем они экспериментируют). D Коэна помогает нам ответить на вопросы о том, действительно ли стоит делать вмешательство (независимо от значений p). В медицинских науках им также нравится рассматривать NNT и оценивать это с точки зрения серьезности рассматриваемого состояния. Посмотрите на этот замечательный ресурс от @krstoffr http://rpsychologist.com/d3/cohend/
источник
То, что вы написали, не является тестовой статистикой. Это мера, используемая для определения того, насколько эти два средства различны. Как правило, размеры эффекта используются для количественной оценки того, насколько далеко от нулевых гипотез находится нечто. Например, если вы делаете анализ мощности для двух образцовT -тест, вы можете количественно оценить мощность как функцию размера эффекта (для фиксированной N Вы только что написали (что, я думаю, называется Коэном D). В других контекстах размер эффекта может быть чем-то другим.
Также нередко сообщать о величинах эффекта, используя величины выборки, которые могут совпадать с некоторыми известными статистическими данными, такими как корреляция Пирсона - истинный размер эффекта является основным коэффициентом корреляции, который генерировал данные, но корреляция выборки также является полезной информацией для есть иногда. Цель количественной оценки того, насколько далеки от нулевой гипотезы наблюдаемые данные, так или иначе, а не просто сообщатьп -значение и называть это днем.
источник
Фактически, p-значения теперь, наконец, «вышли из моды»: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Тестирование значимости нулевой гипотезы (NHST) дает немного больше, чем описание размера вашей выборки. (*) Любое экспериментальное вмешательство будет иметь некоторый эффект, то есть сказать, что простая нулевая гипотеза «без эффекта» всегда ложна в строгом смысле , Следовательно, «незначительный» тест просто означает, что размер вашей выборки был недостаточно большим; «значительный» тест означает, что вы собрали достаточно данных, чтобы «найти» что-то.
«Размер эффекта» представляет собой попытку исправить это путем введения меры в естественном масштабе проблемы. В медицине, где лечение всегда оказывает некоторый эффект (даже если это эффект плацебо), понятие «клинически значимый эффект» вводится для защиты от 50% -ной вероятности того, что «лечение» будет иметь «a ( статистически) значительный положительный эффект »(хотя и незначительный) в произвольно большом исследовании.
Если я понимаю природу вашей работы, кларнетист, то, в конце концов, ее законная цель - информировать о действиях / вмешательствах, которые улучшают образование в школах, находящихся под вашей компетенцией. Таким образом, ваша установка является теоретико-решающей , и байесовские методы являются наиболее подходящим (и однозначно согласованным [1] ) подходом.
В самом деле, лучший способ понять частые методы - это приближение к байесовским методам . Оцениваемый размер эффекта можно понимать как стремление к измерению центральности для байесовского апостериорного распределения , тогда как значение p можно понимать как стремление измерить один хвост этого заднего. Таким образом, вместе эти две величины содержат некоторую грубую суть байесовского апостериора, который представляет собой естественный вклад в теоретико-ориентированный взгляд на вашу проблему. (В качестве альтернативы, частичный доверительный интервал по величине эффекта можно также понимать как вероятный интервал .)
В области психологии и образования, байесовские методы на самом деле довольно популярны. Одна из причин этого заключается в том, что в байесовские модели легко установить «конструкции» в качестве скрытых переменных. Возможно, вы захотите проверить «книгу о щенках» Джона К. Крушке , психолога. В образовании (где у вас есть ученики, вложенные в классы, вложенные в школы, вложенные в районы, ...), иерархическое моделирование неизбежно. И байесовские модели также хороши для иерархического моделирования. На этот счет вы можете проверить Gelman & Hill [2].
[1]: Роберт, Кристиан П. Байесовский выбор: от теоретических основ принятия решений до вычислительной реализации. 2-е изд. Тексты Springer в статистике. Нью-Йорк: Спрингер, 2007.
[2]: Гельман, Эндрю и Дженнифер Хилл. Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей. Аналитические методы социальных исследований. Кембридж; Нью-Йорк: издательство Кембриджского университета, 2007.
Для получения дополнительной информации о «согласованности» с точки зрения « необязательно бить вас по голове с байесовским кирпичом» см. [3].
[3]: Робинс, Джеймс и Ларри Вассерман. «Обусловливание, вероятность и согласованность: обзор некоторых основополагающих концепций». Журнал Американской статистической ассоциации 95, нет. 452 (1 декабря 2000 г.): 1340–46. DOI: 10.1080 / 01621459.2000.10474344.
(*) В [4] Мейл бичует NHST гораздо более элегантно, но не менее абразивно, чем я:
[4]: Meehl, Paul E. «Теоретические риски и табличные звездочки: сэр Карл, сэр Рональд и медленный прогресс в мягкой психологии». Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
И вот связанная цитата от Tukey: /stats//a/728/41404
источник