Представьте, что у вас есть исследование с двумя группами (например, мужчины и женщины), которое рассматривает числовую зависимую переменную (например, результаты тестов интеллекта), и у вас есть гипотеза, что между группами нет различий.
Вопрос:
- Что такое хороший способ проверить, нет ли групповых различий?
- Как бы вы определили размер выборки, необходимый для адекватного тестирования на отсутствие групповых различий?
Начальные мысли:
- Было бы недостаточно сделать стандартный t-тест, потому что отказ отклонить нулевую гипотезу не означает, что интересующий параметр равен или близок к нулю; это особенно касается небольших образцов.
- Я мог бы взглянуть на 95% доверительный интервал и проверить, что все значения находятся в достаточно малом диапазоне; возможно плюс или минус 0,3 стандартных отклонения.
hypothesis-testing
t-test
equivalence
tost
Джером англим
источник
источник
Ответы:
Я думаю, что вы спрашиваете о проверке на эквивалентность . По сути, вам нужно решить, насколько велика разница для вас, чтобы все же сделать вывод, что две группы фактически эквивалентны. Это решение определяет 95% (или другие) доверительные интервалы, и расчеты размера выборки производятся на этой основе.
На эту тему есть целая книга .
Очень распространенным клиническим «эквивалентом» тестов эквивалентности является тест / испытание неполноценности . В этом случае вы «предпочитаете» одну группу над другой (установленный метод лечения) и разрабатываете свой тест, чтобы показать, что новый метод не уступает установленному режиму при некотором уровне статистических данных.
Я думаю, что мне нужно отдать должное Харви Мотульски за сайт GraphPad.com (в разделе «Библиотека» ).
источник
Помимо уже упомянутой возможности какого-либо теста на эквивалентность , большинство из которого, насколько мне известно, в основном направляются по старой доброй частой традиции, существует возможность проведения тестов, которые действительно дают количественную оценку доказательств в пользу нуль-гипотезы, а именно байесовские тесты .
Реализация байесовского t-критерия может быть найдена здесь: Wetzels R., Raaijmakers, JGW, Jakab E., & Wagenmakers, E.-J. (2009). Как количественно оценить поддержку и против нулевой гипотезы: гибкая реализация WinBUGS байесовского t-теста по умолчанию. Psychonomic Bulletin & Review, 16, 752-760.
Существует также учебник о том, как сделать все это в R:
http://www.ruudwetzels.com/index.php?src=SDtest
Альтернатива (возможно, более современный подход) байесовского t-критерия представлена (с кодом) в этой статье Крушке:
Крушке, JK (2013). Байесовская оценка заменяет t-критерий . Журнал экспериментальной психологии: общее , 142 (2), 573–603. DOI: 10,1037 / a0029146
Все реквизиты для этого ответа (до добавления Крушке) должен перейти к моему коллеге Дэвиду Келлену. Я украл его ответ на этот вопрос .
источник
После ответа Тилаколео я провел небольшое исследование.
Пакет эквивалентности в R имеет
tost()
функцию.См. Robinson and Frose (2004) « Проверка модели с использованием тестов эквивалентности » для получения дополнительной информации.
источник
equivalence
пакет.Я знаю несколько статей, которые могут быть вам полезны:
Трион, WW (2001). Оценка статистической разности, эквивалентности и неопределенности с использованием выведенных доверительных интервалов: интегрированный альтернативный метод проведения статистических тестов с нулевой гипотезой. Психологические методы, 6, 371-386. ( БЕСПЛАТНО PDF )
И исправление:
Tryon, WW, & Lewis, C. (2008). Метод интерференционного доверительного интервала для установления статистической эквивалентности, который корректирует коэффициент уменьшения Триона (2001). Психологические методы, 13, 272-278. ( БЕСПЛАТНО PDF )
Более того:
Seaman, MA & Serlin, RC (1998). E- доверительные интервалы для двухгрупповых сравнений средних . Психологические методы, том 3 (4), 403-411.
источник
Недавно я подумал об альтернативном способе «проверки эквивалентности», основанном на расстоянии между двумя распределениями, а не между их средствами.
Существует несколько методов, обеспечивающих доверительные интервалы для перекрытия двух гауссовских распределений:
источник
В медицинских науках предпочтительно использовать подход с доверительным интервалом, а не два односторонних теста (тост). Я также рекомендую составить график точечных оценок, КИ и априорно определенных полей эквивалентности, чтобы сделать вещи очень ясными.
Ваш вопрос, вероятно, будет решен с помощью такого подхода.
Рекомендации CONSORT для исследований неполноценности / эквивалентности весьма полезны в этом отношении.
См. Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ и CONSORT Group. Отчетность о рандомизированных исследованиях, не связанных с неполноценностью и эквивалентностью: расширение утверждения CONSORT. JAMA. 2006, 8 марта; 295 (10): 1152-60. (Ссылка на полный текст.)
источник
Да. Это проверка эквивалентности. По сути, вы переворачиваете нулевую и альтернативную гипотезу и основываете размер выборки на мощности, чтобы показать, что разница средних находится в пределах окна эквивалентности. Блэквелдер назвал это «Доказательством нулевой гипотезы». Это обычно делается в фармацевтических клинических испытаниях, где проверяется эквивалентность генерического препарата продаваемому лекарственному средству или сравнивается одобренное лекарственное средство с новым препаратом (часто называемым биоэквивалентностью). Односторонняя версия называется неполноценностью. Иногда препарат может быть одобрен, просто показывая, что новый препарат не уступает рыночному конкуренту. Shao и Pigeot разработали последовательный подход начальной загрузки к биоэквивалентности, используя кроссовер.
источник
Различия в начальной загрузке (например, разница между средними значениями) между двумя группами выборок и проверка статистической значимости. Более подробное описание этого подхода, хотя и в другом контексте, можно найти здесь http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/
источник