Предположим, у меня есть 20 мышей. Я так или иначе соединяю мышей, чтобы получить 10 пар. Для целей этого вопроса это может быть случайное спаривание, ИЛИ это может быть разумное спаривание, например, попытка спарить мышей одного и того же помета, одного пола, с одинаковым весом, ИЛИ это может быть намеренно глупое спаривание, подобное пытаясь спарить мышей с весами, которые могут быть неравны. Затем я использую случайные числа, чтобы назначить одну мышь в каждой паре контрольной группе, а другую мышь - группе, подлежащей лечению. Сейчас я провожу эксперимент, рассматривая только мышей, которых нужно лечить, но в остальном не обращая внимания на только что сделанные приготовления.
Когда нужно проанализировать результаты, можно использовать либо непарное, либо парное t-тестирование. Каким образом, если таковые имеются, будут отличаться ответы? (В основном меня интересуют систематические различия любого статистического параметра, который необходимо оценить.)
Причина, по которой я спрашиваю это, состоит в том, что статья, с которой я недавно был связан, была подвергнута критике биологом за использование парного t-теста, а не непарного t-теста. Конечно, в реальном эксперименте ситуация была не такой экстремальной, как ситуация, которую я набросал, и, на мой взгляд, были веские причины для спаривания. Но биолог не согласился.
Мне кажется, что невозможно неправильно улучшить статистическую значимость (уменьшить значение p) в описанных мною обстоятельствах, используя парный t-тест, а не непарный тест, даже если это неуместно для пары. Однако это может ухудшить статистическую значимость, если мыши были плохо спарены. Это правильно?
источник
Вместо спаривания, вероятно, лучше понять базовую модель данных. Если спаривание выполняется для борьбы с неконтролируемой неоднородностью, то обычно (за исключением исследований близнецов) спаривание лишь частично контролирует этот источник изменчивости, и множественная регрессия будет лучше. Это связано с тем, что сопоставление с непрерывными переменными часто приводит к остаточной изменчивости из-за невозможности точного сопоставления с такими переменными.
источник
Два теста (парные и непарные) задают разные вопросы, чтобы они могли получить разные ответы. Правильное соединение почти всегда более мощное, чем непарное - в этом и заключается смысл соединения. Таким образом, поскольку вы говорите, что спаривание правильное, вполне вероятно, что значение p для вашего парного теста будет ниже, чем для тех же непарных данных. Конечно, вы могли бы сделать и то, и другое, и убедиться в этом сами.
Следовательно, ответ на вашу дилемму является существенным, а не статистическим. Правильно ли ваше соединение?
Можете ли вы получить более значимый результат от случайного спаривания, чем от непарного теста? Посмотрим:
Да, вы можете, хотя здесь разница очень мала, у пары было меньше р. Я запускал этот код несколько раз. Не удивительно, что иногда один p ниже, иногда другой, но во всех случаях разница была небольшой. Однако я уверен, что в некоторых ситуациях разница в значениях p может быть большой.
источник
Теперь я гораздо лучше понимаю, что меня беспокоило в парных и непарных t-тестах и связанных с ними p-значениях. Выяснение было интересным путешествием, и было много сюрпризов на этом пути. Один сюрприз стал результатом исследования вклада Майкла. Это безукоризненно с точки зрения практических советов. Более того, он говорит то, во что, я думаю, верят практически все статистики, и у него есть несколько аргументов в поддержку этого. Однако, как часть теории, это не совсем правильно. Я обнаружил это, разработав формулы для p-значений, а затем тщательно подумав, как использовать формулы, чтобы привести к контрпримерам. Я математик по образованию, а контрпример - это «контрпример» математика. Это не то, что вы встретите в практической статистике, То, о чем я пытался узнать, когда задавал свой оригинальный вопрос.
Вот R-код, который дает контрпример:
Обратите внимание на следующие особенности: X и Y - два кортежа по 10, разница которых огромна и почти постоянна. Для многих значимых цифр корреляция составляет 1.000 .... Значение p для непарного теста примерно в 10-40 раз меньше значения p для парного теста. Так что это противоречит рассказу Майкла, при условии, что каждый читает его рассказ буквально в стиле математики. Здесь заканчивается часть моего ответа, связанная с ответом Майкла.
Вот мысли, подсказанные ответом Петра. Во время обсуждения моего первоначального вопроса я предположил в комментарии, что два конкретных распределения значений p, которые звучат по-разному, на самом деле одинаковы. Теперь я могу доказать это. Что более важно, так это то, что доказательство раскрывает фундаментальную природу p-значения, настолько фундаментального, что ни один текст (с которым я сталкивался) не удосуживается объяснить. Может быть, все профессиональные статистики знают секрет, но мне определение р-значения всегда казалось странным и искусственным. Прежде чем раскрыть секрет статистики, позвольте мне уточнить вопрос.
источник
Я бы предложил другую точку зрения. Часто спаривание делается для уменьшения смещения. Предположим, что вас интересует, является ли воздействие E фактором риска для непрерывного исхода Y. Для каждого субъекта E + вы получаете субъект по возрасту и полу, который является E-. Теперь мы можем провести либо парный t-тест, либо непарный t-тест. Я думаю, что мы должны четко учесть соответствие и провести парный t-тест. Это более принципиально, потому что он принимает во внимание дизайн. Вопрос о том, следует ли учитывать соответствие в анализе, является вопросом компромисса смещения. Учет соответствия в анализе обеспечивает большую защиту от смещения, но может увеличить дисперсию. Выполнение непарного t-теста может быть более эффективным, но оно не обеспечит никакой защиты от смещения.
источник