Статистические тесты не делают предположений о размере выборки. Конечно, существуют разные предположения с различными тестами (например, нормальность), но равенство размеров выборки не является одним из них. Если используемый тест не является неуместным каким-либо другим способом (я не могу думать о проблеме прямо сейчас), частота ошибок типа I не будет зависеть от резко неравных размеров групп. Более того, их формулировка подразумевает (на мой взгляд), что они верят, что так и будет. Таким образом, они запутались в этих вопросах.
С другой стороны, частота ошибок типа II будет очень сильно зависеть от неравных s. Это будет верно независимо от того, какой тест (например, t- тест, U- тест Манна-Уитни или z- тест на равенство пропорций будет затронут таким образом). Пример этого см. В моем ответе здесь: Как следует интерпретировать сравнение средних значений для разных размеров выборки? Таким образом, они вполне могут быть «оправданы в том, чтобы бросать полотенце» по этому вопросу. (В частности, если вы ожидаете получить незначительный результат, реальный эффект или нет, в чем смысл теста?) ntUz
Поскольку размеры выборки расходятся, статистическая мощность будет сходиться к . Этот факт на самом деле приводит к другому предположению, о котором, я подозреваю, мало кто когда-либо слышал, и, вероятно, было бы трудно найти прошлых рецензентов (без обид): анализ компромисса . Идея относительно проста: в любом анализе мощности α , β , n 1 , n 2 и величина эффекта d существуют по отношению друг к другу. Указав все, кроме одного, вы можете решить для последнего. Как правило, люди делают то, что называется априорным анализом мощности , в котором вы решаете для Nααβn1n2dN(как правило, вы предполагаете, что ). С другой стороны, вы можете исправить n 1 , n 2 и d и решить для α (или эквивалентно β ), если вы укажете отношение ошибок типа I к типу II, с которыми вы готовы жить. Обычно α = 0,05 и β = 0,20 , поэтому вы говорите, что ошибки типа I в четыре раза хуже, чем ошибки типа I. Конечно, данный исследователь может не согласиться с этим, но, указав определенное соотношение, вы можете решить, для чего αn1=n2n1n2dαβα=.05β=.20αВы должны использовать для того, чтобы поддерживать некоторую адекватную мощность. Этот подход является логически обоснованным вариантом для исследователей в этой ситуации, хотя я признаю, что экзотичность этого подхода может сделать его жестким предложением в более широком исследовательском сообществе, которое, вероятно, никогда не слышало о такой вещи.
Хотя ответ @gung превосходен, я думаю, что есть одна важная проблема, которую следует учитывать при рассмотрении дико разных размеров групп. Как правило, пока все требования теста выполнены, разница в размерах группы не важна.
Тем не менее, в некоторых случаях разный размер группы будет иметь драматическое влияние на устойчивость теста к нарушениям против этих предположений. Классический непарный t-критерий с двумя выборками, например, предполагает однородность дисперсии и устойчив к нарушениям, только если обе группы имеют одинаковый размер (по порядку величины). В противном случае более высокая дисперсия в меньшей группе приведет к ошибкам типа I. Теперь с t-тестом это не является большой проблемой, так как обычно вместо этого используется t-критерий Уэлча, и он не предполагает однородности дисперсии. Однако подобные эффекты могут возникать в линейных моделях.
Подводя итог, я бы сказал, что это никоим образом не является препятствием для статистического анализа, но его следует учитывать при принятии решения о том, как действовать.
источник