Тестирование определенных контрастов: это трудная проблема или нет?

12

Я отправил это в mathoverflow, и никто не отвечает:

Метод Шеффе для выявления статистически значимых контрастов широко известен. Контраст среди средств , из популяций является линейной комбинацией , в котором , и скалярное кратное контрастности - это, по сути, один и тот же контраст, поэтому можно сказать, что набор контрастов является проективным пространством. Метод Шеффе проверяет нулевую гипотезу, которая говорит, что все контрасты среди этих популяций равны , и, учитывая уровень значимости , отклоняет нулевую гипотезу с вероятностью i = 1 , , r r r i = 1 c i μ i r i =μii=1,,rri=1rciμii=1rci=00r0αααучитывая, что нулевая гипотеза верна. И если нулевая гипотеза отклоняется, Шеффе указывает, что его тест говорит нам, что контрасты значительно отличаются от (я не уверен, что статья в Википедии, на которую я ссылался, указывает на это ).0

Я хотел бы знать, можно ли сделать что-то подобное в другой ситуации. Рассмотрим простую модель линейной регрессии , где , .ε ii . я . д . N ( 0 , σ 2 ) iYi=α+βxi+εiεii.i.d.N(0,σ2)i=1,,n

Нулевая гипотеза, которую я хочу рассмотреть, касается другого рода контраста. Он говорит, что нет подмножества такого, что для и для , где . Если подмножество задано заранее, то это делает обычное тестирование из двух выборок , но мы хотим что-то, что учитывает все подмножества и удерживает вероятность отклонения истинной нулевой гипотезы.E ( Y i ) = α 1 + β x i i A E ( Y i ) = α 2 + β x i i A α 1α 2 A tA{1,,n}E(Yi)=α1+βxiiAE(Yi)=α2+βxiiAα1α2At

Можно было бы понять это, если бы эффективность не была проблемой: найдите тест, который проходит все возможностей. Даже тогда это проблематично; два контраста не были бы независимыми. Я спросил об этом эксперта по обнаружению выбросов, и он просто сказал, что это комбинаторный кошмар. Затем я спросил, можно ли доказать, что не существует эффективного способа сделать это, возможно, путем уменьшения сложности проблемы NP. Он просто сказал, что держится подальше от NP-сложных проблем.2n11

Итак: можно ли доказать, что эта проблема "сложная" или нет?

Майкл Харди
источник
(+1) Копирование комментария для пояснения из версии MO : Небольшое пояснение: пока я читаю, соответствует вашей нулевой гипотезе, но и нет (независимо от ). Это то, что вы хотели? (Похоже, это не соответствует некоторым другим аллюзиям, сделанным в вопросе.)( 1 , 2 , 2 ) ( 1 , 1 , 1 ) β(α1,α2,α3)=(1,2,3)(1,2,2)(1,1,1)β
кардинал
Как указывалось выше, нулевая гипотеза состоит в том, что нам нужен только один , а альтернативная гипотеза состоит в том, что нам нужны два. Я не знаю, почему у вас третий. Можно также рассмотреть нулевую гипотезу «один против альтернативной гипотезы нескольких, и, возможно, это то, что я должен сделать вместо этого. ααα
Майкл Харди
Благодарю. Возможно, я был первоначальным утверждением модели как , где я взял как потенциальную опечатку для (поскольку впоследствии ей было разрешено варьироваться). α α iYi=α+βxi+εiααi
кардинал
αi

Ответы:

1

Заметил, что пока никто не ответил на этот вопрос ...

Z

yi=α+βxi+γzi+ϵi
yi=α+βxi+ϵi.
f(z)t.
Это вариант проблемы разбиения множества, которая известна как NP-сложная.
user3697176
источник
Можно ли свести проблему разделения множеств к этой проблеме? Если это так, это докажет, что это сложная проблема.
Майкл Харди
Эта проблема, по крайней мере, так же сложна, как и классическая проблема разделения множеств (SPP). SPP берет линейную комбинацию весов и пытается умножить их на +/- 1, чтобы получить выражение с суммой 0. Здесь вы хотите удовлетворить неравенство. Если бы это было разрешимо за полиномиальное время для произвольных входных данных, то аргумент деления пополам показывает, что вы также можете решить SPP за полиномиальное время. Это не совсем сокращение, но это близко.
user3697176