Доверительный интервал вокруг соотношения двух пропорций

20

У меня есть две пропорции (например, рейтинг кликов (CTR) по ссылке в макете элемента управления и CTR по ссылке в экспериментальном макете), и я хочу рассчитать 95% доверительный интервал для отношения этих пропорций.

Как мне это сделать? Я знаю, что могу использовать дельта-метод для расчета дисперсии этого отношения, но я не уверен, что делать, кроме этого. Что я должен использовать в качестве средней точки доверительного интервала (мой наблюдаемый коэффициент или ожидаемый коэффициент, который отличается), и сколько стандартных отклонений вокруг этого коэффициента я должен взять?

Должен ли я использовать дисперсию дельта-метода вообще? (Меня действительно не волнует дисперсия, просто доверительный интервал.) Должен ли я использовать теорему Филлера , используя Случай 1 (так как я делаю пропорции, я предполагаю, что удовлетворяю требованию нормального распределения)? Должен ли я просто рассчитать пример начальной загрузки?

raegtin
источник
1
У вас есть фундаментальная проблема: у большинства пропорций есть положительный шанс быть равным нулю, откуда у отношения (независимых пропорций) есть положительный шанс быть неопределенным. Это может представлять серьезные трудности для приближенных методов (таких как дельта-метод) и предполагает, что нормальные приближения следует рассматривать более скептически и проверять более строго, чем обычно.
whuber
Джозеф Л. Флейс, Брюс Левин, Менги Чо Пайк: Статистические методы для коэффициентов и пропорций [1] обсуждает Относительный риск, который является частным двух норм. У меня нет книги, поэтому я могу идти только по предметному указателю и оглавлению, но, возможно, в вашей библиотеке это есть. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites поддерживает Монику
Конечно, процентиль бутстрап будет лучшим методом?
Питер Эллис

Ответы:

19

Стандартный способ сделать это в эпидемиологии (где отношение пропорций обычно называют отношением риска ) состоит в том, чтобы сначала преобразовать отношение логарифмически, рассчитать доверительный интервал в логарифмической шкале, используя дельта-метод и предполагая нормальное распределение, затем преобразовать обратно. Это работает лучше при умеренных размерах выборки, чем при использовании дельта-метода в нетрансформированном масштабе, хотя все равно будет вести себя плохо, если число событий в любой группе очень мало, и завершится неудачей, если в обеих группах нет событий.

Если в двух группах имеются общие успехи и из количества и , то очевидной оценкой отношения пропорций являетсях 2 л 1 н 2 θ = х 1 / п 1Икс1Икс2N1N2

θ^знак равноИкс1/N1Икс2/N2,

Используя дельта-метод и предполагая, что две группы независимы, а успехи распределены биномиально, вы можете показать, что Получение квадратного корня этого дает стандартную ошибку . Предполагая, что нормально распределена, 95% доверительный интервал для равен Расширение этого дает 95% доверительный интервал для отношения пропорций какSE ( журнал & thetas ; ) войти & thetas ; войти & thetas ; войти & thetas ; & plusmn ; 1,96 SE ( журнал & thetas ; ) . & thetas ; & thetas ; ехр [ ± 1,96 SE (

Var(журналθ^)знак равно1/Икс1-1/N1+1/Икс2-1/N2,
SE(журналθ^)журналθ^журналθ
журналθ^±1,96SE(журналθ^),
θ
θ^ехр[±1,96SE(журналθ^)],
универсальный
источник
5
Это прекрасно работает, если и большие (несколько сотен и более), а и не слишком малы (около или более). В противном случае интервал имеет тенденцию быть слишком большим. Также необходим какой-то способ обработки случаев и . Оказывается, обе проблемы могут быть решены с помощью подхода, подобного коррекции непрерывности: добавьте к обоим , добавьте к обоим и продолжайте. Тогда этот CI на удивление хорош, если оба значения равны или больше, независимоN1N2N1п1N2п210Икс2знак равно0Иксязнак равноNя1/2Икся1NяпяNя4размеров . Nя
whuber
@whuber: «подход, подобный коррекции непрерывности» - является ли использование 1/2, в частности, распространенным приемом? (В отличие от какого-то другого небольшого псевдосчета.) То, как вы это сформулировали, в некотором роде делает 1/2 звука принципиальным =) - так?
raegtin
Интересный вопрос, раегтин. В этом случае нет: я экспериментировал, чтобы найти подходящее начальное значение (это означает «получается так»). 1/2 не является общепринятым; для определенных комбинаций и другие значения будут работать немного лучше. Теоретическое исследование распределения оценки может предложить другое начальное значение. ИксяNя
whuber
Почему квадратный корень из дисперсии стандартная ошибка в этом случае, а не стандартное отклонение?
Микко
2
@onestop Это реализовано в любом пакете R?
Богдан Василеску