Пример, где принцип правдоподобия * действительно * имеет значение?

20

Существует ли пример, в котором два различных защищаемых теста с пропорциональными правдоподобиями приведут один к заметно различным (и одинаково оправданным) выводам, например, где значения p на порядок величин далеко друг от друга, но мощность альтернатив аналогична?

Все примеры, которые я вижу, очень глупы, сравнивая бином с отрицательным биномом, где значение p первого равно 7%, а второго 3%, которые «отличаются» только тем, что один принимает двоичные решения на произвольных порогах значения, например, 5% (что, кстати, является довольно низким стандартом для умозаключений) и даже не удосуживаются взглянуть на мощность. Если я изменю порог на 1%, например, оба приведут к одному и тому же выводу.

Я никогда не видел пример, где это привело бы к заметно другим и оправданным выводам. Есть ли такой пример?

Я спрашиваю, потому что я видел столько чернил, потраченных на эту тему, как будто принцип правдоподобия является чем-то фундаментальным в основах статистического вывода. Но если лучшим примером являются глупые примеры, подобные приведенному выше, то принцип кажется совершенно несущественным.

Таким образом, я ищу очень убедительный пример, где, если кто-то не следует LP, вес свидетельства в подавляющем большинстве случаев будет указывать в одном направлении, учитывая один тест, но, в другом тесте с пропорциональной вероятностью, вес доказательства будет быть в подавляющем большинстве указывают в противоположном направлении, и оба вывода выглядят разумными.

В идеале можно продемонстрировать, что мы можем иметь произвольно далеко друг от друга, но все же разумные ответы, такие как тесты с p=0.1 против p=1010 с пропорциональными правдоподобиями и эквивалентной мощностью для обнаружения одной и той же альтернативы.

PS: ответ Брюса не касается вопроса вообще.

statslearner2
источник
5
При проведении проверки значимости всегда можно изменить решение, изменив пороговое значение. Не могли бы вы поэтому объяснить, что вы подразумеваете под «заметно», «глупо» или «убедительно»? Кстати, вы, кажется, читаете статью в Википедии .
whuber
2
Добро пожаловать в CV, @statslearner. Можете ли вы привести пример одного или нескольких конкретных подходов к выводу, в которых не используется принцип правдоподобия, который вы хотели бы видеть противопоставленным?
Алексис
1
@whuber В идеале я хотел бы видеть, что вы можете построить произвольно разные ответы, такие как, если вы хотите использовать p-значения, что-то вроде p=0.5 против p=105 , и оба вычисления все еще будут казаться оправданными.
statslearner2
3
Я не могу следовать этому комментарию, потому что p=105 не имеет смысла. Независимо от того, рассматривали ли вы просто изменение чисел, приведенных в примере из Википедии?
whuber
6
Существенная разница с практическими последствиями заключается в обработке правил остановки: под LP они не имеют значения, вне LP они имеют значение. Проверьте Berger & Wolpert (1987) для деталей.
Сиань

Ответы:

7

Подумайте о гипотетической ситуации, когда точечная нулевая гипотеза верна, но выборка продолжается до p<0.05 (это всегда произойдет раньше или позже, то есть это произойдет с вероятностью 1), а затем решает прекратить испытание и отклонить нулевое значение. Это по общему признанию крайнее правило остановки, но рассмотрим его ради аргумента.

Эта дебильная процедура будет иметь 100% частоту ошибок типа I, но в этом нет ничего плохого в соответствии с принципом правдоподобия.

Я бы сказал, что это действительно имеет значение. Конечно, вы можете выбрать любой α в этом аргументе. Байесовцы могут использовать фиксированное ограничение по байесовскому фактору, если пожелают. Та же логика применима. Основным уроком здесь является то, что вы не можете придерживаться LP и иметь гарантию частоты ошибок. Там нет бесплатного обеда.

амеба говорит восстановить монику
источник
4
Я тоже думал об этом примере. Но я не упомянул об этом, потому что это действительно дебил. Но на самом деле это то, что происходит на практике косвенно и неформально.
Секст Эмпирик
1
Каковы 2 статистики и их вероятность в вашем примере? В нег. биномиальный или биномиальный случай: 1) статистика 1, количество испытаний до 3 голов, вероятность отрицательных биномиальных; 2) статистика 2, количество голов в n испытаниях, вероятность binomail. В вашем примере я не вижу, каковы эти две статистики и имеют ли они пропорциональные вероятности.
statslearner2
1
В вашем примере, вероятно, это будет «количество испытаний до p <0,05», которое, я вряд ли сомневаюсь, пропорционально биномиальному, поэтому я не уверен, что ваш пример верен, Амеба.
statslearner2
1
Я не думаю, что принцип правдоподобия гласит: «В этом нет ничего плохого». Принцип правдоподобия отфильтровывает плохие процедуры. Тот факт, что процедура не подчиняется принципу правдоподобия, отличается от того, что подтверждается принципом правдоподобия. Байесовский анализ этой проблемы последовательного тестирования, который, конечно, подчиняется принципу правдоподобия, обладает совершенно прекрасными свойствами, поскольку он не реализует описанную вами «дебильную» процедуру.
парень
3
@amoeba рассмотрим при альтернативе или θ = 0 при нуле с Y iN ( θ , 1 ) . Легко показать, что логарифм байесовского фактора составляет примерно 1θN(0,τ1)θ=0YiN(θ,1)гдеZn- обычнаястатистикаZ-теста. Отклонение, когда байесовский фактор больше1,эквивалентно отклонению, когда| Zn| >12[log(τ/n)+Zn2]ZnZ1. При нулевом значении это не гарантируется в настройках последовательного тестирования (см. Закон повторного логарифма); следовательно, байесовская процедура не станет жертвой описанной вами проблемы. |Zn|>O(logn)
парень
4

Отказ от ответственности: я полагаю, что этот ответ лежит в основе всего аргумента, поэтому его стоит обсудить, но я не до конца изучил проблему. Поэтому я приветствую исправления, уточнения и комментарии.

Наиболее важный аспект связан с последовательно собираемыми данными. Например, предположим, что вы наблюдали двоичные результаты, и вы увидели 10 успехов и 5 неудач. Принцип правдоподобия говорит о том, что вы должны прийти к одному и тому же выводу относительно вероятности успеха, независимо от того, собирали ли вы данные до тех пор, пока у вас не было 10 успехов (отрицательный биномиальный) или не было проведено 15 испытаний, из которых 10 были успешными (биномиальный) .

Почему это так важно?

Потому что в соответствии с принципом правдоподобия (или, по крайней мере, определенной интерпретации этого) вполне нормально позволить данным влиять, когда вы собираетесь прекратить сбор данных, без необходимости изменять свои инструменты вывода.

Конфликт с последовательными методами

Идея, заключающаяся в том, что использование ваших данных для определения того, когда следует прекратить сбор данных без изменения инструментов вывода, полностью противоречит традиционным методам последовательного анализа. Классическим примером этого являются методы, используемые в клинических испытаниях. Чтобы уменьшить потенциальное воздействие вредных обработок, данные часто анализируются в промежуточные промежутки времени, прежде чем анализ будет выполнен. Если исследование еще не закончено, но у исследователей уже есть достаточно данных, чтобы сделать вывод, что лечение работает или вредно, медицинская этика говорит нам, что мы должны остановить испытание; если лечение работает, этично прекратить испытание и начать предоставлять лечение пациентам, не участвующим в исследовании. Если это вредно, более этично остановиться, чтобы мы прекратили подвергать испытательных пациентов вредному лечению.

Проблема в том, что теперь мы начали делать множественные сравнения, поэтому мы увеличили частоту появления ошибок типа I, если не настроим наши методы для учета множественных сравнений. Это не совсем то же самое, что традиционные проблемы множественных сравнений, поскольку это действительно множественные частичные сравнения (т. Е. Если мы проанализируем данные один раз с 50% собранных данных и один раз со 100%, эти две выборки явно не являются независимыми!) , но в целом, чем больше сравнений мы делаем, тем больше нам нужно изменить наши критерии для отклонения нулевой гипотезы, чтобы сохранить частоту ошибок типа I, с большим количеством запланированных сравнений, требующих больше доказательств для отклонения нулевого значения.

Это ставит клинических исследователей перед дилеммой; хотите ли вы часто проверять свои данные, но затем увеличивать количество необходимых доказательств, чтобы отклонить нулевое значение, или же вы хотите нечасто проверять свои данные, увеличивая свои возможности, но потенциально не действуя оптимальным образом в отношении медицинской этики (то есть, можете задержать продукт на рынке или подвергать пациентов излишне длительному вредному лечению).

Я (возможно, ошибочно) понимаю, что принцип правдоподобия говорит нам, что не имеет значения, сколько раз мы проверяем данные, мы должны сделать один и тот же вывод. Это в основном говорит о том, что все подходы к разработке последовательных испытаний совершенно не нужны; просто используйте принцип правдоподобия и остановитесь, когда соберете достаточно данных, чтобы сделать вывод. Поскольку вам не нужно изменять методы вывода, чтобы скорректировать количество анализов, которые вы подготовили, дилемма между количеством проверенных раз и мощностью не компенсируется. Бэм, вся область последовательного анализа решена (согласно этой интерпретации).

Лично меня очень смущает то, что факт, хорошо известный в области последовательного проектирования, но довольно тонкий, заключается в том, что вероятность окончательной статистики теста в значительной степени изменяется правилом остановки; в основном, правила остановки увеличивают вероятность прерывистым образом в точках остановки. Вот сюжет такого искажения; пунктирная линия - это PDF итоговой статистики теста под нулевым значением, если данные анализируются только после сбора всех данных, а сплошная линия показывает распределение под нулевой статистикой теста, если вы проверяете данные 4 раза с заданным править.

С учетом вышесказанного, я понимаю, что принцип правдоподобия, по-видимому, подразумевает, что мы можем выбросить все, что мы знаем о последовательном дизайне Frequentist, и забыть о том, сколько раз мы анализируем наши данные. Очевидно, что последствия этого, особенно для области клинических разработок, огромны. Однако я не задумывался над тем, как они оправдывают игнорирование того, как правила остановки изменяют вероятность окончательной статистики.

Некоторое легкое обсуждение можно найти здесь , в основном на последних слайдах.

Клифф AB
источник
2
+1. Я считаю, что концептуально легче думать о гипотетической ситуации, когда нулевая гипотеза верна, но выборка продолжается до (эта стена всегда случается раньше или позже, то есть это произойдет с вероятностью 1), а затем решает прекратить испытание. Эта дебильная процедура будет иметь 100% тип ошибки I, даже если она соответствует LP. p<0.05
говорит амеба: восстанови Монику
@amoeba: Я согласен, что ваш пример довольно прост (+1). Цель моего ответа - подчеркнуть, почему вообще идет обсуждение. Я думаю, что ответ таков: если бы значения и интерпретации LP были правильными, это означало бы, что клиническим испытаниям больше не пришлось бы выбирать между максимальной мощностью и ненужным воздействием, что было бы абсолютно огромным преимуществом. В целом это также избавит исследователей от необходимости заранее угадывать правильный размер выборки, что значительно повысит полезность статистических тестов.
Клифф AB
Ну, я думаю, что вся структура частых тестов несовместима с LP, и это так. Каждый использует частое тестирование, если хочет получить гарантию на частоту ошибок. Оказывается, это несовместимо с LP. Смотрите также парадокс Линдли и все такое. Ну, круто Раньше я был взволнован этими вопросами, но теперь я больше не. Там нет бесплатного обеда; нужно сделать выбор. Обратите внимание, что многие байесовские процедуры также нарушают LP .
говорит амеба: восстанови Монику
«Вероятность окончательной статистики теста в значительной степени изменяется правилом остановки» . Изменяется pdf, а также вероятность (но только по константе), но вы все равно можете получить функции вероятности, которые одинаковы до константа пропорциональности. Например, биномиальное распределение и отрицательное биномиальное распределение для успехов и n испытаний имеют как вероятность L ( p | n , k ), которая пропорциональна p k p n - kknL(p|n,k)pkpnk
Sextus Empiricus
3

План LR тестов для экспоненциальных данных.

Пусть X1,X2,,Xn - случайная выборка из Exp(rate=λ), так что E(Xi)=μ=1/λ. При x>0, функция плотности f(x)=λeλx и ВПР является F(x)=1eλx,

1. Тестовая статистика - образец минимума.

Пусть V=X(1)=minn(Xi).Тогда VExp(nλ).Как набросок доказательства,

P(V>v)=P(X1>v,,Xn>v)=[eλv]n=enλv,
так чтоP(Vv)=1enλv,дляv>0.

Чтобы проверить H9:μμ0 против Ha:μ>μ0, на уровне α=5%, мы рассматриваем V как единичное наблюдение из его экспоненциального распределения. Мы находим, что логарифмическое отношение правдоподобия указывает отклонение, когда V>c, где P(V>c|μ=μ0)=0.05.

For the specific case in which n=100 and μ0=10,λ0=0.1, we have exponential rate 10=n/μ0=100/10=10, so that c=0.2295 from R, where the exponential distribution is parameterized by the rate.

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

Accordingly, the power against the alternative μa=100 (rate n/μa=1) is about 74%.

1 - pexp(0.2996, 1)
[1] 0.7411146

2. Test statistic is the sample mean.

Oxford U. class notes (second page) show that the likelihood ratio test of H0:μμ0 against H0:μ>μ0 at the 5% level of significance rejects for X¯>c, where P(X¯>c|μ=μ0)=0.5. Furthermore, one can show using moment generating functions that X¯Gamma(n,nλ).

For the specific case in which n=100 and μ0=10,λ0=0.1, we have X¯Gamma(100,10), so that c=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

Accordingly, power against the alternative μa=14 is about 95.6%.

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

Clearly, for purposes of testing hypotheses about the exponential mean μ, the information in the sufficient statistic X¯ is much greater than the information in the sample minimum.

BruceET
источник
I don't think this address the question at all.Are the two likelihoods proportional? You first need to show the likelihood of the two experiments are proportional, otherwise the likelihood principle does not apply. Second, in this example the two tests lead to the same conclusion, so it's even more underwhelming than the example of the binomial versus negative binomial.
statslearner2
I just checked the document, the likelihoods are not proportional, since the first likelihood has v in the exponent and the other has xi, thus the likelihood principle should not apply here, it's fine for the two tests to lead to different conclusions according to the likelihood principle.
statslearner2
2
Bruce, just to clarify what the liklihood principle states: it says that if you have two experiments where the likelihoods differ only by a constant, then you should derive the same conclusion from them. This happens in the binomial versus negative binomial case, where they differ only in the binomial coefficient part (constant). Your example shows two tests where their likelihoods do not differ only by a constant, so the LP does not apply.
statslearner2
@statslearner2 the likelihood function for observing a sample x1,...,xn is:
f(x1,...,xn)=i=1nλeλxi
This is the same whether you select the minimum or the mean as a criteria to perform the test. The violation that occurs here can be seen as the type in which the definition of 'extreme cases' is different and the integration to compute the p-value is done differently.
Sextus Empiricus
3

Violation by different pdf functions f(x,θ) and g(x,θ)

This case will be an example of 'violation' because the probability distribution functions f(x,θ) g(x,θ) are intrinsically different. Even when f and g, differ, they may relate to the likelihood principle because at fixed measurement x they give the same functions of θ up to scaling. The difference, opens up a possibility for "violations".


The coin flip with or without optional stopping rule

The coin flip with or without optional stopping rule is a typical example, the pdf is binomial or negative binomial which are different pdf functions and lead to different calculation of p-values, and confidence intervals, but they lead to the same likelihood functions for fixed sample/measurement (up to scaling).

fNegative Binomial(n|k,p)=(n1k1)pk(1p)nkfBinomial(k|n,p)=(nk)pk(1p)nk


More extreme example

Consider some measurement of X which is distributed as

L(θ|x)=f(x|θ)={0 if x<0a if 0x<1(1a)θexp(θ(x1)) if x1

where a is some known parameter that depends on the type of experiment, and θ is some parameter that may be unknown and could be inferred from the measurement x.

For any given x and a the likelihood function is proportional to the same function that is independent from a:

  • If x<1 then L(θ|x)1
  • If x1 then L(θ|x)θexp(θ(x1))

But, albeit the same likelihood function, the p-value can vary widely depending on the experiment (ie the value of a). For instance when you measure x=2 and test H0:θ=1 against H0:θ<1 then the p-value is

P(X>2|θ=1)=(1a)exp(1)


Intuition: The reason for violation in these cases is that p-values and hypothesis tests are not solely based on the likelihood function for the particular observed value x.

The p-value is not calculated from the likelihood f(θ|x) with x fixed, but with the pdf f(x|θ) with θ fixed which is a different slice. Confidence intervals, p-value, and hypothesis tests, are different things than the information from likelihood ratios.

p-values are not really evidence: The p-value relates to type I error which is a measure that relates to an ensemble of measurements rather than to a single measurement. This type I error or p-value is not the same as 'evidential meaning' from Birnbaums 'foundations of statistical evidence'. This relates a lot to the problems with p-values and scientist searching for outcomes solely with statistical significance rather than important effects.

Do we need examples where inferences are markedly different? The extreme case is a contrived example. Such a case, or anything with a similar extreme difference, is of course not occurring easily in practice. It is more often the case that the difference will be small such as in the cases that you refer to as silly.

To ask for examples where the likelihood principle 'really matters', or where two different inferences lead to extremely different results, is a bit of a loaded question. At least when the intention for this question relates to some philosophical argument. It is a loaded question because it presupposes that principles that matter should lead to extremely varying results. In many practical cases the results are however small (in terms of different p-values less than an order). I believe that this is not a strange for two different, but both plausible, methods to result in more or less similar results. I would consider the likelihood principle not to be 'less violated' when the differences are only small.

Sextus Empiricus
источник
Regarding Case 1: I think choosing a different test statistic can (should?) be seen as changing the likelihood function.
amoeba says Reinstate Monica
2
@MartijnWeterings yes it is choosing a different test statistics, what matters is the likelihood of the statistics, not of the data. Otherwise I can take a sequence of 100 flips and compute several statsistics: number of runs of heads, number of alternations of heads and tails. None of this violates the LP.
statslearner2
You need to pick two statistics that will have proportional likelihoods, such as the number of trials until 3 success or the number of successes in n trials etc.
statslearner2
1

Вот пример, адаптированный из теории статистических решений и байесовского анализа Джеймсом О. Бергером (Второе издание, стр. 29).

Скажите, что двух видов ос можно отличить по количеству выемок на крыльях (назовите это Икс) и по количеству черных колец вокруг живота (назовите это Y). Распределение символов в двух видах (помеченыЧАС0 и ЧАС1) являются следующими:

Table adapted from Statistical decision theory and Bayesian analysis by James O. Berger.

Скажем, мы находим образец с 1 выемкой на крыльях и 1 кольцом вокруг живота. Вес доказательств, если в 100 раз больше в пользуЧАС1 против ЧАС0 для обоих персонажей.

Теперь, если кто-то хотел настроить тест для ЧАС0 на уровне 5% правило принятия решения будет для первого символа «принять» ЧАС0 если на крыле 1 выемка, в противном случае отклоните ее », а для второго символа« примите ЧАС0если вокруг живота 3 кольца, иначе откажитесь ». Есть много других возможностей, но это самые мощные тесты на этом уровне. Тем не менее, они приводят к разным выводам для обоих персонажей.


Примечание : конечно, можно настроить тест с правилом «принять»ЧАС0если вокруг живота 1 или 3 кольца, в противном случае отклоните его ». Вопрос в том, предпочитаем ли мы тест на уровне 5% с риском типа II 0 или тест на уровне 4,9% с риском типа II 0,00001. Разница настолько мала, что нам, вероятно, было бы наплевать, но, насколько я понимаю, в этом суть аргумента принципа правдоподобия: не стоит ставить результат в зависимость от чего-то, что кажется неуместным.


Функции правдоподобия пропорциональны, и все же значение р Иксзнак равно1 0,95, а y=1 is 0.001 (assuming that we reject H0 with events of the form yα). It is obvious from the structure of the table that I could have chosen any number smaller than 0.001. Also, the type II risk of the rejection is 0, so it looks like there is nothing “wrong” here.

Still, I admit that this example is somewhat contrived and not completely honest because it plays with the difficulty of arranging tests with discrete data. One could find equivalent examples with continuous data but they would be even more contrived. I agree with the OP that the likelihood principle has almost no practical value; I interpret it as a principle to guarantee some consistency within the theory.

gui11aume
источник