Каково частое восприятие истории вольтметра?

15

Каково частое восприятие истории вольтметра и ее вариаций? Идея заключается в том, что статистический анализ, который обращается к гипотетическим событиям, должен быть пересмотрен, если позднее станет известно, что эти гипотетические события не могли произойти, как предполагалось.

Версия истории в Википедии приводится ниже.

Инженер рисует случайную выборку электронных ламп и измеряет их напряжение. Диапазон измерений от 75 до 99 вольт. Статистик вычисляет среднее значение выборки и доверительный интервал для истинного среднего значения. Позже статистик обнаруживает, что вольтметр читает только до 100, поэтому население кажется «подвергнутым цензуре». Это требует нового анализа, если статистика ортодоксальна. Тем не менее, инженер говорит, что у него есть еще одно показание счетчика до 1000 вольт, которое он использовал бы, если бы какое-либо напряжение было выше 100. Это облегчает статистику, потому что это означает, что в конце концов население фактически не прошло цензуру. Но на следующий день инженер сообщает статистику, что второй измеритель не работал во время измерения. Статистик констатирует, что инженер не задержал бы измерения, пока счетчик не будет установлен, и сообщает ему, что необходимы новые измерения. Инженер изумлен. «Далее вы будете спрашивать о моем осциллографе».

Очевидно, история должна быть глупой, но мне неясно, какие свободы берут с методологией, над которой она подшучивает. Я уверен, что в этом случае занятый прикладной статистик не будет беспокоиться по этому поводу, но как насчет хардкорного академика?

Используя догматический подход к частоте, нужно ли нам повторять эксперимент? Можем ли мы сделать какие-либо выводы из уже имеющихся данных?

Чтобы также рассмотреть более общий момент, изложенный в рассказе, если мы хотим использовать данные, которые у нас уже есть, можно ли провести необходимый пересмотр гипотетических результатов, чтобы они соответствовали частым рамкам?

Praxeolitic
источник
4
Частотный подход также учитывает обусловленность, поэтому я не уверен, что найденные в цитате рассуждения вполне адекватны.
Сиань
@ Xi'an Даже если мы включили цензуру образца или вероятность поломки второго вольтметра в наших расчетах, есть проблема, что мы меняем дизайн эксперимента после того, как он состоялся . Я не знаю, можно ли это согласовать с частыми методами.
Praxeolitic
6
Может быть, проверить эту запись на принцип условности . Хотя я не частый человек, я не большой поклонник этой истории, потому что она, кажется, подразумевает интеграцию во все возможные гипотетические события, не определяя их диапазон. Это довольно карикатурно.
Сиань
5
Это действительно достойно вдумчивого обсуждения и ответов. Но, пожалуйста, обратите внимание, что «если статистик ортодоксален», а не некомпетентен или жаден к дополнительной работе, она заявит, что, поскольку ни одно из первоначальных замечаний не было подвергнуто цензуре, ее первоначальный выбор процедуры (предположительно допустимый) остается допустимым и, следовательно, нет никаких оснований для Измени это. Теоретическая основа, которая лежит в основе «частой» статистики - теория принятия решений - не имеет смысла для этого «принципа вероятности».
whuber
1
Я знаю, что буду делать, если данных достаточно. Я бы сделал гистограмму. Я бы посмотрел на гистограмму. Если бы в 99 была четкая граница, делающая одностороннюю усеченную гистограмму в тот момент, я бы заподозрил, что она была усечена. Я также посмотрел бы на данные, которые, как известно, не были усечены, и проверил их кривые формы, и посмотрел, смогу ли я подобрать вероятностную модель, например, гамма-распределение или нет. Затем я хотел бы вернуться к усеченным данным (по предположению) и посмотреть, распространяется ли остальная часть также по гамма-распределению (или как-то еще). Тогда мне нужно объяснить: «Почему гамма?» Если так, я закончил.
Карл

Ответы:

4

В частом заключении мы хотим определить, как часто что-то происходило бы, если бы данный случайный процесс неоднократно реализовывался. Это отправная точка для теории p-значений, доверительных интервалов и тому подобного. Однако во многих прикладных проектах «заданный» процесс на самом деле не дается, и статистику необходимо выполнить хотя бы некоторую работу по его определению и моделированию. Это может быть удивительно неоднозначной проблемой, как и в этом случае.

Моделирование процесса генерации данных

На основании предоставленной информации наш лучший кандидат выглядит следующим образом:

  1. Если счетчик 100 В показывает 100 В, инженер повторно измеряет счетчик 1000 В, если он работает. В противном случае он просто отмечает 100V и движется дальше.

Но не немного ли это несправедливо по отношению к нашему инженеру? Предполагая, что он инженер, а не просто техник, он, вероятно, понимает, почему ему необходимо провести повторные измерения, когда первый счетчик показывает 100 В; это потому, что измеритель насыщен на верхнем пределе своего диапазона, следовательно, больше не надежен. Так что, возможно, что инженер на самом деле сделает

  1. Если счетчик 100 В показывает 100, инженер повторно измеряет счетчик 1000 В, если он работает. В противном случае он просто отмечает 100 В, добавляет знак плюс, чтобы указать насыщенное измерение, и продолжает.

Оба эти процесса соответствуют имеющимся у нас данным, но это разные процессы, и они дают разные доверительные интервалы. Процесс 2 - это тот, который мы предпочли бы как статистики. Если напряжения часто намного выше 100 В, то в Процессе 1 имеется режим потенциально катастрофического отказа, в котором измерения иногда сильно занижаются, поскольку данные подвергаются цензуре без нашего ведома. Доверительный интервал будет соответственно расширяться. Мы могли бы смягчить это, попросив инженера сообщить нам, когда его измеритель 1000 В не работает, но на самом деле это просто еще один способ убедиться, что наши данные соответствуют процессу 2.

Если лошадь уже вышла из сарая, и мы не можем определить, когда измерения проводятся и не подвергаются цензуре, мы можем попытаться вывести из данных время, когда измеритель 1000 В не работает. Вводя правило вывода в процесс, мы эффективно создаем новый Процесс 1.5, отличный от 1 и 2. Наше правило вывода иногда работает, а иногда нет, поэтому доверительный интервал из Процесса 1.5 будет промежуточным по размеру по сравнению с Процессами 1 и 2.

Теоретически, нет ничего плохого или подозрительного в том, что одна статистика имеет три различных доверительных интервала, связанных с тремя различными правдоподобными случайными процессами. На практике немногие потребители статистики хотят три разных доверительных интервала. Им нужен тот, который основан на том, что на самом деле произошло бы, если бы эксперимент повторился много раз. Поэтому, как правило, прикладной статистик учитывает знания предметной области, которые он приобрел в ходе проекта, делает обоснованное предположение и представляет доверительный интервал, связанный с процессом, который он угадал. Или она работает с заказчиком, чтобы формализовать процесс, поэтому нет необходимости догадываться, что делать дальше.

Как реагировать на новую информацию

Несмотря на настойчивость статистика в этой истории, вывод по частоте не требует от нас повторения измерений, когда мы получаем новую информацию, предполагающую, что генерирующий случайный процесс не совсем то, что мы изначально задумывали. Однако, если процесс будет повторяться, нам нужно убедиться, что все повторы соответствуют модельному процессу, предполагаемому доверительным интервалом. Мы можем сделать это, изменив процесс или изменив нашу модель.

Если мы изменим процесс, нам, возможно, придется отказаться от прошлых данных, которые были собраны несовместимо с этим процессом. Но это не проблема, потому что все варианты процесса, которые мы рассматриваем, отличаются только тогда, когда некоторые данные превышают 100 В, и в этом случае этого никогда не происходило.

Что бы мы ни делали, модель и реальность должны быть приведены в соответствие. Только тогда теоретически гарантированный уровень частых ошибок станет тем, что клиент фактически получит при повторном выполнении процесса.

Байесовская альтернатива

С другой стороны, если все, что нас действительно волнует, - это вероятный диапазон истинного среднего значения для этой выборки, мы должны полностью отбросить частоту и искать людей, которые продают ответ на этот вопрос - байесовцев. Если мы пойдем по этому пути, все торги из-за контрафактов станут неактуальными; все, что имеет значение, является приоритетом и вероятностью. В обмен на это упрощение мы теряем всякую надежду гарантировать частоту ошибок при повторном выполнении «эксперимента».

Почему суета?

Эта история была построена так, чтобы она выглядела как частый статист, суетящийся над глупыми вещами без причины. Честно говоря, кого волнуют эти глупые контрафакты? Ответ, конечно, заключается в том, что все должны заботиться. Жизненно важные научные области в настоящее время страдают от серьезного кризиса репликации , который предполагает, что частота ложных открытий намного выше, чем ожидалось в научной литературе. Одной из движущих сил этого кризиса, хотя и не единственной в любом случае , является рост р-хакерства , когда исследователи играют со многими вариациями модели, контролируя различные переменные, пока они не приобретут значимость.

P-хакерство широко пропагандируется в научно-популярных СМИ и блогосфере, но мало кто на самом деле понимает, что не так с P-хакерством и почему. Вопреки распространенному статистическому мнению, нет ничего плохого в просмотре ваших данных до, во время и после процесса моделирования. Что не так, так это то, что не сообщается о предварительном анализе и как они повлияли на ход исследования. Только взглянув на весь процесс, мы даже сможем определить, какая стохастическая модель является репрезентативной для этого процесса и какой анализ частоты подходит для этой модели, если таковой имеется.

Утверждение, что определенный частый анализ уместен, является очень серьезным требованием. Это утверждение подразумевает, что вы привязываете себя к дисциплине стохастического процесса, который вы выбрали, что влечет за собой целую систему контрфактов о том, что вы бы сделали в разных ситуациях. Вы должны на самом деле соответствовать этой системе, чтобы гарантия частого обращения распространялась на вас. Очень немногие исследователи, особенно те, кто работает в областях, где особое внимание уделяется открытым исследованиям, соответствуют этой системе, и они не сообщают о своих отклонениях скрупулезно; вот почему у нас сейчас кризис репликации в наших руках. (Некоторые уважаемые исследователи утверждают, что это ожидание нереально, и я сочувствую этой позиции, но это выходит за рамки данной статьи.)

Может показаться несправедливым, что мы критикуем опубликованные статьи на основании заявления о том, что они сделали бы, если бы данные были другими. Но это (несколько парадоксальная) природа рассуждений, основанных на частоте: если вы принимаете концепцию p-значения, вы должны уважать законность моделирования того, что было бы сделано при альтернативных данных. (Gelman & Loken, 2013)

В исследованиях, которые относительно просты и / или стандартизированы, таких как клинические испытания, мы можем приспособиться к таким вещам, как множественные или последовательные сравнения, и поддерживать теоретическую частоту ошибок; в более сложных и предварительных исследованиях модель, основанная на частоте, может быть неприменима, поскольку исследователь может не полностью осознавать все принимаемые решения , не говоря уже о регистрации и явном их представлении. В таких случаях исследователь должен (1) быть честным и искренним в отношении того, что было сделано; (2) представить p-значения либо с сильными оговорками, либо вовсе не с ними; (3) рассмотреть возможность представления других доказательств, таких как предварительная достоверность гипотезы или последующее исследование репликации.

Павел
источник
Это выглядит как хороший ответ, но я должен мысленно переварить его завтра.
Праксеолит
по описанию проблемы, как указано, звучит так, как будто инженер заявляет, что он всегда делал ваш вариант №2
Аксакал
Возможно, но он не сказал так явно. Большие ошибки могут быть допущены, когда люди догадываются о том, что думают другие люди, а не обсуждают их явно.
Пол
В курсах прикладной статистики слишком мало внимания уделяется формализму того, что означает оценка параметров. Предположим, мы планируем бросить монетку и записать частоту появления голов. Приступая, мы молчаливо предполагаем, что фактическим распределением является Бернулли с p = q = 0,5. После 1000 бросков мы спрашиваем себя, «насколько вероятно, что это была справедливая монета», сравнивая реальность с теорией / предположением. Но во многих науках люди предполагают, что все нормально распределено, и используют t-тесты. Но это бессмысленно, если доходы обычно не распределяются.
eSurfsnake
1

Там, кажется, логическая ошибка. Инженер говорит, работал ли измеритель на 1000 вольт, «если бы показания были выше 100, я бы использовал другой измеритель». Но как он узнал, что напряжение было> 100 без использования 1000 вольтметра?

Я не думаю, что эта загадка достаточно хорошо сформулирована, чтобы решить полезный философский вопрос. Практически, я согласен с ответом, что правильно сделать гистограмму и посмотреть, выглядит ли она усеченной.

Но, в любом случае, ничего в этом вопросе не касается вопросов, которые имеют значение, например: (1) каково известное (или предполагаемое) распределение показаний и почему? Есть ли основания полагать, что они нормально распределены? (2) Если на этот вопрос нет ответа, то каким образом когда-либо оценивался доверительный интервал?

Чтобы довести его до крайности, измеряется некоторое «напряжение». Предположим, что источник питания не может выдавать более 100 вольт. Если бы это было правдой, предположительно, не могло быть никаких измерений более 100 вольт, поэтому измеритель не имеет значения.

Существует гораздо больше - с точки зрения априоров, ограничений и т. Д. - что входит в оценку и тому подобное, чем вопрос охватывает. Это не похоже на парадокс «Монти Холл», который четок и чист.

eSurfsnake
источник
1
Смысл этой истории состоит в том, чтобы критиковать интерпретации вероятности, основанные на гипотетических событиях, путем расширения этих интерпретаций до абсурдной крайности. Проблемы, которые вы упоминаете, не имеют отношения к делу. Предположительно, инженер знал бы, что нужно изменить вольтметры, если это необходимо (например, видит значение «100»), а у статистика есть причины использовать подход, который он использует (например, он просто так уже знает, что нормальное распределение является хорошим модель для этих чтений).
Праксеолит