Недавно два разных сотрудника использовали своего рода аргумент о различиях между условиями, которые мне кажутся некорректными. Оба этих сотрудника используют статистику, но они не являются статистиками. Я новичок в статистике.
В обоих случаях я утверждал, что, поскольку в эксперименте не было существенной разницы между двумя условиями, было неверно делать общее утверждение об этих группах в отношении манипуляции. Обратите внимание, что «сделать общее утверждение» означает что-то вроде написания: «Группа A использовала X чаще, чем группа B».
Мои коллеги возразили: «Несмотря на то, что существенной разницы нет, эта тенденция сохраняется» и «Несмотря на то, что существенной разницы нет, разница есть». Для меня оба они звучат как двусмысленность, т. Е. Они изменили значение «разницы» с: «разницы, которая, вероятно, будет результатом чего-то другого, кроме случайности» (то есть статистической значимости), на «любой не нулевая разница в измерении между группами ».
Был ли правильный ответ моих коллег? Я не стал с ними связываться, потому что они опередили меня.
Ответы:
Это большой вопрос; ответ во многом зависит от контекста.
В целом, я бы сказал, что вы правы : утверждение безоговорочного общего утверждения типа «группа А использовала Х чаще, чем группа В» вводит в заблуждение. Было бы лучше сказать что-то вроде
или
или
С другой стороны: ваши коллеги правы в том, что в этом конкретном эксперименте группа A использовала X чаще, чем группа B. Однако люди редко заботятся об участниках конкретного эксперимента; они хотят знать, как ваши результаты будут обобщены для большей популяции, и в этом случае общий ответ таков: вы не можете с уверенностью сказать, будет ли случайно выбранная группа A использовать X более или менее часто, чем случайно выбранная группа B.
Если вам нужно было сегодня сделать выбор, использовать ли лечение A или лечение B для увеличения использования X, при отсутствии какой-либо другой информации или различий в расходах и т. Д., Тогда выбор A будет вашим лучшим выбором. Но если вы хотите, чтобы вам было удобно делать правильный выбор, вам нужно больше информации.
Обратите внимание, что вы не должны говорить «нет разницы между группой A и группой B в их использовании X», или «группа A и группа B используют X одинаковое количество». Это верно ни для участников вашего эксперимента (где А использовал Х на 13% больше), ни среди населения в целом; в большинстве реальных ситуаций вы знаете, что действительно должен быть некоторый эффект (независимо от того, насколько он незначителен) от А до В; Вы просто не знаете, в каком направлении это идет.
источник
Это сложный вопрос!
Перво-наперво, любой порог, который вы можете выбрать для определения статистической значимости, является произвольным. Тот факт, что большинство людей использует значение, не делает его более правильным, чем любое другое. Так что, в некотором смысле, вы должны думать о статистической значимости как о «спектре», а не как о черно-белом объекте.5 % п
Я надеюсь, что это слишком многословное объяснение поможет вам разобраться в ваших идеях. Суть в том, что вы абсолютно правы! Мы не должны заполнять наши отчеты, будь то исследования, бизнес или что-то еще, необоснованными заявлениями, подкрепленными небольшим количеством доказательств. Если вы действительно думаете, что есть тенденция, но не достигли статистической значимости, то повторите эксперимент с большим количеством данных!
источник
Значительный эффект просто означает, что вы измерили маловероятную аномалию (маловероятно, если бы нулевая гипотеза, отсутствие эффекта, была бы верной). И, как следствие, это должно быть подвергнуто сомнению с высокой вероятностью (хотя эта вероятность не равна p-значению и также зависит от предыдущих мнений).
В зависимости от качества эксперимента вы можете измерить один и тот же размер эффекта , но это может быть не аномалией (что не исключено, если нулевая гипотеза окажется верной).
Когда вы наблюдаете эффект, но он не является значимым, тогда действительно (эффект) все еще может быть там, но он только незначителен (измерения не показывают, что нулевая гипотеза должна подвергаться сомнению / отвергаться с высокой вероятностью). Это означает, что вы должны улучшить свой эксперимент, собрать больше данных, чтобы быть более уверенными.
Таким образом, вместо эффекта дихотомии по сравнению с отсутствием эффекта вы должны пойти на следующие четыре категории:
Изображение с https://en.wikipedia.org/wiki/Equivalence_test, объясняющее процедуру двухсторонних t-тестов (TOST)
Вы, кажется, находитесь в категории D, тест не дает результатов. Ваши коллеги могут ошибаться, говоря, что эффект есть. Однако в равной степени неправильно утверждать, что эффекта нет!
источник
Похоже, они спорят р-значение против определения «тренд».
Если вы разместите данные на графике прогона, вы можете увидеть тренд ... серию точек графика, которые показывают, что тенденция растет или уменьшается с течением времени.
Но, когда вы делаете статистику по нему ... значение р предполагает, что это не имеет значения.
Для значения p, чтобы показать небольшое значение, но для них, чтобы увидеть тренд / прогон в серии данных ... это должен быть очень слабый тренд.
Итак, если бы это было так, я бы прибегнул к p-значению. IE: хорошо, да, в данных есть тренд / прогон ... но он настолько незначителен и незначителен, что статистика показывает, что не стоит продолжать анализ.
Незначительная тенденция - это то, что может быть связано с какой-то предвзятостью в исследованиях ... может быть, что-то очень незначительное ... что-то, что может быть только один раз в эксперименте, который, как оказалось, создает небольшую тенденцию.
Если бы я был менеджером группы, я бы сказал им, чтобы они перестали тратить время и деньги, копаясь в незначительных тенденциях, и искали более важные.
источник
Похоже, что в этом случае они мало обосновывают свои претензии и просто злоупотребляют статистикой, чтобы прийти к заключению, которое они уже сделали. Но бывают случаи, когда нормально не быть таким строгим с отсечками p-val. Это (как использовать статистическую значимость и предельные значения pval) - это спор, который бушует с тех пор, как Фишер, Нейман и Пирсон впервые заложили основы статистического тестирования.
Допустим, вы строите модель и решаете, какие переменные включить. Вы собираете немного данных, чтобы провести предварительное исследование потенциальных переменных. Теперь есть одна переменная, которая действительно интересует бизнес-команда, но ваше предварительное исследование показывает, что эта переменная не является статистически значимой. Однако «направление» переменной соответствует тому, что ожидала бизнес-команда, и хотя оно не соответствовало порогу значимости, оно было близко. Возможно, предполагалось, что это имеет положительную корреляцию с результатом, и вы получили бета-коэффициент, который был положительным, но значение pval было чуть выше предела 0,05.
В этом случае вы можете пойти дальше и включить его. Это своего рода неформальная байесовская статистика - ранее существовало твердое убеждение, что это полезная переменная, и первоначальное исследование показало некоторые доказательства в этом направлении (но не статистически значимые доказательства!), Поэтому вы даете ей преимущество сомнения и держать его в модели. Возможно, с большим количеством данных станет более очевидным, как они связаны с интересующим результатом.
Другим примером может быть то, где вы строите новую модель и смотрите на переменные, которые использовались в предыдущей модели - вы могли бы продолжать включать предельную переменную (которая находится на пороге значимости), чтобы сохранить некоторую преемственность от модели моделировать.
По сути, в зависимости от того, что вы делаете, есть причины быть более и менее строгими в отношении таких вещей.
С другой стороны, также важно помнить, что статистическая значимость не должна подразумевать практическую значимость! Помните, что в основе всего этого лежит размер выборки. Соберите достаточно данных, и стандартная ошибка оценки сократится до 0. Это будет иметь какое-либо значение, независимо от того, насколько оно мало, «статистически значимо», даже если в реальном мире это различие не будет иметь значения. Например, предположим, что вероятность попадания конкретной монеты на головы была .500000000000001. Это означает, что теоретически вы можете спроектировать эксперимент, который заключит, что монета нечестная, но для всех целей и целей монета может рассматриваться как честная монета.
источник