Наиболее запутанные статистические термины

47

Мы, статистики, используем много слов способами, которые немного отличаются от того, как их используют все остальные. Это вызывает много проблем, когда мы учим или объясняем, что делаем. Я начну список (и теперь я добавлю некоторые определения, по комментариям):

  • Сила - это способность правильно отвергнуть ложную нулевую гипотезу. Обычно это означает правильно сказать «что-то происходит».
  • Смещение - статистика смещена, если она систематически отличается от параметра популяции, связанного с ней.
  • Значимость - результаты статистически значимы на уровне нескольких процентов (часто 5%) в следующей ситуации: если совокупность, из которой берется выборка, имеет истинное значение 0, статистика, по крайней мере, такая же экстремальная, как и та, которая получена из выборки, будет иметь место только 5% времени
  • Взаимодействие - две независимые переменные взаимодействуют, если взаимосвязь между зависимой переменной и одной независимой переменной отличается на разных уровнях другой независимой переменной

Но должно быть много других!

Питер Флом
источник
5
Я бы посоветовал людям добавить больше контекста к своим ответам. Примерами могут быть одно и то же слово, используемое по-разному в разных областях (фиксированные эффекты Gelman, 2005 ) или слова, которые имеют разные значения в разных контекстах (значимость или статистическая значимость Bushway et al., 2006 ).
Энди В.
5
Было бы хорошо, если бы ответчики могли объяснить в одном или двух предложениях, что на самом деле означает «технический» термин, или что может заставить его восприниматься как имеющий другое значение.
CHL
Я
дополню
1
... и "корреляция"!
Стефан Лоран
1
Для «образца» см. Комментарии к stats.stackexchange.com/questions/20945/… .
whuber

Ответы:

21

«Значение» - самое большое, с чем я сталкиваюсь, потому что оно имеет общее значение для английского языка, и это значение возникнет при обсуждении результатов исследований. Я даже обнаружил, что смешиваю слова «значительный» в значении «важный» в том же предложении, где я говорил о статистических результатах.

Так лежит безумие.

фомиты
источник
Да, но нет лучшего слова для «Я чертовски уверен, что это важно, но я не проводил никаких тестов и не буду, потому что это очевидно / не может быть сделано / что угодно»
naught101
17

Я бы предложил добавить Linear в список.

Я задал вопрос по математике. SE о том, что я, как инженер, считаю оценкой линейной минимальной среднеквадратичной ошибки случайной величины учетом значения случайной величины (что означает оценку как где и выбраны так, чтобы минимизировать ), и дали частичный ответ. В одном из комментариев на вопрос сказаноХ Y Y = Х + Ь Ь Е [ ( У - Х - б ) 2 ]YXYY^=aX+babE[(YaXb)2]

«Мне немного неловко с вашим языком, так как я боюсь, что такой способ использования слова« линейный »может привести к распространенному заблуждению о том, что причина, по которой линейная регрессия в так называемой линейной регрессии заключается в том, что человек подходит по линии. Люди, которые думают, что затем смущает, когда статистик настаивает на том, что он выполняет линейную регрессию, когда подходит парабола или синусоида и т. д. "

Итак, что означает линейная регрессия для статистики?

Dilip Sarwate
источник
5
Связанный вопрос на сайте в связи с этим ответом, Что означает линейная регрессия в линейной?
Энди В.
1
@AndyW Так ты бы сказал, что Linear входит в список, который начал Питер Флом, или нет?
Дилип Сарвате
1
да, я согласен, что подходит для этого списка. (+1)
Энди В.
4
Это соответствует списку, но по необычной причине: значение термина «линейный» хорошо известно и используется последовательно во многих математически ориентированных областях. Потенциальная путаница касается того, какая часть формулы является линейной.
whuber
Можете ли вы привести пример того, как вы подходите к параболе и все еще называете ее линейной моделью?
oneloop
14

вероятность

Мне кажется, что большинство проблем, связанных с интерпретацией тестов гипотез и доверительных интервалов, проистекают из применения байесовского определения «вероятности», когда процедура основана на частом. Например, p-значение, являющееся вероятностью, что нулевая гипотеза верна, когда AFAICS никакая вероятность не может быть связана с правдой конкретной гипотезы в частых условиях.

Дикран Сумчатый
источник
4
Похоже, то же самое относится к тем, кто привык говорить, что (истинный) параметр имеет 95% -ную вероятность лежать между xx и xx, когда речь идет о / интерпретации доверительных интервалов.
хл
1
Да, конечно!
Дикран Marsupial
1
+1 Однако я бы сформулировал ваше последнее предложение несколько иначе. В рамках настройки наиболее частых вероятность того, что нулевая гипотеза верна, равна 1 или 0, но вы не знаете, какая именно . (Строго говоря, это не совсем правильно, потому что «вероятность» - это долгосрочная относительная частота, а «долгосрочная частота» на самом деле не применима. Тем не менее, если сформулировать это так, люди могут понять, что говорится / как мы понимаем ситуация, в которой мы находимся. Например, люди понимают, что вы не можете использовать p-значение нулевой гипотезы в качестве вероятности того, что нулевая гипотеза верна.)
gung - Восстановить Монику
2
«потому что« вероятность »является долгосрочной относительной частотой» ». Многие вероятностные специалисты будут оспаривать это утверждение
Дилип Сарват,
14

«Доверие»

Очень трудно отговорить не статистиков, что их доверительный интервал не является (прямо) заявлением о достоверности различных значений параметров.

Чтобы быть уверенными в техническом значении этого термина, нам нужно представить некоторый набор повторных экспериментов, каждый из которых вычисляет интервал каким-то заранее определенным образом. Чтобы быть доверительным интервалом 95%, 95% этих применений формулы будут отлавливать соответствующий интересующий параметр.

ab

(Конечно, бывают ситуации, когда эти два понятия совпадают, приблизительно или точно. Но в целом они не совпадают, и числовое соглашение не снимает проблему неправильного использования технических терминов.)

гость
источник
10

«Вероятность» - это синоним «вероятности» в повседневной речи, но в статистике он имеет особое значение: он является функцией параметров статистической модели, значение которой является вероятностью наблюдаемого результата, предполагая, что параметры равны значениям параметров.

Xuexue
источник
8

Ошибка.

В статистике «ошибка» - это отклонение фактического значения данных от прогноза модели.

В реальной жизни ошибка - это спонтанный mstake или другой бред.

Харви Мотульский
источник
Разве орфографическая ошибка не является просто отклонением от фактической (предполагаемой) ценности средства коммуникации? Я действительно не вижу, как это другое слово, просто оно используется в другом (но не конфликтующем) контексте. Мне трудно поверить, что это будет слишком запутанно для кого-то новичка в этой области.
naught101
2
Одна из причин, почему значение может отличаться от прогноза, заключается в том, что экспериментатор испортил. Это похоже на орфографическую ошибку. Но почему ваш вес отличается от среднего веса всех людей вашего пола и возраста? Почему ваш доход отличается от среднего дохода? В статистике это отклонение от среднего значения является «ошибкой», но это не ошибка, а лишь вариация.
Харви Мотульский
Правда, но это зависит от того, как вы на это смотрите, я думаю. если вы посмотрите на написание слова на образце начальной школы, вы получите вариацию, вызванную людьми, да, но не вызванную экспериментатором. Вы можете посмотреть на одно и то же, написав на английском из разных возрастов. Я полагаю, вы обнаружите, что ранний английский имел гораздо более высокую вариабельность :)
naught101
@HarveyMotulsky: аналитическая химия использует ошибку в обоих направлениях. Мы говорим о систематической ошибке, случайной ошибке и грубых ошибках. Учебник: «Грубых ошибок можно избежать».
cbeleites поддерживает Монику
8

«Умозаключение»

βb

Другая важная часть о выводе - центральная предельная теорема. Как только вы поймете, что вы просто отбираете выборку из совокупности - хотя выборка - еще одна сложная функция, похожая на умозаключение, - вы понимаете, что даже если среднее значение выборки содержит одно значение, это значение не обязательно будет таким же, как в совокупности. ,

Возможно, я относительно свободно понял ваш вопрос, но как только кто-то поймет логический вывод или различия между выборкой и населением, тогда ему откроется вся статистика.

Адам
источник
7

Для нас (или, по крайней мере, для меня) «случайность» «выборки» предполагает, что она представляет «популяцию».

Для других «случайность» иногда подразумевает, что человек / вещь необычны.

Томас Левайн
источник
1
Я не столкнулся с этой путаницей из-за "случайности". Но если есть, то ясно, что оно существует.
Питер Флом - Восстановить Монику
3
Точнее, что оно существовало
Томас Левин
1
Последнее использование «случайного» кажется мне довольно недавним. Я нахожу это немного раздражающим по этой причине (просто затрудняет понимание статистики). Это еще более раздражает, когда я слышу, как я использую это в этом смысле ...
naught101
5

Я думаю, что следует различать термины, сбивающие с толку публику, и термины, сбивающие с толку статистиков. Вышеуказанные предложения, в основном, представляют собой термины, которые хорошо понимают статистики и (возможно) неправильно поняты общественностью. Я хотел бы добавить в список некоторые термины, которые неправильно понимают статистики:

  • Байесовский: Первоначально относился к тому, что сейчас известно как субъективный байесовский (он же эпистемологический, Де-Финетти). Сегодня этот термин будет использоваться всякий раз, когда появляется правило Байеса, редко в контексте субъективных убеждений, которое считается теорией принятия решений.
  • Эмпирический байесовский: Изначально имел в виду частую установку с непараметрическим априором. Сегодня, как правило, будет означать, что параметры параметрического (объективного) априора оценены и не известны априори. То есть то, что когда-то было известно как максимальная вероятность второго типа.
  • Непараметрический: иногда относится к «свободной модели». Иногда для «бесплатной раздачи». Стало практически неинформативным в те дни, когда «параметрические» модели могут включать миллионы параметров.
  • Ошибка типа III: иногда ссылаясь на ошибку знака. Когда-нибудь ссылаясь на неправильную спецификацию модели.
JohnRos
источник
Когда я спросил, я имел в виду «термины, сбивающие с толку широкой публики», но определенно стоит упомянуть термины, сбивающие с толку статистиков
Питер Флом - Восстановить Монику
Это, вероятно, следует разделить на отдельные ответы.
naught101
4

Экологический, обычно используемый для обозначения биологических систем, но также и статистическая ошибка. Из Википедии:

Экологическая ошибка (или ошибка экологического вывода) - это ошибка в интерпретации статистических данных в экологическом исследовании, в результате чего выводы о природе конкретных людей основываются исключительно на совокупных статистических данных, собранных для группы, к которой принадлежат эти люди. Эта ошибка предполагает, что отдельные члены группы имеют средние характеристики группы в целом.

zbicyclist
источник
3

Является ли «опрос» типом математики («выборочная проверка») или листом бумаги («вопросник»)?

Я не проводил опрос по этому вопросу, но я подозреваю, что большая часть населения считает, что «опрос» является последним. Я подозреваю далее, что они не думают о первом.

Томас Левайн
источник
2
Разве опросы не проводятся геодезистами? ;)
zbicyclist
3

«Нагрузки», «Коэффициенты» и «Веса»; когда речь идет о главном компоненте анализа.

Я обычно нахожу людей достаточно специальными при их использовании, взаимозаменяемом использовании, без предварительного явного определения того, что они означают, и я действительно сталкивался с работами, которые ссылаются на «загрузку векторов», а иногда и на сами ПК, а иногда на «веса». связан с конкретным ПК.

Вероятно, тот факт, что превосходная справка Джоллифи о главных компонентах в конце раздела 1.1 гласит: «Некоторые авторы различают термины« нагрузки »и« коэффициенты »в зависимости от используемого ограничения нормализации, но они будут взаимозаменяемо использоваться в этой книге». просто заставил людей думать, что у них есть свободный проход, чтобы смешивать и сопоставлять терминологию по своему вкусу ....

usεr11852 говорит восстановить Monic
источник
1

Аддитивная модель. Все еще не совсем уверен, что это значит. Я думаю, что это относится к модели без условий взаимодействия. Но потом я наткнусь на статью, где они используют ее для ссылки на что-то еще, то есть на сплайн-модель.

лощина
источник
0

Одним из терминов, которые я нахожу наиболее запутанным, является «матрица замешательства». Конечно, термин сам по себе вводит в заблуждение, а не концепцию.

Я попытался отследить историю термина, и это тоже довольно интересно. Матрица путаницы была изобретена в 1904 году ( http://en.wikipedia.org/wiki/Karl_Pearson ). Он использовал термин http://en.wikipedia.org/wiki/Contingency_table . Он появился в Карл Пирсон, ФРС (1904). Математический вклад в теорию эволюции (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Во время Второй мировой войны https: //en.wikipedia.org/wiki/Detection_theory был разработан как исследование отношений между стимулом и ответом. Там была использована путаница.

Из-за теории обнаружения, термин был использован в психологии. Оттуда термин достиг машинного обучения.

Кажется, что хотя эта концепция была придумана в статистике, очень тесно связанной с машинным обучением, она достигла машинного обучения после обходного пути в течение 100 лет.

Некоторые ссылки на использование термина см .: Каково происхождение термина «путаница»?

DaL
источник
-4

"Статистика"

Для широкой публики, заменой: «Теперь я собираюсь лгать вам и говорить так, как вы не понимаете».

Джон
источник