Мы, статистики, используем много слов способами, которые немного отличаются от того, как их используют все остальные. Это вызывает много проблем, когда мы учим или объясняем, что делаем. Я начну список (и теперь я добавлю некоторые определения, по комментариям):
- Сила - это способность правильно отвергнуть ложную нулевую гипотезу. Обычно это означает правильно сказать «что-то происходит».
- Смещение - статистика смещена, если она систематически отличается от параметра популяции, связанного с ней.
- Значимость - результаты статистически значимы на уровне нескольких процентов (часто 5%) в следующей ситуации: если совокупность, из которой берется выборка, имеет истинное значение 0, статистика, по крайней мере, такая же экстремальная, как и та, которая получена из выборки, будет иметь место только 5% времени
- Взаимодействие - две независимые переменные взаимодействуют, если взаимосвязь между зависимой переменной и одной независимой переменной отличается на разных уровнях другой независимой переменной
Но должно быть много других!
terminology
communication
Питер Флом
источник
источник
Ответы:
«Значение» - самое большое, с чем я сталкиваюсь, потому что оно имеет общее значение для английского языка, и это значение возникнет при обсуждении результатов исследований. Я даже обнаружил, что смешиваю слова «значительный» в значении «важный» в том же предложении, где я говорил о статистических результатах.
Так лежит безумие.
источник
Я бы предложил добавить Linear в список.
Я задал вопрос по математике. SE о том, что я, как инженер, считаю оценкой линейной минимальной среднеквадратичной ошибки случайной величины учетом значения случайной величины (что означает оценку как где и выбраны так, чтобы минимизировать ), и дали частичный ответ. В одном из комментариев на вопрос сказаноХ Y Y = Х + Ь Ь Е [ ( У - Х - б ) 2 ]Y X Y Y^=aX+b a b E[(Y−aX−b)2]
«Мне немного неловко с вашим языком, так как я боюсь, что такой способ использования слова« линейный »может привести к распространенному заблуждению о том, что причина, по которой линейная регрессия в так называемой линейной регрессии заключается в том, что человек подходит по линии. Люди, которые думают, что затем смущает, когда статистик настаивает на том, что он выполняет линейную регрессию, когда подходит парабола или синусоида и т. д. "
Итак, что означает линейная регрессия для статистики?
источник
вероятность
Мне кажется, что большинство проблем, связанных с интерпретацией тестов гипотез и доверительных интервалов, проистекают из применения байесовского определения «вероятности», когда процедура основана на частом. Например, p-значение, являющееся вероятностью, что нулевая гипотеза верна, когда AFAICS никакая вероятность не может быть связана с правдой конкретной гипотезы в частых условиях.
источник
«Доверие»
Очень трудно отговорить не статистиков, что их доверительный интервал не является (прямо) заявлением о достоверности различных значений параметров.
Чтобы быть уверенными в техническом значении этого термина, нам нужно представить некоторый набор повторных экспериментов, каждый из которых вычисляет интервал каким-то заранее определенным образом. Чтобы быть доверительным интервалом 95%, 95% этих применений формулы будут отлавливать соответствующий интересующий параметр.
(Конечно, бывают ситуации, когда эти два понятия совпадают, приблизительно или точно. Но в целом они не совпадают, и числовое соглашение не снимает проблему неправильного использования технических терминов.)
источник
«Вероятность» - это синоним «вероятности» в повседневной речи, но в статистике он имеет особое значение: он является функцией параметров статистической модели, значение которой является вероятностью наблюдаемого результата, предполагая, что параметры равны значениям параметров.
источник
Ошибка.
В статистике «ошибка» - это отклонение фактического значения данных от прогноза модели.
В реальной жизни ошибка - это спонтанный mstake или другой бред.
источник
«Умозаключение»
Другая важная часть о выводе - центральная предельная теорема. Как только вы поймете, что вы просто отбираете выборку из совокупности - хотя выборка - еще одна сложная функция, похожая на умозаключение, - вы понимаете, что даже если среднее значение выборки содержит одно значение, это значение не обязательно будет таким же, как в совокупности. ,
Возможно, я относительно свободно понял ваш вопрос, но как только кто-то поймет логический вывод или различия между выборкой и населением, тогда ему откроется вся статистика.
источник
Для нас (или, по крайней мере, для меня) «случайность» «выборки» предполагает, что она представляет «популяцию».
Для других «случайность» иногда подразумевает, что человек / вещь необычны.
источник
Я думаю, что следует различать термины, сбивающие с толку публику, и термины, сбивающие с толку статистиков. Вышеуказанные предложения, в основном, представляют собой термины, которые хорошо понимают статистики и (возможно) неправильно поняты общественностью. Я хотел бы добавить в список некоторые термины, которые неправильно понимают статистики:
источник
Экологический, обычно используемый для обозначения биологических систем, но также и статистическая ошибка. Из Википедии:
Экологическая ошибка (или ошибка экологического вывода) - это ошибка в интерпретации статистических данных в экологическом исследовании, в результате чего выводы о природе конкретных людей основываются исключительно на совокупных статистических данных, собранных для группы, к которой принадлежат эти люди. Эта ошибка предполагает, что отдельные члены группы имеют средние характеристики группы в целом.
источник
Является ли «опрос» типом математики («выборочная проверка») или листом бумаги («вопросник»)?
Я не проводил опрос по этому вопросу, но я подозреваю, что большая часть населения считает, что «опрос» является последним. Я подозреваю далее, что они не думают о первом.
источник
«Нагрузки», «Коэффициенты» и «Веса»; когда речь идет о главном компоненте анализа.
Я обычно нахожу людей достаточно специальными при их использовании, взаимозаменяемом использовании, без предварительного явного определения того, что они означают, и я действительно сталкивался с работами, которые ссылаются на «загрузку векторов», а иногда и на сами ПК, а иногда на «веса». связан с конкретным ПК.
Вероятно, тот факт, что превосходная справка Джоллифи о главных компонентах в конце раздела 1.1 гласит: «Некоторые авторы различают термины« нагрузки »и« коэффициенты »в зависимости от используемого ограничения нормализации, но они будут взаимозаменяемо использоваться в этой книге». просто заставил людей думать, что у них есть свободный проход, чтобы смешивать и сопоставлять терминологию по своему вкусу ....
источник
Аддитивная модель. Все еще не совсем уверен, что это значит. Я думаю, что это относится к модели без условий взаимодействия. Но потом я наткнусь на статью, где они используют ее для ссылки на что-то еще, то есть на сплайн-модель.
источник
Одним из терминов, которые я нахожу наиболее запутанным, является «матрица замешательства». Конечно, термин сам по себе вводит в заблуждение, а не концепцию.
Я попытался отследить историю термина, и это тоже довольно интересно. Матрица путаницы была изобретена в 1904 году ( http://en.wikipedia.org/wiki/Karl_Pearson ). Он использовал термин http://en.wikipedia.org/wiki/Contingency_table . Он появился в Карл Пирсон, ФРС (1904). Математический вклад в теорию эволюции (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf
Во время Второй мировой войны https: //en.wikipedia.org/wiki/Detection_theory был разработан как исследование отношений между стимулом и ответом. Там была использована путаница.
Из-за теории обнаружения, термин был использован в психологии. Оттуда термин достиг машинного обучения.
Кажется, что хотя эта концепция была придумана в статистике, очень тесно связанной с машинным обучением, она достигла машинного обучения после обходного пути в течение 100 лет.
Некоторые ссылки на использование термина см .: Каково происхождение термина «путаница»?
источник
"Статистика"
Для широкой публики, заменой: «Теперь я собираюсь лгать вам и говорить так, как вы не понимаете».
источник