Статистика везде; однако, часто используются статистические термины, которые не всегда ясны.
Термины вероятность и шансы используются взаимозаменяемо в английском языке, несмотря на их четкие и разные математические выражения.
Отсутствие разделения термина « вероятность и вероятность» обычно сбивает с толку врачей, пытающихся количественно оценить вероятность рака молочной железы с учетом положительной маммографии: «О, что за чушь. Я не могу этого сделать. Вы должны проверить мою дочь; она изучает медицину ».
Не менее распространенным является использование корреляции вместо ассоциации . Или корреляция, подразумевающая причинность .
В знаменитом документальном фильме Эла Гора « Неудобная правда» слайд иллюстрирует соотношение ледяного ядра и температуры, оставляя более техническую работу, чтобы доказать причинность из обсуждения:
ВОПРОС: Какие статистические термины создают проблемы интерпретации при использовании без математической строгости и, следовательно, заслуживают исправления?
источник
Ответы:
Может быть бесполезно бороться с изменениями в языке. Но
параметр не означает переменную
В классической статистике, которая в данном случае начинается именно с Р. А. Фишера, который впервые использовал термин с этим значением, параметр является неизвестной константой, которая должна быть оценена, скажем, средняя численность населения или корреляция. В математике существуют связанные, но не идентичные значения, как, например, когда кривая задается параметрически. Во многих науках параметр - это просто другое слово для меры (сам по себе термин плотный с математическим значением), свойства или переменной, скажем, длины или проводимости, пористости или добродетели, в зависимости от обстоятельств. Естественно, длина или добродетель человека неизвестна до его измерения. но статистически мыслящие люди могут быть смущены его использованием для ряда таких измерений. На обычном или вульгарном языке, параметры(почти всегда во множественном числе) часто означают пределы чего-либо, скажем, личные отношения или политическую политику, возможно, вытекающие из некоторого первоначального смешения с периметром . С высокой вероятностью априора предполагается, что байесовцы будут говорить сами за себя (благодарный кивок @conjugateprior).
перекос не значит предвзятый
В течение столетия или более асимметрия имела специфический статистический смысл, ссылаясь на асимметрию распределений, независимо от того, оценивается ли она графически, измеряется численно или теоретически считается вопросом веры или надежды. Гораздо дольше, или так можно догадаться, смещение в среднем означало быть ошибочным, что, если мы знаем правду, то есть истинное или правильное значение, можно количественно определить как систематическую ошибку. У искаженного на обычном языке здравого смысла быть искаженным или искаженным и, следовательно, быть неправильным, неправильным и, следовательно, также предвзятым. Это чувство (насколько я заметил, только совсем недавно) начало фильтроваться обратно в статистические дискуссии, так что первоначальный смысл асимметрии находится в некоторой опасности быть размытым или затопленным.
корреляция не означает согласие
Корреляция привлекла несколько точных смыслов в статистике, которые объединяют идею двумерных отношений, совершенных в некотором точном смысле: ведущие случаи - линейные и монотонные отношения. Часто даже в статистических дискуссиях это означает почти любой тип отношений или ассоциации. То, что корреляция не означает, обязательно, является соглашением: таким образом, подразумевает корреляцию Пирсона или пока , но согласие требует очень строгого условия ,y=a+bx 1 −1 b≠0 y=x a=0,b=1
уникальное не означает отличное
Это довольно часто , чтобы говорить о различных значениях данных , как уникальные , но уникальный по - прежнему идеально сохранился лучше , как смысл происходящего только один раз. Мое собственное предположение состоит в том, что некоторые обвинения связаны с утилитой Unix [sic]
uniq
и ее имитаторами, которые сводят возможно повторяющиеся значения к набору, в котором каждое значение действительно уникально. Использование этого предположения объединяет ввод и вывод программы. (И наоборот, если мы говорим о дубликатах в данных, мы редко ограничиваемся дубликатами , которые встречаются ровно дважды. Термин дублируетбудет иметь больше смысла с лингвистической точки зрения, но предпочтительнее для преднамеренной репликации контролей в экспериментах; результирующие значения откликов, как правило, совсем не идентичны, что является важным моментом.)образцы редко повторяются
В статистике выборка включает в себя несколько значений, и повторная выборка является высоким теоретическим достоинством, но практикуется редко, за исключением моделирования, которое является нашим обычным термином для любого вида фальсификации in silico . Во многих науках образец представляет собой отдельный объект, состоящий из комка, куска или порции воды, почвы, отложений, камня, крови, ткани или других веществ, варьирующихся от привлекательных до мягких и отвратительных; отнюдь не исключение, взятие многих образцов может быть существенным для любого серьезного анализа. Здесь терминология каждого поля имеет смысл для его людей, но иногда необходим перевод.
ошибка обычно не означает ошибку; как отметил Гарольд Джеффрис, первичное чувство ошибочно, а не ошибочно.
Тем не менее, мы должны с осторожностью относиться к нашим собственным грехам или причудам терминологии:
регресс не идет назад
стационарный не означает неподвижный или фиксированный
уверенность не имеет ничего общего с чьим-либо психическим или психологическим состоянием
значение имеет лишь иногда свое повседневное значение
«Точный» часто является почетным термином, относящимся к удобному решению или расчету, а не к решению проблемы.
перекошенные вправо распределения для многих выглядят перекошенными влево и наоборот
логнормальный так называется , потому что это нормально экспоненцируются
но логнормальное нормальнее нормального
Gaussian был обнаружен Муавром
Пуассон не обнаружил Пуассона , не говоря уже о пуассоновской регрессии
самозагрузки не помогут вам с вашей обувью
складной нож не режет
Куртоз не является заболеванием
участки стволов и листьев не относятся к растениям
фиктивная переменная является полезным, не бессмысленно или глупо
кто на Земле (или где-либо еще) считает, что гетероскедастичность - действительно предпочтительный термин по сравнению с неравной изменчивостью ?
«Робаст» теперь имеет по меньшей мере два основных технических значения для разных групп, ни одно из которых не препятствует его частому использованию, даже в технических дискуссиях, для обозначения чего-то вроде «утверждал, что ведет себя хорошо»
IV теперь имеет как минимум два основных значения для разных групп
фактор теперь имеет как минимум два основных значения для разных групп
нормализация и стандартизация имеют бесчисленное множество значений (нам действительно нужно стандартизировать там)
Сравнение с описанием графа означает вертикальную переменную против горизонтальной переменной , если только это не означает противоположное
и (что не менее важно, чтобы придумать фразу) статистика имеет как минимум три основных значения.
Примечания:
Несмотря на все проявления обратного, я думаю, что это хороший, серьезный вопрос.
Мода сдвигается. В двадцатом веке кажется, что многие люди (без имен, без учений, но можно упомянуть Карла Пирсона) могли придумывать термины, только достигая своих греческих и латинских словарей. (Было бы несправедливо не отдавать ему должное за разброс сюжета .) Но Р.А. Фишер взломал многие ранее существовавшие английские слова, включая дисперсию , достаточность , эффективность и вероятность . Совсем недавно Дж. В. Тьюки был мастером в использовании по-домашнему уютных терминов, но немногие должны испытывать огорчение по поводу того, что спломы и плохие требования не завоевали популярность .
Один комментарий основан на воспоминаниях о том, что «Жизнь [...] является мультипликативной, а не аддитивной: нормальное распределение бревен более нормальное, чем нормальное». Anon. 1962. Рабочие правила Bloggins. В Good, IJ (ред.) Ученый размышляет: антология частично испеченных идей. Лондон: Heinemann, 212-213 (цитата на стр.213).
источник
Некоторые из вещей, с которыми я сталкиваюсь:
Относительно уровня значимости и вероятностей охвата КИ взаимозаменяемы, так что в итоге люди начинают говорить о «95% значимости».
[Что еще хуже, когда люди, совершающие такие ошибки, указывают на свои лекционные заметки - или даже на учебники - как на поддержку этого; другими словами, ошибка не их, а усугубляется во сто крат или во много тысяч раз, и, что еще хуже, даже если они понимают это правильно, им, возможно, все равно придется повторить ошибку, чтобы передать тему.]
Существует также распространенная тенденция думать, что «значимость» каким-то образом существует вне конкретной гипотезы / вопроса (что приводит к таким вопросам, как «важны ли мои данные», без какого-либо четкого представления о том, какой вопрос должен быть решен). [С этим связан вопрос «какой тест я должен использовать для этих данных?» как будто это были данные, а не вопрос, на который нужно ответить, - это движущая сила выбора анализа. (Хотя «дизайн» исследования может повлиять на конкретные используемые тесты, интересующий вас вопрос более важен - например, если у вас есть три доступные группы, а интересующий вас вопрос касается только сравнения двух из них, Тот факт, что у вас их три, не заставляет вас проводить однонаправленный анализ типа, а не проводить прямое сравнение двух групп интересов ... пока ваш выбор анализа не зависит от того, что показывают данные. В идеале вы должны планировать свои вопросы и анализы до того, как получите данные, а не бросать анализ на данные и смотреть, какие из них придерживаются, что кажется вопросом постфактум анализа - в том числе «какой тест я должен использовать для этих данных?» - склонны вести к.)
Случайная тенденция ссылаться на дополнение р-значения как своего рода «уверенность» или «вероятность» альтернативы.
«непараметрические данные»; другая, к сожалению, найдена в нескольких книгах (и, к сожалению, в статье, которая направлена на исправление распространенной ошибки), эта книга появляется так часто, что она находится в моем коротком списке автоматически сгенерированных комментариев (который начинается с «Данные не являются ни параметрическими, ни непараметрические; это прилагательные, которые применяются к моделям или методам ... ") (спасибо Нику Коксу за напоминание об этом конкретном багбере)
Обычно подразумевается, что это «ненормальные данные», но параметрические не подразумевают нормальные, а наличие приблизительной нормальности не подразумевает, что нам нужны параметрические процедуры. Точно так же, ненормальность не означает, что нам нужны непараметрические процедуры. Иногда подразумеваются «порядковые данные» или «номинальные данные», но ни в одном из случаев это не означает, что конечно-параметрические модели неуместны.
Распространенная тенденция неправильно понимать значение слова «линейный» в «линейной модели» таким образом, который противоречил бы использованию термина «линейный» в «обобщенной линейной модели». Отчасти это вина того, как мы используем терминологию.
сопоставление асимметрии среднего минус-медианы с асимметрией третьего момента и сопоставление нуля в обоих (или даже в обоих) с симметрией. Обе ошибки часто встречаются в основных текстах, широко используемых в некоторых конкретных областях применения. [Существует связанная ошибка трактовки нулевой асимметрии и нулевого избыточного эксцесса как подразумевающей нормальность]
это настолько распространено, что становится все труднее называть это ошибкой (отчасти благодаря усилиям определенной программы) - называть избыточный эксцесс просто «эксцессом»; ошибка почти наверняка приведет к проблемам со связью.
источник
« Данные » во множественном числе . (Единственное число является "датумом").
источник
Хотя это не совсем статистический термин, я голосую за отставку эндогенности . Он используется для обозначения всего: от обратной причинности до смешения с выбором и смещением коллайдера, когда все, что люди действительно хотят сделать, это сказать: «Этот эффект не идентифицирован».
источник
«Регрессия к среднему значению» не означает, что если мы наблюдали определенное количество образцов iid ниже ожидаемого значения, то следующие образцы iid, вероятно, будут выше ожидаемого значения.
источник
Процент против Процентных очков : если что-то увеличивается с 1% до 2%, оно увеличивается на 100%. Или: можно сказать, что он увеличился на 1 процентный пункт.
Заявление о том, что увеличение составило 1%, вводит в заблуждение.
источник
Я считаю, что аббревиатуры, которые не указаны четко, представляют собой реальную проблему. Например, я вижу такие вещи, как GLM, и нигде не указано, что означает общая линейная модель или обобщенная линейная модель. Однажды обычно можно выяснить, на что ссылаются после копания в контексте, но я считаю, что это особенно проблематично для студентов, только начинающих изучать статистические модели.
Другой пример этого - IV. Означает ли это инструментальную переменную или независимую переменную? Часто это не ясно, пока вы не изучите контекст.
Еще одна путаница, которую я вижу, это «модератор» и «взаимодействие». Кроме того, население (как и в целом по населению) и интересующее население, кажется, вводят в заблуждение новых студентов, если это не сделано очень ясно.
источник
Тот, который распространен в повседневном языке:
средний
Для обычного человека (полная ирония), среднее значение, медиана, способ и ожидаемая ценность чего-либо одинаковы. У них есть естественная тенденция делать точечную оценку с бессознательным и неопровержимым предположением о том, что существует базовое нормальное распределение. И столь же бессознательное предположение об очень маленькой дисперсии. Вера в то, что такая оценка 1) существует и 2) будет очень полезна для них, поскольку они могут воспринимать ее как практически определенный предиктор, настолько укоренилась, что в принципе невозможно убедить их в обратном.
Для примера из реальной жизни попробуйте поговорить с поваром, который спрашивает: «Каков картофель среднего размера?», Абсолютно уверен, что если вы скажете ему число, он сможет использовать его для любого рецепта, в котором указано число. картофеля, и получилось ли оно идеально каждый раз. И злиться на тебя за попытку сказать ему "такого номера нет". К сожалению, это происходит в ситуациях с гораздо более высокими ставками, чем приготовление супа.
источник
Куртоз не измеряет «остроту».
* Вычесть 3 или нет; в этом нет никакой разницы.
источник
Линейный означает:
Линейный смысл противоположен динамическому . Как и в случае, когда зависимая переменная является функцией, она не является функцией своих предыдущих значений. В этом отношении под нелинейными понимаются такие вещи, как и .yt=a+byt−1+cx yt−yt−1=a+b(yt−1−xt−x)+c(xt−xt−1)+dxt−1
Где является зависимой переменной, является независимой переменной, а и являются параметрами во всех приведенных выше примерах.x a , b , c , d θy x a,b,c,d θ
источник
Вопрос был об использовании статистических терминов, которые мы должны УХОДИТЬ, чтобы исправить. Я исправляю термин «случайный», использованный моими тысячелетними детьми, для обозначения того, что противоположно случайному, уже 10 лет. Учитывая, сколько моих стажеров изо всех сил пытаются получить случайную выборку данных, которая на самом деле является случайной, что произошло еще до использования этого слова, запутывание этого термина в повседневном сленге является кризисом.
Из OnlineSlangDictionary:
источник
Уже слишком много замечательных примеров, упомянутых Гленом и Ником ... осталось немного!
Некоторые аспекты регрессии
срок ошибки и остаток (несколько странно, когда люди гордятся, что их остатки не связаны с регрессорами)
предсказание и оценка (должны ли мы даже перестать проводить различие, когда речь идет о предсказанных случайных эффектах?)
интервал прогнозирования / прогноза в зависимости от доверительного интервала. Я думаю, что есть вероятность> 0,5, чтобы процитировать неправильный.
регрессор (столбец в матрице дизайна) в сравнении с covariable et al. Особенно в технических ситуациях, когда различие является существенным, многие люди (включая меня) склонны к неточности.
источник
В частности, в условиях страхования обычно используют дисперсию для обозначения различий любого рода, а не среднее значение квадратов различий между каждой точкой данных и среднее значение набора данных.
источник
байесовский
Ученики, изучающие его, могут не испытывать затруднений, сообщая вам, «что-то» выглядит как байесовский, но просят их решить проблему с помощью частого и байесовского подходов, и они, вероятно, потерпят неудачу.
По моему опыту, учеников учат, что это просто философское различие, и нет конкретного примера, который демонстрирует одну и ту же проблему, атакованную обоими подходами.
Теперь спросите их, почему кто-то может использовать частый подход в их примере; Скорее всего, их лучшим объяснением было бы что-то вроде «ну, в старые времена компьютеров не существовало ...»
источник
риск
Риск не означает вероятность
Риск - это сумма затрат на все результаты, каждая из которых умножена на вероятность того, что они произойдут.
Риск обычно сопоставляется с вознаграждением, которое является достижением, которого мы стремимся достичь.
Вот один пример: как смертелен твой киловатт . Здесь риски - количество погибших людей для разных источников энергии - сопоставляются с вознаграждением - тераватт-часами энергии, произведенной этими источниками энергии.
Например, риск ядерной энергетики - это не вероятность того, что произойдет кризис; это вероятность того, что произойдет обвал, умноженный на количество людей, которые умирают от него, суммированный с количеством людей, которые умирают от обычных операций, умноженным на вероятность того, что операции останутся нормальными.
источник
Фиксированные и случайные эффекты могут означать разные вещи для разных людей. В эконометрике фиксированные эффекты на самом деле являются случайными, и когда вы думаете об этом, каждый эффект в статистике является случайным, поэтому присвоение названию чего-либо случайного не дает никакой значимой дополнительной информации.
источник