Я не статистик, но моя исследовательская работа связана со статистикой (анализ данных, чтение литературы и т. Д.). Мне снова напомнили из комментария по одному из моих вопросов, размещенных здесь, что есть некоторые общие слова, которые имеют особенно специфические значения или коннотации для тех, кто хорошо практикуется в области статистики.
Будет полезно иметь список таких слов и фраз, а также некоторые комментарии.
terminology
оборота user4045
источник
источник
Ответы:
« значительный » - здесь общеупотребительное слово означает «что-то важное» или «значимый». Статистический смысл неформально ближе к «можно отличить от случайного отклонения от нуля»; это не означает, что разница достаточно велика, чтобы иметь значение.
Вот несколько примеров, когда это различие могло быть причиной некоторой путаницы: 1 2
« параметр » - часто кажется, что, особенно в научных экспериментах, слово «параметр» используется так же, как статистик использует слово «переменная». Википедия описывает это так:
Пример, в котором может возникнуть проблема: 1 - предположительно пост, который привел к этому вопросу. (Я видел другой недавно, но я не могу найти его прямо сейчас)
источник
«Ошибка» - в статистике это часто означает любое отклонение между наблюдаемым и прогнозируемым значением. В реальной жизни это означает ошибку.
источник
Я нашел рецензируемую статью 2010 года, в которой рассматривается этот вопрос.
Андерсон-Кук CM. Скрытый жаргон: повседневные слова со значениями, характерными для статистики. ICOTS8, Международная конференция по статистике обучения, Любляна, Словения, 11-17 июля 2010 г.
Документ доступен бесплатно онлайн , поэтому я приведу лишь частичный список терминов, которые обсуждает автор:
источник
Я сталкивался с проблемой использования «фальсификации», как в «фальсификации гипотезы», в то время как другие думали, что я имел в виду «составление данных». Также о « предвзятости » почти невозможно упомянуть, не вызывая путаницы.
источник
«нормальный» - в обычной речи нормальный означает, как и ожидалось, а не необычный. В статистике, если переменная распределена нормально, это относится к распределению Гаусса. Я не верю, что употреблять слово «нормальный» с большой буквы, чтобы отличать его от общего значения речи.
«нормализация / стандартизация» - в статистике нормализация переменной означает вычитание среднего значения и деление на стандартное отклонение.
«стандартное отклонение в сравнении со стандартной ошибкой» - стандартное отклонение обычно рассчитывается по всей совокупности, тогда как стандартная ошибка рассчитывается по выборке.
источник
«Параметрический» по сравнению с «Непараметрический»: категории тестов, которые требуют данных «Нормальный» или «Нормальный». Параметрические тесты предпочтительнее непараметрических.
Общие тесты: T-тест (парный), Mann-Whitney U, ANOVA, Anderson-Darling и др.
Другие термины включают «значительный». Это показатель того, что данные указывают на то, что ваша гипотеза верна или нет. Когда вы проверяете свою гипотезу с определенной степенью вероятности (обычно 95%), «р-значение» менее 0,05 будет означать, что вы отклоните свою «нулевую гипотезу» (то есть наборы данных не отличаются) и примете свою « Альтернативная гипотеза »(т.е. наборы данных различны).
источник
Перекос в статистике подразумевает асимметричное распределение.
На обычном языке, и даже в науке, перекос часто используется (и все чаще?) Для обозначения того, что статистические люди обычно называют предвзятым , как в «Результаты по среднему росту искажаются при включении такого количества баскетболистов».
источник
Оценка - в статистике это результат расчета. Например, среднее значение выборки является оценкой среднего значения популяции, а доверительный интервал среднего значения является интервальной оценкой среднего значения популяции. Это оба результаты точных расчетов. «Оценка» - это точное обобщение попытки сделать вывод о населении на основе данных в выборке.
В обычном использовании слово оценка означает обоснованное предположение или догадку, или результат приблизительного расчета.
источник
Вероятность - на обычном языке синоним вероятности , но в статистике, имеющей определенное обратное отношение к вероятности, причем для любого набора параметров и набора данных , .θ X L(θ|X)=Pr(X|θ)
Представитель - имеет ряд иногда противоречивых значений как в повседневном, так и в научном смысле. Обратитесь к Крускала и Мостеллер 1979a , 1979b , 1979c и 1980 . Большинство известных мне статистиков считают выборку репрезентативной, если она была выбрана с известной вероятностью; большинство знакомых мне мирян сочли бы его репрезентативным, если бы предельные распределения были сродни населению.
источник
Образец : хотя в статистике это относится к множеству случаев , во многих других дисциплинах образец представляет собой один физический образец . Конечно, размер выборки также неоднозначен, ссылаясь либо на количество случаев в статистической выборке, либо на физический размер (масса, объем и т. Д.) Образца.
Чувствительность : для медицинской диагностики - доля заболевших, которая определяется тестом. В аналитической химии: наклон калибровочной кривой (см. Ниже).
Специфичность : в медицинской диагностике доля случаев, не связанных с заболеваниями, правильно определена тестом. В аналитической химии метод является специфическим, если нет перекрестной чувствительности.
Калибровка : на самом деле, два значения уже перечислены для статистики в статье Wiki. В химии и физике значение обратной регрессии является обычным. Однако возникает путаница:
Набор валидации : здесь я хотел бы обратить внимание на потенциально запутанное использование терминов, которое, я думаю, уже возникает в различных областях, связанных со статистикой, даже если я снова противопоставляю это. В контексте вложенной / двойной проверки или оптимизации по сравнению с проверкой / тестированием одна строка терминологии разбивает обучение - проверка - тест и использует набор «проверки» для оптимизации гиперпараметров.
Например, в элементах статистического обучения, с. 222 во 2-е изд. :
Напротив, например, в аналитической химии валидация - это процедура, которая демонстрирует, что модель (фактически, оценка окончательной модели является лишь частью валидации аналитического метода) хорошо работает для приложения и измеряет его производительность, см., Например, Джон К. Тейлор: Валидация аналитических методов, Analytical Chemistry 1983 55 (6), 600A-608A или руководства таких учреждений, как FDA. Это будет «тестирование» в другой строке терминологии, где «проверка» фактически используется для оптимизации.
Принципиальное отличие состоит в том, что результаты «оптимизации-валидации» должны использоваться для изменения (выбора) модели, тогда как изменения в проверенном аналитическом методе (включая аналитическую модель данных) означают, что вам необходимо провести повторную проверку (т.е. докажите, что метод все еще работает так, как он должен работать).
Если вам посчастливилось поговорить с химиками, хорошим примером терминологии аналитической химии является Danzer: Аналитическая химия - теоретические и метрологические основы, DOI 10.1007 / b103950
источник