Насколько значимым является значение по сравнению со списком значений? В большинстве случаев статистическое тестирование предполагает сравнение выборочного набора с популяцией. В моем случае выборка производится по одному значению, и мы сравниваем его с населением.
Я дилетант в тестировании статистических гипотез, столкнулся, пожалуй, с самой основной проблемой. Это не один тест, а сотни. У меня есть пространство параметров, и я должен сделать тест значимости для каждой точки. Оба значения и фоновый список (население) генерируются для каждой комбинации параметров. Затем я упорядочиваю это по p-значению и нахожу интересные комбинации параметров. На самом деле, нахождение комбинаций параметров, где этот p-val является высоким (незначимым), также важно.
Итак, давайте возьмем один тест: у меня есть вычисленное значение, сгенерированное из выбранного набора, и фоновый набор значений, вычисленный путем выбора случайного обучающего набора. Вычисленное значение составляет 0,35, а фоновый набор (вероятно?) Обычно распределяется со средним значением 0,25 и очень узким стандартным значением (e-7). На самом деле я не обладаю знаниями о распределении, потому что выборки вычисляются из чего-то другого, они не являются выборками случайных чисел из некоторого распределения, поэтому фон - правильное слово для этого.
Нулевая гипотеза состояла бы в том, что «среднее значение выборочного теста равно моему вычисленному значению 0,35». Когда я должен считать это Z-тестом или T-тестом? Я хочу, чтобы значение было значительно выше, чем среднее значение по населению, поэтому это односторонний тест.
Я немного сбит с толку относительно того, что считать образцом: у меня либо один образец (наблюдение), и фоновый список в качестве совокупности, ИЛИ мой образец - фоновый список, и я сравниваю его со всем (без выборки). население, которое согласно нулевой гипотезе должно иметь одинаковое среднее значение. Как только это решено, тест идет в разные стороны, я думаю.
Если это T-тест, как мне вычислить его p-значение? Я хотел бы вычислить его сам, а не использовать функцию R / Python / Excel (я уже знаю, как это сделать), поэтому сначала я должен установить правильную формулу.
- Как вычислить p-значение? (то есть, не используя функцию R / Python / Excel или просмотр таблицы p-значений, но фактически вычисляя ее на основе формулы, потому что я хочу знать, что я делаю)
- Как определить порог значимости на основе размера моей выборки? (формула была бы хороша)
Ответы:
Вы поднимаете интересный вопрос. Прежде всего, если у вас есть наблюдение 0,35, среднее значение 0,25 и стандартное отклонение 1/10 ^ 7 (именно так я интерпретирую ваш бит е ^ -7), вам действительно не нужно вдаваться в какие-либо гипотезы. тестовое упражнение. Ваше наблюдение 0,35 сильно отличается от среднего значения 0,25, учитывая, что оно будет составлять несколько тысяч стандартных отклонений от среднего значения и, вероятно, будет составлять несколько миллионов стандартных ошибок от среднего.
Разница между Z-тестом и t-тестом относится главным образом к размеру выборки. Для образцов меньше 120 вы должны использовать t-критерий для вычисления значений p. Когда размеры выборки больше, чем это, это не имеет большого значения, если вообще, какой вы используете. Интересно рассчитать его в обоих направлениях независимо от размера выборки и наблюдать, насколько мало различий между этими двумя тестами.
Что касается расчета самостоятельно, вы можете рассчитать t stat, разделив разницу между вашим наблюдением и средним значением и разделив ее на стандартную ошибку. Стандартной ошибкой является стандартное отклонение, деленное на квадратный корень размера выборки. Теперь у вас есть т т стат. Чтобы рассчитать значение ap, я думаю, что нет альтернативы, кроме как посмотреть ваше значение t в тестовой таблице. Если вы принимаете простую альтернативу Excel, TDIST (t stat value, DF, 1 или 2 для 1 или 2 tail p value) делает свое дело. Чтобы вычислить значение ap с использованием Z, формула Excel для теста 1 хвоста: (1 - NORMSDIST (значение Z). Значение Z совпадает со значением t stat (или числом стандартной ошибки вдали от среднего значения).
Как предостережение, эти методы проверки гипотез могут быть искажены размером выборки. Другими словами, чем больше размер вашей выборки, тем меньше ваша стандартная ошибка, чем выше полученное вами значение Z или t stat, тем ниже значение p и тем выше ваша статистическая значимость. Как кратчайший путь в этой логике, большие размеры выборки приведут к высокой статистической значимости. Но высокая статистическая значимость в связи с большим размером выборки может быть совершенно несущественной. Другими словами, статистически значимой является математическая фраза. Это не обязательно означает значительный (согласно словарю Вебстера).
Чтобы уйти от этой ловушки с большим размером выборки, статистики перешли к методам Effect Size. Последние используют в качестве единицы статистического расстояния между двумя наблюдениями стандартное отклонение вместо стандартной ошибки. При такой структуре размер выборки не повлияет на вашу статистическую значимость. Использование Effect Size также приведет к тому, что вы переместитесь от значений p к доверительным интервалам, которые могут быть более значимыми в простом английском языке.
источник
Проверка гипотезы всегда относится к населению. Если вы хотите сделать заявление о пробе, вам не нужно тестировать (просто сравните то, что вы видите). Частые люди верят в асимптотику, поэтому, пока размер вашей выборки велик, не беспокойтесь о распределении ваших данных. Z-тест и T-тест делают в основном одно и то же с точки зрения вычисления статистики теста, только критические значения получаются из разных распределений (Normal против Student-T). Если размер вашей выборки велик, разница незначительна.
Что касается Q1: просто посмотрите на него из T-распределения с n-1 степенями свободы, где n - размер выборки.
Относительно Q2: Вы вычисляете порог на основе желаемого уровня значимости для Z-теста и на основе уровня значимости для размера выборки в случае T-теста.
А если серьезно, вы должны рассмотреть некоторые основы.
источник