У меня есть набор данных наблюдений за образцами, которые хранятся в виде отсчетов в пределах диапазона. например:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Теперь найти среднюю оценку из этого довольно просто. Просто используйте среднее значение (или медиану) каждого бина диапазона в качестве наблюдения и счетчик в качестве веса и найдите средневзвешенное значение:
Для моего теста это дает мне 53,82.
Мой вопрос сейчас заключается в том, как правильно найти стандартное отклонение (или дисперсию)?
В процессе поиска я нашел несколько ответов, но я не уверен, что, если таковые имеются, действительно подходит для моего набора данных. Мне удалось найти следующую формулу как по другому вопросу здесь, так и по случайному документу NIST .
Что дает стандартное отклонение 8,35 для моего теста. Тем не менее, статья в Википедии о взвешенных средних дает обе формулы:
а также
Которые дают стандартные отклонения 8,66 и 7,83, соответственно, для моего теста.
Обновить
Спасибо @whuber, который предложил заглянуть в Исправления Шеппарда, и ваши полезные комментарии, связанные с ними. К сожалению, мне трудно понять, какие ресурсы я могу найти по этому поводу (и я не могу найти хороших примеров). Напомним, однако, что я понимаю, что следующее является предвзятой оценкой дисперсии:
Я также понимаю, что большинство стандартных поправок на смещение относятся к прямым случайным выборкам нормального распределения. Поэтому я вижу две потенциальные проблемы для меня:
- Это случайные сэмплы (я уверен, что именно здесь появляются поправки Шеппарда).
- Неизвестно, предназначены ли данные для нормального распределения (поэтому я предполагаю, что нет, что, я уверен, делает недействительными исправления Шеппарда).
Итак, мой обновленный вопрос: Каков подходящий метод для обработки смещения, налагаемого «простой» формулой взвешенного стандартного отклонения / дисперсии для ненормального распределения? В частности, в отношении связанных данных.
Примечание: я использую следующие термины:
- - взвешенная дисперсия
- - количество наблюдений. (т.е. количество бинов)
- - число ненулевых весов. (т.е. количество бинов с количеством)
- являются весами (то есть счет)
- - наблюдения. (т.е. мусорное ведро означает)
- - взвешенное среднее.
Ответы:
В этом ответе представлены два решения: поправки Шеппарда и оценка максимального правдоподобия. Оба близко согласны с оценкой стандартного отклонения: для первого и 7,69 для второго (при корректировке, чтобы быть сопоставимым с обычным «несмещенным» оценщиком).7.70 7.69
Исправления Шеппарда
«Поправки Шеппарда» - это формулы, которые корректируют моменты, вычисленные по двоичным данным (например, таким)
предполагается, что данные регулируются распределением, поддерживаемым на конечном интервале[a,b]
этот интервал делится последовательно на равные ячейки с общей шириной которая относительно мала (ни одна ячейка не содержит большую долю всех данных)h
распределение имеет непрерывную функцию плотности.
Они получены из формулы суммы Эйлера-Маклаурина, которая аппроксимирует интегралы в терминах линейных комбинаций значений подынтегрального выражения в равномерно распределенных точках и, следовательно, в целом применима (а не только к нормальным распределениям).
Хотя, строго говоря, нормальное распределение не поддерживается на конечном интервале, в очень близком приближении это так. По существу, вся его вероятность содержится в семи стандартных отклонениях от среднего. Поэтому поправки Шеппарда применимы к данным, предположительно поступающим из нормального распределения.
Первые два исправления Шеппарда
Используйте среднее значение данных в двоичном виде для среднего значения данных (т. Е. Коррекция среднего значения не требуется).
Вычитание из дисперсии Binned данных для получения (приблизительно) дисперсии данных.h2/12
Где взялось? Это равно дисперсии равномерной переменной, распределенной по интервалу длины h . Таким образом, интуитивно понятно, что поправка Шеппарда для второго момента предполагает, что биннинг данных - эффективная замена их на среднюю точку каждого бина - добавляет примерно равномерно распределенное значение в диапазоне от - h / 2 до h / 2 , откуда он надувается. дисперсия по ч 2 / 12 .h2/12 h −h/2 h/2 h2/12
Давайте сделаем расчеты. Я использую,
R
чтобы проиллюстрировать их, начиная с указания количества и корзин:Правильная формула для использования при подсчете исходит из репликации ширины бина на суммы, заданные подсчетами; то есть, данные в двоичном виде эквивалентны
mu
sigma2
Оценки максимального правдоподобия
(см. MLE / Вероятность логнормально распределенного интервала ).
R
Проверка предположений
Чтобы визуализировать эти результаты, мы можем построить подгоночную нормальную плотность по гистограмме:
R
Выход
источник