Есть ли какая-то техническая хитрость для определения третьего квартиля, если он принадлежит открытому интервалу, который содержит более четверти населения (поэтому я не могу закрыть интервал и использовать стандартную формулу)?
редактировать
В случае, если я что-то неправильно понял, я предоставлю более или менее полный контекст. У меня есть данные, расположенные в таблице с двумя столбцами и, скажем, 6 строк. Каждому столбцу соответствует интервал (в первом столбце) и количество населения, которое «принадлежит» этому интервалу. Последний интервал открыт и включает более 25% населения. Все интервалы (за исключением последнего) имеют одинаковый диапазон.
Пример данных (транспонирован для представления):
Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2: 51, 65, 68, 82, 78, 182
Первый столбец должен интерпретироваться как диапазон уровня дохода. Второе следует интерпретировать как количество работников, чей доход относится к интервалу.
Стандартная формула, о которой я думаю: .
источник
Ответы:
Вам необходимо согласовать эти объединенные данные с некоторой моделью распределения, поскольку это единственный способ экстраполировать в верхний квартиль.
Модель
По определению, такая модель задается функцией кадлага растущей с 0 до 1 . Вероятность, которую он назначает любому интервалу ( a , b ], равна F ( b ) - F ( a ) . Чтобы выполнить подбор, необходимо установить семейство возможных функций, индексированных (векторным) параметром θ , { F θ } Предполагая, что выборка суммирует совокупность людей, выбранных случайным образом и независимо от популяции, описанной некоторым конкретным (но неизвестным) F θF 0 1 ( а , б ) F( б ) - F( а ) θ { Fθ} Fθ , вероятность выборки (или вероятность , ) является произведением индивидуальных вероятностей. В примере это будет равноL
потому что из людей ассоциированные вероятности Р θ ( 8 ) - F θ ( 6 ) , 65 имеют вероятности Р θ ( 10 ) - F θ ( 8 ) , и так далее.51 Fθ( 8 ) - Fθ( 6 ) 65 Fθ( 10 ) - Fθ( 8 )
Подгонка модели к данным
Оценка максимального правдоподобия по & представляет собой значение , которое максимизирует L (или, что эквивалентно, логарифм L ).θ L L
Распределение доходов часто моделируется логнормальными распределениями (см., Например, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). Если записать , семейство логнормальных распределений имеет видθ = ( μ , σ)
R
fit$par
Проверка предположений модели
Применяется к данным для получения подогнанных или «предсказанных» популяций бинов:
Мы можем нарисовать гистограммы данных и прогнозы, чтобы сравнить их визуально, показанные в первом ряду этих графиков:
Чтобы сравнить их, мы можем вычислить статистику хи-квадрат. Обычно это относится к распределению хи-квадрат для оценки значимости :
Использование подгонки для оценки квантилей
Эти процедуры и этот код можно применять в целом. Теория максимального правдоподобия может быть дополнительно использована для вычисления доверительного интервала вокруг третьего квартиля, если это представляет интерес.
источник
Слишком долго для комментария:
Ответ Ууберса так же хорош, как и любой другой, но он допускает асимметрию в своей лог-нормальной модели. Это может быть реалистичным для доходов по всему населению, но не для доходов одного работодателя в определенном классе.
источник