Какие методы я могу использовать, чтобы вывести распределение, если я знаю только три процентиля?
Например, я знаю, что в определенном наборе данных пятый процентиль равен 8 135, 50-й процентиль - 11 259, а 95-й процентиль - 23 611. Я хочу иметь возможность перейти от любого другого числа к его процентили.
Это не мои данные, и это все статистические данные, которые у меня есть. Понятно, что распределение не нормальное. Единственная другая информация, которую я имею, - то, что эти данные представляют государственное финансирование на душу населения для различных школьных округов.
Я знаю достаточно о статистике, чтобы понять, что у этой проблемы нет определенного решения, но недостаточно, чтобы знать, как найти хорошие догадки.
Будет ли логнормальное распределение подходящим? Какие инструменты я могу использовать для выполнения регрессии (или мне нужно сделать это самому)?
источник
Ответы:
Использование чисто статистического метода для этой работы не даст абсолютно никакой дополнительной информации о распределении школьных расходов: результат будет просто отражать произвольный выбор алгоритма.
Вам нужно больше данных .
Это легко получить: используйте данные за предыдущие годы, из сопоставимых районов, что угодно. Например, федеральные расходы на 14866 школьных округов в 2008 году можно найти на сайте переписи . Это показывает, что по всей стране, общие (зарегистрированные) федеральные доходы на душу населения были примерно логично распределены, но разбивка их по штатам показывает существенные различия ( например , расходы на бревна на Аляске имеют отрицательный сдвиг, в то время как расходы на бревно в Колорадо имеют сильный положительный сдвиг) , Используйте эти данные, чтобы охарактеризовать вероятную форму распределения, а затем подгоните ваши квантили к этой форме.
Если вы даже близки к правильной форме распределения, тогда вы сможете точно воспроизвести квантили, подбирая один или не более двух параметров. Лучший метод поиска соответствия будет зависеть от того, какую дистрибутивную форму вы используете, но, что гораздо важнее, будет зависеть от того, для чего вы собираетесь использовать результаты., Вам нужно оценить среднюю сумму расходов? Верхний и нижний лимит расходов? Что бы это ни было, вы хотите принять некоторую меру совершенства, которая даст вам лучший шанс принять правильные решения с вашими результатами. Например, если ваш интерес сосредоточен в верхних 10% всех расходов, вы захотите точно соответствовать 95-му процентилю и вам может быть мало дела до подбора 5-го процентиля. Никакая сложная техника подгонки не сделает эти соображения для вас.
Конечно, никто не может законно гарантировать, что этот метод, основанный на данных, ориентированный на принятие решений, будет работать лучше (или хуже), чем какой-либо статистический рецепт, но - в отличие от чисто статистического подхода - этот метод основан на реальности, с акцентом на ваши потребности, придавая ему некоторое доверие и защиту от критики.
источник
Как отметил @whuber, статистические методы здесь не совсем работают. Вы должны сделать вывод о распределении из других источников. Когда вы знаете распределение, у вас есть упражнение по решению нелинейных уравнений. Обозначим через квантильную функцию выбранного вами распределения вероятностей с параметром-вектором θ . То, что у вас есть, это следующая нелинейная система уравнений:f θ
где ваши квантили. Вам нужно решить эту систему, чтобы найти θ . Теперь практически для любого трехпараметрического распределения вы найдете значения параметров, удовлетворяющих этому уравнению. Для 2-параметрических и 1-параметрических распределений эта система переопределена, поэтому точных решений нет. В этом случае вы можете искать набор параметров, который минимизирует расхождение:q θ
Здесь я выбрал квадратичную функцию, но вы можете выбрать все, что захотите. В соответствии с комментариями @whuber вы можете назначать веса, чтобы более важные квантили можно было подбирать более точно.
Для четырех и более параметров система недоопределена, поэтому существует бесконечное количество решений.
Вот пример кода R, иллюстрирующий этот подход. В целях демонстрации я генерирую квантили из дистрибутива Singh-Maddala из пакета VGAM . Это распределение имеет 3 параметра и используется в моделировании распределения доходов.
Теперь сформируем функцию, которая оценивает нелинейную систему уравнений:
Проверьте, удовлетворяют ли истинные значения уравнению:
Для решения системы нелинейных уравнений я использую функцию
nleqslv
из пакета nlqeslv .Как мы видим, мы получаем точное решение. Теперь давайте попробуем подогнать нормальное логарифмическое распределение к этим квантилям. Для этого мы будем использовать
optim
функцию.Теперь нарисуйте результат
Отсюда сразу видно, что квадратичная функция не так хороша.
Надеюсь это поможет.
источник
ofn <- function(x,q) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2]))^2)
. Я предлагаю,ofn <- function(x) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2],x[3]))^2)
потому чтоq
это не вход дляofn
, иX[3]
отсутствует. С уважениемПопробуйте пакет rriskDistributions и - если вы уверены в семействе логнормальных дистрибутивов - используйте команду
который должен решить вашу проблему. Используйте
fit.perc
вместо этого, если вы не хотите ограничиваться одним известным PDF.источник
Для логнормального отношения отношение 95-го процентиля к медиане такое же, как отношение медианы к 5-му процентилю. Это даже не совсем так, поэтому логнормальное не подойдет.
У вас достаточно информации, чтобы соответствовать дистрибутиву с тремя параметрами, и вам явно нужен асимметричный дистрибутив. Для аналитической простоты я бы предложил смещенное лог-логистическое распределение, поскольку его квантильная функция (т. Е. Обратная к его кумулятивной функции распределения) может быть записана в достаточно простой замкнутой форме, поэтому вы должны иметь возможность получать выражения в замкнутой форме для его три параметра в терминах ваших трех квантилей с небольшой долей алгебры (я оставлю это в качестве упражнения!). Это распределение используется при анализе частоты наводнений.
Это не даст вам никаких указаний на неопределенность в оценках других квантилей. Я не знаю, нужно ли вам это, но как статистик, я чувствую, что смогу это предоставить, поэтому я не очень доволен этим ответом. Я, конечно, не использовал бы этот метод, или, возможно, любой другой метод, чтобы экстраполировать (много) за пределы диапазона от 5 до 95 процентилей.
источник
Единственное, что вы можете сделать из данных, это то, что распределение несимметрично. Вы даже не можете сказать, пришли ли эти квантили из подходящего дистрибутива или просто из ecdf.
Если они пришли из подходящего дистрибутива, вы можете попробовать все дистрибутивы, о которых вы можете подумать, и посмотреть, совпадают ли они. Если нет, то информации недостаточно. Вы можете интерполировать полином 2-й степени или сплайн 3-й степени для функции квантиля и использовать ее, или придумать теорию относительно семейства распределения и соответствия квантилей, но любые выводы, которые вы сделаете с этими методами, будут глубоко подозрительными.
источник
Использование квантилей для оценки параметров априорных распределений обсуждается в литературе по измерению времени реакции человека как «квантильная оценка максимальной вероятности» (QMPE, хотя изначально ошибочно названная «квантильная оценка максимального правдоподобия», QMLE), подробно обсуждаемая Heathcote и коллеги . Вы можете подобрать несколько различных априорных распределений (экс-гауссовский, смещенный Логнормал, Вальд и Вейбулл), а затем сравнить вероятности суммирования в логах итогового наилучшего соответствия для каждого распределения, чтобы найти вариант распределения, который, по-видимому, дает наилучшее соответствие.
источник
Вы можете использовать свою процентильную информацию для имитации данных некоторым образом и использовать пакет R "logspline" для оценки распределения непараметрически. Ниже моя функция, которая использует такой метод.
источник