Предположим, у меня есть минимум, среднее значение и максимум некоторого набора данных, скажем, 10, 20 и 25. Есть ли способ:
создать распределение из этих данных, и
знать, какой процент населения, вероятно, лежит выше или ниже среднего
Редактировать:
Согласно предложению Глена, предположим, что у нас размер выборки 200.
distributions
standard-deviation
mean
maximum
minimum
user132053
источник
источник
Ответы:
Существует бесконечное количество возможных распределений, которые соответствовали бы этим количествам образцов.
При отсутствии каких-то вероятных необоснованных предположений, а не в целом - по крайней мере, не слишком понимая, что это будет иметь смысл. Результаты будут в значительной степени зависеть от ваших предположений (в самих значениях не так много информации, хотя некоторые конкретные меры действительно дают некоторую полезную информацию - см. Ниже).
Нетрудно придумать ситуации, когда ответы на вопрос о пропорции могут быть очень разными. Когда есть очень разные возможные ответы в соответствии с информацией, как бы вы узнали, в какой ситуации вы находитесь?
Более подробная информация может дать полезные подсказки, но в нынешнем виде (даже без размера выборки, хотя, по-видимому, он равен как минимум 2 или 3, если среднее значение не находится на полпути между конечными точками *), вы не обязательно получите много значения в этом вопросе. , Вы можете попытаться получить границы, но во многих случаях они не будут сильно сужать вещи.
* на самом деле, если среднее значение близко к одной конечной точке, вы можете получить некоторую нижнюю границу размера выборки. Например, если вместо 10,20,25 для вашего минимального / среднего / максимального значения у вас будет 10 24 25, тогда должно быть не менее 15, и это также предполагает, что большая часть населения была старше 24; это что-то. Но если бы, скажем, 10,18,25, было бы гораздо сложнее получить полезное представление о том, каким может быть размер выборки, не говоря уже о пропорции ниже среднего.N
источник
Как уже отмечал Glen_b , возможностей бесконечно много. Посмотрите на следующие графики, они показывают восемь различных распределений, которые имеют одинаковые минимальное, максимальное и среднее значение.
Обратите внимание, что они очень отличаются друг от друга. Первый - равномерный, четвертый - бимодальная смесь треугольных распределений, седьмой имеет массу вероятности, сосредоточенную вокруг центра, но все же min и max возможны с очень малой вероятностью, восемь дискретно и имеет только два значения в min и в max и т. Д. ,
Поскольку все они соответствуют вашим критериям, вы можете использовать любой из них для моделирования. Однако ваш субъективный выбор будет иметь очень глубокий результат в результате моделирования. Я хочу сказать, что если min, max и mean - это единственное , что вы знаете о распределении, то у вас недостаточно информации для проведения моделирования, если вы хотите, чтобы оно действительно имитировало реальное (неизвестное) распределение.
Таким образом , вы должны спросить себя , что же вы знаете о распределении? Это дискретно или непрерывно? Симметричный или перекос? Унимодальный или бимодальный? Есть много вещей, чтобы рассмотреть. Если он непрерывный, неоднородный и унимодальный, и вы знаете только минимальное, максимальное и среднее значение, то одним из возможных вариантов является треугольное распределение - очень маловероятно, что что-либо в реальной жизни имеет такое распределение, но по крайней мере вы используете что-то простое и не навязывать слишком много предположений о его форме.
источник
Основанное на диапазоне правило для расчета стандартного отклонения широко цитируется в статистической литературе (вот одна ссылка ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). В основном это (макс-мин) / 4. Известно, что это очень грубая оценка.
Учитывая эту информацию и готовность принимать нормально распределенные данные, нормальные отклонения могут быть сгенерированы из двух чисел: среднего значения и отклонения стандартного отклонения на основе диапазона. Тем не менее, любое одно- или двухпараметрическое распределение может быть сгенерировано из этих двух фрагментов информации, если это распределение было связано с первым или вторым моментом.
Грубый коэффициент вариации также можно получить, взяв отношение SD / Среднее. Это обеспечило бы прокси для безразличной изменчивости в данных.
Ошибка более правильно относится к распределению выборки населения и требует оценки размера выборки n для оценки. Ваше описание не предоставляет эту деталь.
источник