«Все эти точки данных поступают из одного и того же распределения». Как проверить?

16

Я чувствую, что видел эту тему, обсуждаемую здесь ранее, но не смог найти ничего конкретного. Опять же, я тоже не совсем уверен, что искать.

У меня есть одномерный набор упорядоченных данных. Я предполагаю, что все точки в наборе взяты из того же распределения.

Как я могу проверить эту гипотезу? Разумно ли проверять общую альтернативу «наблюдения в этом наборе данных взяты из двух разных распределений»?

В идеале, я хотел бы определить, какие точки приходят из «другого» распределения. Так как мои данные упорядочены, могу ли я уйти с определением точки обрезки после некоторой проверки, является ли "допустимым" обрезание данных?

Отредактируйте: согласно ответу Glen_b, я был бы заинтересован в строго положительных, унимодальных распределениях. Я также был бы заинтересован в особом случае предположения о распределении и последующем тестировании на различные параметры .

shadowtalker
источник
Что вы подразумеваете под "одинаковым распределением"? Рассматриваются ли наблюдения Гаммы как исходящие из одного и того же распределения или как сумма экспоненциальных распределений?
Метариат
+1 это действительно хороший вопрос для вас.
user541686
@Metallica, если каждое наблюдение является экспоненциальной суммой, я бы сказал, что они из одного распределения
shadowtalker
@ Mehrdad У меня нет формального обучения статистике, кроме моей степени старшекурсника, и несколько разных занятий для моих магистров. Если вы посмотрите на мою историю ответов, станет ясно, что я знаю много о линейной регрессии, а не о чем-либо еще 🤐
shadowtalker
2
Один из возможных способов решения этого вопроса - рассмотреть конечную смесь, например, некоторый класс распределений, и посмотреть, нужно ли вам более 1 компонента смеси, чтобы хорошо описать ваши данные. Однако вопрос заключается в том, существует ли класс распределений, который достаточно гибок, чтобы описать вашу «нулевую гипотезу» одним компонентом смеси (например, если вы используете конечную смесь гамма-распределений, они могут быть не гибкими с точки зрения асимметрии или хвоста). поведение в зависимости от того, что вы пытаетесь сделать), в то же время содержит потенциальную альтернативу в виде многокомпонентной смеси.
Бьёрн

Ответы:

29

Представьте себе два сценария:

  1. все точки данных были взяты из одного и того же распределения - того, которое было равномерным (16,36)

  2. Точки данных были взяты из 50-50 двух групп населения:

    а. население А, которое имеет такую ​​форму:

введите описание изображения здесь

б. популяция Б, имеющая такую ​​форму:

введите описание изображения здесь

... так, что смесь двух выглядит точно так же, как в случае 1.

Как их можно отличить?

Какие бы формы вы ни выбрали для двух групп населения, всегда будет единое распределение, имеющее одинаковую форму. Этот аргумент ясно демонстрирует, что в общем случае вы просто не можете этого сделать. Там нет никакого возможного способа дифференцировать.

Если вы вводите информацию о населении (предположения, эффективно), то часто могут существовать способы для продолжения *, но общий случай мертв.

* Например, если вы предполагаете, что популяции унимодальны и имеют достаточно разные средства, вы можете добраться куда-нибудь

[Там ограничения, которые были добавлены к вопросу, недостаточны, чтобы избежать другой версии проблемы, которую я описал выше - мы все еще можем написать унимодальный нуль на положительной полуоси как смесь 50-50 из двух унимодальных распределений на положительной линии. Конечно, если у вас есть более конкретный ноль, это становится гораздо меньше проблем. Альтернативно, все еще должно быть возможно ограничить класс альтернатив далее, пока мы не были в состоянии проверить против некоторой альтернативы смеси. Или некоторые дополнительные ограничения могут быть применены как к нулевому, так и к альтернативному, что сделает их различимыми.]

Glen_b - Восстановить Монику
источник
1
Спасибо, отличный контрпример. Так что все сводится к соответствующему ограничению альтернативной гипотезы, верно?
Shadowtalker
@ssdecontrol Да, по сути; если (учитывая предположения) альтернатива отлична от нуля, у вас есть надежда на тест с мощностью, превышающей ваш уровень значимости.
Glen_b
0

Очевидно, вам нужно иметь некоторую теорию, чтобы говорить о распределении (ях) и гипотезах о состоянии для проверки. Что-то, что группирует предметы в одну или несколько групп, и что-то, что делает измерения раздельными.

Как вы можете туда добраться? Я вижу три варианта:

  • Если вы уже знаете, что из вашего предмета, то вам просто нужно перевести его на язык статистической гипотезы
  • Постройте диаграммы и узнайте закономерности, чтобы стать гипотезой для проверки.
  • Придумайте список подходящих вам дистрибутивов и проведите математический эксперимент. Вероятное программирование является ключевым словом здесь

Затем это упражнение позволит вам сделать вывод, что в вашей выборке представлена ​​одна или несколько групп или только одна. Или нет группы вообще.

Диего
источник