Я чувствую, что видел эту тему, обсуждаемую здесь ранее, но не смог найти ничего конкретного. Опять же, я тоже не совсем уверен, что искать.
У меня есть одномерный набор упорядоченных данных. Я предполагаю, что все точки в наборе взяты из того же распределения.
Как я могу проверить эту гипотезу? Разумно ли проверять общую альтернативу «наблюдения в этом наборе данных взяты из двух разных распределений»?
В идеале, я хотел бы определить, какие точки приходят из «другого» распределения. Так как мои данные упорядочены, могу ли я уйти с определением точки обрезки после некоторой проверки, является ли "допустимым" обрезание данных?
Отредактируйте: согласно ответу Glen_b, я был бы заинтересован в строго положительных, унимодальных распределениях. Я также был бы заинтересован в особом случае предположения о распределении и последующем тестировании на различные параметры .
источник
Ответы:
Представьте себе два сценария:
все точки данных были взяты из одного и того же распределения - того, которое было равномерным (16,36)
Точки данных были взяты из 50-50 двух групп населения:
а. население А, которое имеет такую форму:
б. популяция Б, имеющая такую форму:
... так, что смесь двух выглядит точно так же, как в случае 1.
Как их можно отличить?
Какие бы формы вы ни выбрали для двух групп населения, всегда будет единое распределение, имеющее одинаковую форму. Этот аргумент ясно демонстрирует, что в общем случае вы просто не можете этого сделать. Там нет никакого возможного способа дифференцировать.
Если вы вводите информацию о населении (предположения, эффективно), то часто могут существовать способы для продолжения *, но общий случай мертв.
* Например, если вы предполагаете, что популяции унимодальны и имеют достаточно разные средства, вы можете добраться куда-нибудь
[Там ограничения, которые были добавлены к вопросу, недостаточны, чтобы избежать другой версии проблемы, которую я описал выше - мы все еще можем написать унимодальный нуль на положительной полуоси как смесь 50-50 из двух унимодальных распределений на положительной линии. Конечно, если у вас есть более конкретный ноль, это становится гораздо меньше проблем. Альтернативно, все еще должно быть возможно ограничить класс альтернатив далее, пока мы не были в состоянии проверить против некоторой альтернативы смеси. Или некоторые дополнительные ограничения могут быть применены как к нулевому, так и к альтернативному, что сделает их различимыми.]
источник
Очевидно, вам нужно иметь некоторую теорию, чтобы говорить о распределении (ях) и гипотезах о состоянии для проверки. Что-то, что группирует предметы в одну или несколько групп, и что-то, что делает измерения раздельными.
Как вы можете туда добраться? Я вижу три варианта:
Затем это упражнение позволит вам сделать вывод, что в вашей выборке представлена одна или несколько групп или только одна. Или нет группы вообще.
источник