Как бы вы проверили или проверили, что выборка является IID (независимой и идентично распределенной)? Обратите внимание, что я не имею в виду гауссово и идентично распределенное, просто IID.
И идея, которая приходит мне в голову, состоит в том, чтобы многократно разделить выборку на две подвыборки одинакового размера, выполнить тест Колмогорова-Смирнова и проверить, чтобы распределение значений p было равномерным.
Любые комментарии по этому подходу и любые предложения приветствуются.
Разъяснение после запуска щедрости: я ищу общий тест, который можно применить к данным не временных рядов.
Ответы:
То, о чем вы заключаете, если данные являются IID, исходит из внешней информации, а не от самих данных. Вы, как ученый, должны определить, разумно ли принимать IID данных на основании того, как были собраны данные, и другой внешней информации.
Рассмотрим несколько примеров.
Сценарий 1: Мы генерируем набор данных независимо от одного распределения, которое оказывается смесью 2 нормалей.
Сценарий 2: Сначала мы генерируем гендерную переменную из биномиального распределения, затем внутри мужчин и женщин мы независимо генерируем данные из нормального распределения (но нормали отличаются для мужчин и женщин), затем мы удаляем или теряем гендерную информацию.
В сценарии 1 данные являются IID, а в сценарии 2 данные явно не идентично распределены (различные распределения для мужчин и женщин), но 2 распределения для 2 сценариев неотличимы от данных, вы должны знать, как данные был создан, чтобы определить разницу.
Сценарий 3: Я беру простую случайную выборку людей, живущих в моем городе, и провожу опрос и анализирую результаты, чтобы сделать выводы обо всех людях в городе.
Сценарий 4: Я беру простую случайную выборку людей, живущих в моем городе, и провожу опрос и анализирую результаты, чтобы сделать выводы обо всех людях в стране.
В сценарии 3 субъекты будут считаться независимыми (простая случайная выборка представляющей интерес совокупности), но в сценарии 4 они не будут считаться независимыми, поскольку они были выбраны из небольшого подмножества представляющей интерес совокупности, и географическая близость, вероятно, навязывает зависимость. Но 2 набора данных идентичны, и именно таким образом мы намереваемся использовать данные, чтобы определить, являются ли они независимыми или зависимыми в этом случае.
Таким образом, нет способа проверить, используя только данные, чтобы показать, что данные являются IID, графики и другие виды диагностики могут показывать некоторые типы не-IID, но их отсутствие не гарантирует, что данные являются IID. Вы также можете сравнить с конкретными предположениями (нормальный IID легче опровергнуть, чем просто IID). Любой тест по-прежнему является лишь правилом, но отказ от него не доказывает, что это IID.
Решения о том, готовы ли вы предположить, что условия IID выполняются, должны приниматься на основе научных данных о том, как были собраны данные, как они связаны с другой информацией и как она будет использоваться.
Редактирование:
Вот еще один набор примеров для неидентичных.
Сценарий 5: данные являются остатками от регрессии, где есть гетероскедастичность (различия не равны).
Сценарий 6: данные взяты из смеси нормалей со средним 0, но с разными отклонениями.
В сценарии 5 мы можем ясно видеть, что остатки не распределяются одинаково, если мы строим графики остатков по соответствующим значениям или другим переменным (предикторам или потенциальным предикторам), но сами остатки (без внешней информации) будут неотличимы от сценария 6.
источник
Если данные имеют порядок индексов, вы можете использовать тесты белого шума для временных рядов. По сути, это означает проверку того, что автокорреляции при всех ненулевых лагах равны 0. Это обрабатывает часть независимости. Я думаю, что ваш подход состоит в том, чтобы в основном учитывать идентично распределенную часть предположения. Я думаю, что есть некоторые проблемы с вашим подходом. Я думаю, что вам нужно много расщеплений, чтобы получить достаточно р-значений для проверки на однородность. Тогда каждый тест KS теряет мощность. Если вы используете расщепления, которые перекрывают части набора данных, тесты будут коррелированными. При небольшом количестве разбиений тесту на однородность не хватает мощности. Но при многих расколах тест на однородность может быть мощным, а тесты KS - нет. Также кажется, что этот подход не поможет обнаружить зависимость между переменными.
@ gu11aume Я не уверен, что вы просите с общим тестом для не временных рядов. Пространственные данные предоставляют одну форму данных не временных рядов. Там можно посмотреть функцию под названием вариограмма. Для одномерных последовательностей я не вижу большой разницы между последовательностями, упорядоченными по времени, и любым другим способом упорядочения данных. Автокорреляционная функция все еще может быть определена и протестирована. Когда вы говорите, что хотите проверить независимость выборки, я думаю, что у вас есть порядок, в котором собираются образцы. Поэтому я думаю, что все одномерные случаи работают одинаково.
источник