Скажем, у меня 50 миллионов уникальных вещей, и я беру 10 миллионов образцов (с заменой) ... Первый прикрепленный график показывает, сколько раз я выбираю одну и ту же "вещь", что относительно редко население больше, чем моя выборка.
Однако, если моя популяция составляет всего 10 миллионов штук, и я беру 10 миллионов выборок, как показывает второй график, я чаще буду повторять одну и ту же вещь несколько раз.
У меня вопрос - из моей таблицы частотных наблюдений (данные в гистограммах) можно ли получить оценку исходного размера популяции, когда она неизвестна? И было бы здорово, если бы вы могли предоставить указатель на то, как это сделать в R.
r
sampling
expectation-maximization
Аарон Стэтхэм
источник
источник
Ответы:
Как Гарван?
Проблема в том, что мы не знаем, сколько отсчетов наблюдается. Мы должны оценить это. Классической статистической процедурой для подобных ситуаций является алгоритм максимизации ожидания.
Простой пример:
Предположим, мы берем неизвестную популяцию (из 1000000) с постоянной Пуассона 0,2.
Но мы не наблюдаем нулевые счета. Вместо этого мы наблюдаем это:
Наблюдаются возможные частоты
Инициализируйте среднее значение распределения Пуассона - просто догадайтесь (мы знаем, что здесь 0,2).
Ожидание - распределение Пуассона
максимизация
Вторая итерация
Теперь итерации до сходимости:
Наша оценка численности населения составляет 1003774, а наш коэффициент пуассона оценивается в 0,1994473 - это приблизительная доля выборки населения. Основная проблема, с которой вы столкнетесь в типичных биологических проблемах, с которыми вы сталкиваетесь, заключается в предположении, что скорость Пуассона является постоянной
Извините за скучный пост - эта вики не очень подходит для кода R.
источник
Это звучит как форма «отлова и повторного захвата», известная как метод экологии (и некоторые другие области, такие как эпидемиология). Не моя сфера, а статья в Википедии о марке и возвращении выглядит разумной, хотя ваша ситуация не относится к той, к которой применяется метод Линкольна-Петерсена.
Я думаю, что shabbychef - это правильный путь для вашей ситуации, но использование распределения Пуассона для аппроксимации бинома, вероятно, сделает вещи немного проще и должно быть очень хорошим приближением, если численность населения очень велика, как в ваших примерах. Я думаю, что получение точного выражения для оценки максимального правдоподобия численности населения должно быть довольно простым (см., Например, снова Википедию ), хотя у меня нет времени, чтобы проработать детали прямо сейчас.
источник
источник