Я учу себя статистике для удовольствия, и у меня есть путаница относительно достаточной статистики . Я напишу мои путаницы в виде списка:
Если у распределения есть параметров, то оно будет иметь достаточной статистики?
Есть ли какое-то прямое соответствие между достаточной статистикой и параметрами? Или же достаточная статистика просто служит пулом «информации», чтобы мы могли воссоздать настройку, чтобы мы могли рассчитать те же оценки для параметров базового распределения.
Все ли дистрибутивы имеют достаточную статистику? то есть. может ли теорема факторизации когда-либо потерпеть неудачу?
Используя нашу выборку данных, мы предполагаем распределение, из которого вероятнее всего получаются данные, и затем можем рассчитать оценки (например, MLE) для параметров для распределения. Достаточная статистика - это способ, позволяющий рассчитывать одни и те же оценки для параметров без необходимости полагаться на сами данные, верно?
Все ли наборы достаточной статистики будут иметь минимальную достаточную статистику?
Это материал, который я использую, чтобы понять тему: https://onlinecourses.science.psu.edu/stat414/node/283
Из того, что я понимаю, у нас есть теорема факторизации, которая разделяет совместное распределение на две функции, но я не понимаю, как мы можем извлечь достаточную статистику после разложения распределения на наши функции.
Вопрос Пуассона, приведенный в этом примере, имел четкую факторизацию, но затем было указано, что достаточной статистикой являются среднее значение выборки и сумма выборки. Откуда мы узнали, что это достаточные статистические данные, просто взглянув на форму первого уравнения?
Как можно провести те же оценки MLE, используя достаточную статистику, если второе уравнение результата факторизации будет иногда зависеть от значений данных ? Например, в случае Пуассона вторая функция зависит от обратного произведения факториалов данных, и у нас больше не будет данных!
Почему размер выборки не является достаточной статистикой по сравнению с примером Пуассона на веб-странице ? Мы бы потребовать п реконструировать некоторые части первой функции , так почему это не является достаточной статистикой, а?
Ответы:
Возможно, вам было бы полезно прочитать о достаточности в любом учебнике по теоретической статистике, где большинство этих вопросов будут подробно освещены. Вкратце ...
Не обязательно. Это особые случаи: для распределений, где поддержка (диапазон значений, которые могут принимать данные) не зависит от неизвестного параметра (-ов), только те из экспоненциального семейства имеют достаточную статистику той же размерности, что и число параметры. Таким образом, для оценки формы и масштаба распределения Вейбулла или местоположения и масштаба логистического распределения по независимым наблюдениям статистика порядка (весь набор наблюдений независимо от их последовательности) минимально достаточна - вы не сможете уменьшить ее дальше, не потеряв информация о параметрах. Если носитель зависит от неизвестного (ых) параметра (ов), он изменяется: для равномерного распределения по максимума выборки достаточно для θ(0,θ) θ ; для равномерного распределения по минимума выборки и максимума вместе достаточно.(θ−1,θ+1)
Я не знаю, что вы подразумеваете под «прямой перепиской»; альтернатива, которую вы предоставляете, кажется, является хорошим способом описания достаточной статистики.
Да: достаточно данных в целом. (Если вы слышите, как кто-то говорит, что нет достаточной статистики, значит, нет низкоразмерной.)
Да, это идея. (То, что осталось - распределение данных, обусловленное достаточной статистикой, - можно использовать для проверки предположения о распределении независимо от неизвестных параметров.)
Очевидно нет, хотя я собираю контрпримеры не дистрибутивы, которые вы, вероятно, захотите использовать на практике. [Было бы хорошо, если бы кто-нибудь мог объяснить это, не слишком углубляясь в теорию меры.]
В ответ на дальнейшие вопросы ...
источник