Достаточная статистика для дилетанта

23

Может ли кто-нибудь объяснить достаточно статистику в самых простых терминах? Я из инженерного образования, и я прошел через многое, но не смог найти интуитивного объяснения.

user1343318
источник

Ответы:

33

Достаточная статистика суммирует всю информацию, содержащуюся в образце, чтобы вы могли сделать одинаковую оценку параметров, независимо от того, дали ли мы образец или только статистику. Это сокращение данных без потери информации.

Вот один пример. Предположим, что имеет симметричное распределение около нуля. Вместо того, чтобы дать вам образец, я передам вам образец абсолютных значений (это статистика). Вы не можете увидеть знак. Но вы знаете, что распределение является симметричным, поэтому для данного значения x , - x и x одинаково вероятны (условная вероятность равна 0,5 ). Таким образом, вы можете бросить честную монету. Если дело доходит до головы, сделайте это х отрицательным. Если хвосты, сделайте это положительным. Это дает вам образец из X ' , который имеет такое же распределение, что и исходные данные XИксИкс-ИксИкс0,5ИксИкс'Икс, Вы в основном смогли восстановить данные из статистики. Вот что делает это достаточным.

Димитрий Васильевич Мастеров
источник
Чтобы уточнить / подтвердить: статистика достаточна для параметра. В этом примере не упоминается никаких параметров, но я полагаю, что статистика будет достаточной для любого параметра любого выбранного параметрического распределения X? Так что это необычный пример, но все же полезный для интуиции.
Дензилое
2
@Denziloe Достаточно для любого параметра этого распределения при строгих предположениях симметрии около 0. Это игрушечный пример, предназначенный для построения интуиции.
Дмитрий Владимирович Мастеров
13

В байесовских терминах у вас есть некоторое наблюдаемое свойство Икс и параметр Θ . Совместное распределение для Икс,Θ указано, но учитываться в качестве условного распределения Икс|Θ ; и априорного распределения & Θ . Статистика , Т достаточна для этой модели тогда и только тогда , когда задний распределение Θ|Икс такой же, что и & Θ|Т(Икс) , для каждого предварительного распределения & Θ . На словах, ваша обновленная неопределенность о Θ после знания значенияИкс такого жекак обновленная неопределенность относительноΘ ; после зная значениеТ(Икс) ,независимоаприорной информации вы имеете о Θ . Имейте в виду, что достаточность является модельно-зависимым понятием.

Zen
источник
1

Скажем, у вас есть монета, и вы не знаете, справедливо это или нет. Другими словами, у него есть вероятность p выпадающих голов ( H ) и 1p выпадающих хвостов ( Т ), и вы не знаете значение п .

Вы пытаетесь понять значение п , бросая монету несколько раз, скажем, N раз.

Допустим, Nзнак равно5 и в результате вы получите последовательность (ЧАС,ЧАС,Т,ЧАС,Т) .

Теперь вы хотите, чтобы ваш друг-статистик оценил для вас значение п и, возможно, сказал вам, будет ли монета справедливой или нет. Какую информацию вам нужно сообщить им, чтобы они могли делать свои расчеты и делать свои выводы?

Вы могли бы рассказать им все данные, т.е. (ЧАС,ЧАС,Т,ЧАС,Т) . Хотя это необходимо? Не могли бы вы обобщить эти данные без потери какой-либо соответствующей информации?

Понятно, что порядок подбрасывания монет не имеет значения, потому что вы делали одно и то же для каждого броска монеты, а броски монет не влияли друг на друга. Например, если бы результат был (ЧАС,ЧАС,Т,Т,ЧАС) , наши выводы не будут другими. Отсюда следует, что все, что вам действительно нужно сказать другу-статистику, - это подсчет количества голов.

Мы выражаем это, говоря, что количество голов является достаточной статистикой для p .

Этот пример дает представление о концепции. Читайте дальше, если вы хотите увидеть, как это связано с формальным определением.

Формально статистика является достаточной для параметра, если при заданном значении статистики распределение вероятностей результатов не включает параметр.

пколичество голов(1-п)n - количество головп

(ЧАС,ЧАС,Т,ЧАС,Т)(ЧАС,ЧАС,Т,Т,ЧАС),,,1/10ппп

пколичество головколичество головп

Denziloe
источник