Примеры статистики, которая не зависит от распределения выборки?

14

Это определение для статистики в Википедии

Более формально, статистическая теория определяет статистику как функцию выборки, где сама функция не зависит от распределения выборки; то есть функция может быть задана до реализации данных. Термин статистика используется как для функции, так и для значения функции в данном образце.

Я думаю, что понимаю большую часть этого определения, однако ту часть - где функция не зависит от распределения выборки, я не смог разобраться.

Мое понимание статистики до сих пор

Образец представляет собой набор реализаций некоторого числа независимых одинаково распределенный (IID) , случайные величины с распределением F (10 реализаций рулона 20 односторонний справедливой кости, 100 реализаций 5 рулонов 6- ти односторонний справедливой кости, случайным образом собрать 100 человек из популяции).

Функция, чьей областью является этот набор, а диапазон которой является действительными числами (или, может быть, она может производить другие вещи, такие как вектор или другой математический объект ...), будет считаться статистикой .

Когда я думаю о примерах, значит, медиана, дисперсия имеют смысл в этом контексте. Они являются функцией множества реализаций (измерения артериального давления по случайной выборке). Я также вижу, как модель линейной регрессии можно считать статистикой - это не просто функция на множестве реализаций?yi=α+βxi

Где я запутался

Предполагая, что мое понимание сверху верное, я не смог понять, где функция не может быть независимой от распределения образца. Я пытался придумать пример, чтобы понять это, но не повезло. Любое понимание будет высоко ценится!

Джейк Кирш
источник

Ответы:

45

X1,X2,...,XnN(μ,1)T(X1,...,Xn)H(X1,....,Xn,μ)μ

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

Каждая статистика является функцией только наблюдаемых значений, а не их распределения или параметров. Таким образом, нет примеров статистики, которая является функцией распределения или ее параметров (любая такая функция не будет статистикой). Тем не менее, важно отметить, что распределение статистики (в отличие от самой статистики), как правило, будет зависеть от базового распределения значений. (Это верно для всей статистики, кроме вспомогательной статистики .)


n(x¯μ)μ=μ0μ0RH0:RnRH0(x1,...,xn)=n(x¯μ0)H:Rn+1RH(x1,...,xn,μ)=n(x¯μ)

Восстановить Монику
источник
1
Очень полезный ответ, учитывая, что основной статистический параметр как часть нестатистики был особенно полезен.
Джейк Кирш
4
1010(X1+X2++X1000)/1000(X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)
4
Эти примеры кажутся мне вполне обоснованными. Вы говорите, что идея разделения данных на обучающий набор и набор проверки недействительна?
Джеймс Мартин
2
Я тоже немного смущен этим. Позвольте мне попытаться описать точку @CarlWitthoft. Это все равно будет статистика с точки зрения математического определения, но я мог бы видеть случай, когда консультант берет «статистику» наблюдений, но произвольно решает удалить несколько результатов (консультанты делают это все время правильно?). Это было бы «допустимо» в том смысле, что оно все еще является функцией наблюдений, однако способ представления и интерпретации статистики, вероятно, не будет действительным.
Джейк Кирш
2
@Carl Withhoft: В отношении того, что вы делаете, важно различать статистику (которая не обязательно должна включать все данные и может не охватывать всю информацию в образце) и достаточную статистику (которая будет охватывать все информация относительно некоторого параметра). Статистическая теория уже имеет хорошо разработанные концепции, такие как достаточность, которые отражают идею, что статистика включает всю релевантную информацию в выборке. Нет необходимости или нежелательно пытаться встроить это требование в определение «статистики».
Восстановить Монику
4

Я интерпретирую это как высказывание о том, что вы должны решить, прежде чем увидеть данные, какую статистику вы собираетесь рассчитывать. Так, например, если вы собираетесь устранить выбросы, вы должны решить, прежде чем увидеть данные, которые представляют собой «выбросы». Если вы решите после просмотра данных, то ваша функция зависит от данных.

Acccumulation
источник
это тоже полезно! Таким образом, принимается решение о том, какие наблюдения включить в функцию, узнав, какие наблюдения доступны, что более или менее то, что я описывал в своем комментарии к предыдущему ответу.
Джейк Кирш
2
(+1) Возможно, стоит отметить, что это важно, потому что если вы заранее определите правило о том, что представляет собой точку данных, которая будет отброшена, то (относительно) легко получить распределение для статистики (то есть усеченного среднего и т. Д. .). Действительно трудно получить распределение для меры, которая включает отбрасывание точек данных по причинам, которые не были четко определены заранее.
Клифф AB