Что означает стандартная ошибка коэффициента в регрессии, когда все население включено?
Я был так озадачен этим вопросом. Потому что, как мне кажется, стандартные ошибки не имеют смысла, когда включается все население - нет необходимости делать статистические выводы, поскольку у вас уже есть все население.
Но он так широко используется даже многими статьями, опубликованными в ведущих журналах. Например, если я изучаю взаимосвязь между темпами роста ВВП страны и ее плотностью населения, я запустил регрессию:
со всеми 195 странами на земле. В случае, все страны (население) включены. Но вся литература до сих пор говорит о статистической значимости коэффициентов.
Может ли кто-нибудь объяснить, является ли это неправильным использованием статистического вывода при регрессии по всему населению?
источник
Ответы:
Первоначально я пометил этот вопрос для модераторов, чтобы проверить, будет ли лучше перейти на сайт статистики SE Cross Validated. Но так как ОП представил очень специфический пример эконометрики, я считаю, что (очень глубокая) концепция «популяция / выборка» может быть с пользой обсуждена для целей этого примера.
Первый вопрос , который обсуждается в ответе @AdamBailey: если рассматривать «все страны мира» для данного года или года и помечать данные как «население», то следующий год должен принадлежать другому населению. Если он принадлежит к другой популяции, то как мы можем использовать результаты одной популяции, чтобы сделать вывод для другой популяции? Так что, действительно, здесь наше «население» является двумерным , страной и периодом времени - и в этом смысле, когда горизонт времени не ограничен, у нас в руках только образец.
Таким образом, наши данные являются лишь одной из возможных комбинированных реализаций этих случайных величин. Эти реализации возникли не только в результате детерминистических / инженерных отношений / причинности (отраженных в коэффициентах), но и под влиянием случайных факторов. В этом смысле данные не являются «чистым / типичным» изображением «населения» - они содержат шум, неструктурные помехи, разовые шоки и т. Д.
Затем эта неопределенность будет перенесена на оценку коэффициентов, которые мы пытаемся оценить, поскольку мы предполагаем, что эти коэффициенты описывают причинность или совместное движение до того, как случайные элементы влияют на конечное значение зависимой переменной.
В связи с обоими вышеупомянутыми аспектами, говорить о «стандартной ошибке оценок» вполне допустимо и в этом случае, а затем применять статистические тесты, как обычно.
источник
Важно учитывать, что именно представляет население, для чего делается вывод. В этом контексте легко не заметить аспект времени.
Предположим, например, что цель состоит в прогнозировании ВВП на ближайшие два года для каждой страны в мире. Тогда совокупность интересов представляет собой набор пар вида «страна, год». Это не просто «все страны», и даже если прогнозная модель была оценена путем регрессии на данных текущего и прошлых лет для каждой страны, это не означает, что все население, представляющее интерес, было включено.
Если кто-то действительно начинает с полного набора данных для всей совокупности интересов, то все, что можно сделать, это вычислить итоговую статистику. Это может включать стандартные отклонения, но было бы неуместно называть эти стандартные ошибки, поскольку этот термин относится к распределению выборки, тогда как единственной «выборкой» в этом случае является целая совокупность.
источник