На базовых курсах по статистике для студентов (обычно?) Обучают проверке гипотез для среднего населения.
Почему основное внимание уделяется среднему значению, а не срединному значению? Я предполагаю, что из-за центральной предельной теоремы легче проверить среднее значение, но я бы хотел прочитать некоторые обоснованные объяснения.
hypothesis-testing
mean
inference
median
nafrtiti
источник
источник
Ответы:
Потому что Алан Тьюринг родился после Рональда Фишера.
В старые времена, до компьютеров, все это делалось вручную или, в лучшем случае, с помощью того, что мы сейчас называем калькуляторами. Тесты для сравнения средств могут быть выполнены таким способом - это трудоемко, но возможно. Тесты на квантили (такие как медиана) было бы практически невозможно сделать таким образом.
Например, квантильная регрессия основана на минимизации относительно сложной функции. Это было бы невозможно вручную. Это возможно с программированием. Смотрите, например, Koenker или Wikipedia .
Квантильная регрессия имеет меньше предположений, чем регрессия OLS, и предоставляет больше информации.
источник
Я хотел бы добавить третью причину к правильным причинам, приведенным Харреллом и Фломом. Причина в том, что мы используем евклидово расстояние (или L2), а не манхэттенское расстояние (или L1) в качестве нашей стандартной меры близости или ошибки. Если у кого-то есть количество точек данных и кто-то хочет, чтобы его оценило одно число θ , очевидным понятием будет найти число, которое минимизирует «ошибку», что число создает наименьшую разницу между выбранным числом и числа, которые составляют данные. В математической записи для данной функции ошибки E нужно найти m i n θ ∈ R ( E ( θ ,x1,…xn θ . Если взять за E (x, y) норму или расстояние L2, то есть E ( x , y ) = ( x - y ) 2, то минимизатор по всем θ ∈ R является средним. Если взять расстояние L1 или Манхэттен, минимизатор по всемminθ∈R(E(θ,x1,…xn)=minθ∈R(∑i=ni=1E(θ,xi)) E(x,y)=(x−y)2 θ∈R - медиана. Таким образом, среднее значение является естественным математическим выбором - если использовать расстояние L2!θ∈R
источник
Often the mean is chosen over the median not because it's more representative, robust, or meaningful but because people confuse estimator with estimand. Put another way, some choose the population mean as the quantity of interest because with a normal distribution the sample mean is more precise than the sample median. Instead they should think more, as you have done, about the true quantity of interest.
One sidebar: we have a nonparametric confidence interval for the population median but there is no nonparametric method (other than perhaps the numerically intensive empirical likelihood method) to get a confidence interval for the population mean. If you want to stay distribution-free you might concentrate on the median.
Note that the central limit theorem is far less useful than it seems, as been discussed elsewhere on this site. It effectively assumes that the variance is known or that the distribution is symmetric and has a shape such that the sample variance is a competitive estimator of dispersion.
источник