Что именно означает «объединение данных»?

16

Я думал, что «объединение данных» просто означает объединение данных, которые ранее были разбиты на категории… по сути, игнорирование категорий и создание набора данных в один гигантский «пул» данных. Я думаю, что это вопрос больше о терминологии, чем о применении статистики.

Например: я хочу сравнить 2 сайта, и на каждом сайте у меня есть два типа года (хороший и плохой). Если я хочу сравнить 2 сайта в целом (то есть, игнорируя типы года), правильно ли говорить, что я объединяю данные на каждом сайте? В дополнение к этому, поскольку данные за несколько лет включают типы хороших и плохих годов, также правильно ли говорить, что я объединяю данные по годам для получения набора данных «хороший год» и «плохой год» на каждом сайте? Спасибо за вашу помощь! киска

киска
источник

Ответы:

13

Да, ваши примеры верны.

Оксфордский словарь английского языка определяет пул как:

бассейн, v.

(ПУЛ)

1.1 перевод Бросить в обыкновенные акции или фонд, который будет распределен в соответствии с соглашением; объединить (капитал или интересы) для общей выгоды; спекуляция конкурирующих железнодорожных компаний и т.д .: Делить или делить (движение или квитанции).

Другой пример будет:

Вы измеряете уровни вещества X в крови у мужчин и женщин. Вы не видите статистических различий между двумя группами, поэтому объединяете данные вместе , игнорируя пол испытуемого.

Является ли это статистически корректным, во многом зависит от конкретного случая.

Nico
источник
12

Пул может относиться к объединению данных, но также может относиться к объединению информации, а не к необработанным данным. Одним из наиболее распространенных способов использования пула является оценка дисперсии. Если мы считаем, что 2 популяции имеют одинаковую дисперсию, но не обязательно одно и то же среднее, то мы можем рассчитать 2 оценки дисперсии из выборок из 2 групп, а затем объединить их (взять средневзвешенное значение), чтобы получить единственную оценку общая разница. Мы не вычисляем единственную оценку отклонения на основе объединенных данных, потому что, если средние значения не равны, это приведет к увеличению оценки отклонения.

Грег Сноу
источник
Спасибо @ Грег. Чтобы уточнить (потому что я пытаюсь объединить отклонения также из литературы), что вы говорите, что для получения «средней» дисперсии для нескольких групп населения я могу взять средневзвешенное значение вычисленных отклонений? Как бы я взвесил эти отклонения? Разве не каждая популяция = 1?
Мог
Если размеры выборки равны, то простое среднее значение имеет тенденцию работать. Обычно мы присваиваем каждой точке данных равный вес, стандартная формула состоит в том, чтобы умножить каждую дисперсию на степени свободы (или число в знаменателе для группы, n-1), затем сложить все части, а затем разделить на сумму степени свободы (все n_i-1).
Грег Сноу,