У меня есть набор данных, который содержит ~ 7500 анализов крови от ~ 2500 человек. Я пытаюсь выяснить, увеличивается ли вариабельность анализов крови с течением времени между двумя тестами. Например - я беру вашу кровь для базового теста, а затем сразу же беру второй образец. Через полгода я нарисую еще один образец. Можно ожидать, что разница между базовым и немедленным повторным тестами будет меньше, чем разница между базовым и шестимесячным тестом.
Каждая точка на графике ниже отражает разницу между двумя тестами. Х - количество дней между двумя испытаниями; Y - размер разницы между двумя тестами. Как вы можете видеть, тесты не равномерно распределены по X - исследование, на самом деле, не предназначалось для решения этого вопроса. Поскольку точки очень сильно сложены в среднем, я включил 95% (синие) и 99% (красные) квантильные линии на основе 28-дневных окон. Они, очевидно, тянутся к более экстремальным точкам, но вы поняли идею.
альтернативный текст http://a.imageshack.us/img175/6595/diffsbydays.png
Мне кажется, что изменчивость довольно стабильна. Во всяком случае, это выше, когда тест повторяется в течение короткого периода времени - это ужасно нелогично. Как я могу решить эту проблему систематическим образом, учитывая различные n в каждый момент времени (и некоторые периоды без тестов вообще)? Ваши идеи очень ценятся.
Просто для справки, это распределение количества дней между тестом и повторным тестированием:
альтернативный текст http://a.imageshack.us/img697/6572/testsateachtimepoint.png
источник
Ответы:
Из вашего описания я не вижу причин отличать «базовый тест» от сразу же нарисованного «второго образца». Это просто 2 базовых измерения, и на этой основе можно рассчитать дисперсию (на базовом уровне). Было бы лучше построить среднее значение двух базовых измерений по сравнению с третьей «шестимесячной» выборкой.
Проблема с 6-месячным образцом. Поскольку в этот момент отбирается только одна проба, нет никакой возможности оценить «изменчивость» в этой точке или, скорее, отделить изменение выборки от продольного (реального) изменения в показаниях ТБ.
Если мы рассмотрим это как проблему продольного анализа данных, мы, вероятно, выберем случайный перехват (базовый ТБ) и случайный наклон (чтобы соответствовать 6-месячному ТБ). Изменчивость выборки будет оцениваться по двум базовым измерениям и наклону по третьему 6-месячному показателю. Мы не можем оценить изменчивость в 6 месяцев без сильных распределительных допущений в отношении изменения в течение этих шести месяцев, например, при условии отсутствия изменений.
источник