Существует ли какая-либо ветвь статистики, имеющая дело с данными, для которых точные значения неизвестны , но для каждого человека мы знаем максимальную или минимальную привязку к значению ?
Я подозреваю, что моя проблема в основном связана с тем, что я изо всех сил пытаюсь сформулировать ее в статистических терминах, но, надеюсь, пример поможет прояснить:
Скажем, есть две взаимосвязанные популяции и , так что в некоторый момент члены могут «переходить» в , но обратное невозможно. Время перехода является переменным, но не случайным. Например, может быть «лицами без потомства» и «лицами с хотя бы одним потомством». Меня интересует возраст, в котором происходит это прогрессирование, но у меня есть только поперечные данные. Для любого данного человека, я могу узнать, если они принадлежат к или . Я также знаю возраст этих людей. Для каждого человека в популяцииB A B A B A B AЯ знаю, что возраст при переходе будет БОЛЬШЕ, чем их нынешний возраст. Аналогичным образом, для членов я знаю, что переходный возраст был МЕНЬШЕ, чем их нынешний возраст. Но я не знаю точных значений.
Скажем, у меня есть другой фактор, который я хочу сравнить с возрастом перехода. Например, я хочу знать, влияет ли подвид или размер тела человека на возраст первого потомства. У меня определенно есть некоторая полезная информация, которая должна ответить на эти вопросы: в среднем, у лиц в группе пожилые люди имеют более поздний переход. Но информация несовершенна , особенно для молодых людей. И наоборот , для населения .
Существуют ли установленные методы для работы с данными такого рода ? Мне не обязательно нужен полный метод проведения такого анализа, просто некоторые поисковые термины или полезные ресурсы, чтобы начать меня в нужном месте!
Предостережения: я делаю упрощающее предположение, что переход от к происходит мгновенно. Я также готов предположить, что большинство людей в какой-то момент перейдут к , предполагая, что они живут достаточно долго. И я понимаю, что данные лонгитютина были бы очень полезны, но предположим, что в этом случае они недоступны.B B
Извините, если это дубликат, как я уже сказал, часть моей проблемы в том, что я не знаю, что мне нужно искать. По той же причине, пожалуйста, добавьте другие теги, если это необходимо.
Пример набора данных: Ssp указывает один из двух подвидов, или . Потомство указывает на отсутствие потомства ( ) или хотя бы одного потомства ( )YB
age ssp offsp
21 Y A
20 Y B
26 X B
33 X B
33 X A
24 X B
34 Y B
22 Y B
10 Y B
20 Y A
44 X B
18 Y A
11 Y B
27 X A
31 X B
14 Y B
41 X B
15 Y A
33 X B
24 X B
11 Y A
28 X A
22 X B
16 Y A
16 Y B
24 Y B
20 Y B
18 X B
21 Y B
16 Y B
24 Y A
39 X B
13 Y A
10 Y B
18 Y A
16 Y A
21 X A
26 X B
11 Y A
40 X B
8 Y A
41 X B
29 X B
53 X B
34 X B
34 X B
15 Y A
40 X B
30 X A
40 X B
Изменить: пример набора данных изменен, так как он не очень представительный
источник
Ответы:
Это называется текущими данными о состоянии . Вы получаете одно поперечное сечение данных, и, что касается ответа, все, что вы знаете, это то, что в наблюдаемом возрасте каждого субъекта произошло событие (в вашем случае: переход от А к В) или нет. Это частный случай интервальной цензуры .
Чтобы формально определить его, пусть будет (ненаблюдаемым) истинным временем события для субъекта i . Пусть C i время осмотра для субъекта i (в вашем случае: возраст при осмотре). Если C i < T i , данные подвергаются правильной цензуре . В противном случае данные подвергаются цензуре . Мы интересны при моделировании распределения Т . Для моделей регрессии, мы заинтересованы в моделировании , как это распределение изменяется с набором ковариата X .Tя я Ся я Ся< Tя T Икс
Чтобы проанализировать это с помощью методов интервальной цензуры, вы хотите поместить свои данные в общий формат интервальной цензуры. То есть для каждого субъекта у нас есть интервал , который представляет интервал, в котором мы знаем, что T i должен содержаться. Поэтому, если субъект i подвергнут цензуре справа во время проверки c i , мы бы написали ( c i , ∞ ) . Если его оставить цензурированным в c i , мы бы представили его как ( 0 , c i ) .( ля, гя) Tя я ся ( ся, ∞ ) ся ( 0 , ся)
Бесстыдный плагин: если вы хотите использовать регрессионные модели для анализа ваших данных, это можно сделать с помощью R
icenReg
(я автор). На самом деле, в аналогичном вопросе о данных о текущем состоянии , ОП выложил хорошую демонстрацию использования icenReg . Он начинает с того, что показывает, что игнорирование части цензуры и использование логистической регрессии приводит к смещению (важное примечание: он имеет в виду использование логистической регрессии без учета возраста . Подробнее об этом позже.)Еще один замечательный пакет
interval
, который содержит статистические тесты лог-ранга, среди других инструментов.РЕДАКТИРОВАТЬ:
@EdM предложил использовать логистическую регрессию для решения проблемы. Я несправедливо отмахнулся от этого, сказав, что вам придется беспокоиться о функциональной форме времени. Хотя я поддерживаю утверждение о том, что вам следует беспокоиться о функциональной форме времени, я понял, что произошло очень разумное преобразование, которое приводит к разумной параметрической оценке.
В частности, если мы используем log (время) как ковариату в нашей модели с логистической регрессией, мы в конечном итоге получим модель пропорциональных шансов с логистической базой.
Чтобы увидеть это, сначала рассмотрим, что модель регрессии пропорциональных шансов определяется как
Теперь рассмотрим логистическую регрессию с log (Time) как ковариату. Затем мы имеем
Проделав небольшую работу, вы можете увидеть это как CDF логистической модели (с нелинейным преобразованием параметров).
R демонстрация того, что подгонки эквивалентны:
Обратите внимание, что эффект
grp
одинаков в каждой модели, и окончательная логарифмическая вероятность отличается только числовой ошибкой. Базовые параметры (т. Е. Intercept и log_age для логистической регрессии, альфа и бета для модели с интервальной цензурой) являются разными параметризациями, поэтому они не равны.Вот и все: использование логистической регрессии эквивалентно подгонке пропорциональных коэффициентов к логистически-базовому распределению. Если вы согласны с подгонкой этой параметрической модели, логическая регрессия вполне разумна. Я действительно предупреждаю, что с данными с цензурой по интервалам полупараметрические модели обычно предпочтительнее из-за сложности оценки соответствия модели, но если бы я действительно думал, что нет места для полностью параметрических моделей, я бы их не включил
icenReg
.источник
ic_sp
inicenReg
) и вообще не беспокоиться об этом. Кроме того, если посмотреть на кривые выживаемости для двух групп, вы ответите правильно на ваш вопрос. Попытка воссоздать это из логистической подгонки могла бы быть сделана, но опять же, гораздо больше работы, чем использование моделей выживания.источник
Похоже, что эта проблема хорошо решается с помощью логистической регрессии.
У вас есть два состояния, A и B, и вы хотите изучить вероятность того, что конкретное лицо необратимо перешло из состояния A в состояние B. Одной из фундаментальных переменных-предикторов будет возраст во время наблюдения. Другим фактором или факторами, представляющими интерес, могут быть дополнительные предикторы.
Тогда ваша логистическая модель будет использовать фактические наблюдения состояния A / B, возраста и других факторов для оценки вероятности нахождения в состоянии B как функции этих предикторов. Возраст, в котором эта вероятность превышает 0,5, можно использовать в качестве оценки времени перехода, и затем вы изучите влияние других факторов на это прогнозируемое время перехода.
Добавлено в ответ на обсуждение:
Как и в случае любой линейной модели, вам необходимо убедиться, что ваши предикторы преобразованы таким образом, что они имеют линейное отношение к выходной переменной, в этом случае лог-шансы вероятности перехода в состояние B. Это не обязательно тривиальная проблема. Ответ @CliffAB показывает, как можно использовать лог-преобразование переменной age.
источник