Из этого поста я изучаю анализ выживания в UCLA IDRE, и меня обвинили в разделе 1.2.1. Учебник говорит:
... если было известно, что времена выживания экспоненциально распределены , то вероятность наблюдения времени выживания ...
Почему время выживания считается экспоненциально распределенным? Это кажется очень неестественным для меня.
Почему не распространяется нормально? Скажем, предположим, что мы исследуем продолжительность жизни какого-то существа при определенных условиях (скажем, число дней), должно ли оно быть больше вокруг некоторого числа с некоторой дисперсией (скажем, 100 дней с дисперсией 3 дня)?
Если мы хотим, чтобы время было строго положительным, почему бы не сделать нормальное распределение с более высоким средним и очень малой дисперсией (почти не будет шансов получить отрицательное число?)?
источник
Ответы:
Экспоненциальные распределения часто используются для моделирования времени выживания, поскольку они являются простейшими распределениями, которые можно использовать для характеристики данных о выживаемости / надежности. Это связано с тем, что они не имеют памяти, и, таким образом, функция опасности постоянна по времени, что делает анализ очень простым. Такое предположение может быть допустимо, например, для некоторых видов электронных компонентов, таких как высококачественные интегральные схемы. Я уверен, что вы можете придумать и другие примеры, когда можно предположить, что влияние времени на опасность незначительно.
Тем не менее, вы правильно заметили, что во многих случаях это неверное предположение. Нормальные распределения могут быть хорошими в некоторых ситуациях, хотя очевидно, что отрицательные времена выживания не имеют смысла. По этой причине часто рассматриваются логнормальные распределения. Другие распространенные варианты включают Вейбулла, Наименьшее экстремальное значение, Наибольшее экстремальное значение, Логистика и т. Д. Разумный выбор модели будет зависеть от опыта предметной области и построения вероятности . Вы также можете, конечно, рассмотреть непараметрическое моделирование.
Хорошая ссылка для классического параметрического моделирования в анализе выживаемости: Уильям К. Микер и Луис Эскобар (1998). Статистические методы для данных о надежности , Wiley
источник
Чтобы добавить немного математической интуиции о том, как показатели появляются в распределениях выживания:
Плотность вероятности переменной выживаемости равна , где h ( t ) - текущая опасность (риск для человека «умереть» в этот день), а S ( t ) - вероятность того, что человек дожил до т . S ( t ) можно расширить как вероятность того, что человек пережил день 1, а пережил день 2, ... до дня t . Тогда: P ( s u r v iе( t ) = h ( t ) S( т ) ч ( т ) S( т ) T S( т ) T Р ( ы у г v я v е д д у с 1 , 2 , . . . , т ) = ( 1 - ч ( т ) ) т
С Постоянная и малая опасность λ , мы можем использовать:
e - λ ≈ 1 -
Отказ от ответственности: это ни в коем случае не попытка правильного получения PDF - я просто решил, что это аккуратное совпадение, и приветствую любые комментарии о том, почему это правильно / неправильно.
РЕДАКТИРОВАТЬ: изменил аппроксимацию за совет @SamT, см. Комментарии для обсуждения.
источник
Вы почти наверняка захотите взглянуть на надежность и прогнозы для тщательного анализа времени выживания. В этом есть несколько дистрибутивов, которые часто используются:
Распределение Вейбулла (или «ванны») является наиболее сложным. Он учитывает три типа режимов отказов, которые преобладают в разных возрастах: младенческая смертность (где дефектные детали ломаются на ранних стадиях), индуцированные отказы (где детали ломаются случайным образом в течение всего срока службы системы) и износ (где детали ломаются от использование). При использовании он имеет PDF, который выглядит как "\ __ /". В частности, для некоторых электронных устройств вы можете услышать о временах «прожигания», что означает, что эти детали уже прошли через «\» часть кривой, и ранние отказы были отсеяны (в идеале). К сожалению, анализ Вейбулла быстро ломаетсяесли ваши детали не являются однородными (включая среду использования!) или если вы используете их в разных временных масштабах (например, если некоторые детали переходят в непосредственное использование, а другие отправляются в хранилище первыми, частота «случайных отказов» будет существенно отличаться из-за смешивания двух измерений времени (часы работы и часы использования).
Нормальные распределения почти всегда неверны. Каждое нормальное распределение имеет отрицательные значения, а распределение надежности - нет. Иногда они могут быть полезным приближением, но в тех случаях, когда это так, вы почти всегда смотрите на нормальное логарифм, так что вы можете просто использовать правильный дистрибутив. Логарифмически нормальные распределения правильно используются, когда у вас есть некоторый износ и незначительные случайные сбои, и ни при каких других обстоятельствах! Как и нормальное распределение, они достаточно гибки, чтобы вы могли заставить их соответствовать большинству данных; Вы должны сопротивляться этому побуждению и проверить, что обстоятельства имеют смысл.
Наконец, экспоненциальное распределение - настоящая рабочая лошадка. Вы часто не знаете, каковы старые детали (например, когда детали не сериализуются и имеют разное время, когда они вводятся в эксплуатацию), поэтому любое распределение на основе памяти отсутствует. Кроме того, у многих деталей время износа настолько произвольно, что оно либо полностью подчинено вызванным отказам, либо выходит за пределы полезных временных рамок анализа. Так что, хотя она может быть не такой совершенной моделью, как другие дистрибутивы, ей просто наплевать на вещи, которые их запутывают. Если у вас есть MTTF (количество времени / количества ошибок), у вас есть экспоненциальное распределение. Кроме того, вам не нужно никакого физического понимания вашей системы. Вы можете делать экспоненциальные оценки простооснованные на наблюдаемой части MTTFs (при условии достаточно большой выборки), и они получаются довольно чертовски близко. Это также устойчиво к причинам: если каждый второй месяц кому-то становится скучно и он играет в крокет с какой-то ролью до тех пор, пока она не сломается, экспоненциально это объясняется (она попадает в MTTF). Экспонента также достаточно проста, так что вы можете выполнять расчеты за пределами конверта для обеспечения доступности избыточных систем и т. Д., Что значительно повышает их полезность.
источник
Чтобы ответить на ваш явный вопрос, вы не можете использовать нормальное распределение для выживания, потому что нормальное распределение уходит в отрицательную бесконечность, а выживание строго неотрицательно. Более того, я не думаю, что это правда, что «время выживания предполагается экспоненциально распределенным» кем-либо в реальности.
Чаще всего распределения по выживанию являются сложными и не подходят ни для одного из названных распределений. Люди, как правило, даже не пытаются выяснить, какое это может быть распределение. Это то, что делает модель пропорциональных рисков Кокса настолько популярной: она полупараметрическая в том смысле, что базовый риск можно оставить совершенно неопределенным, а остальная часть модели может быть параметрической с точки зрения ее связи с неопределенным базовым уровнем.
источник
Некоторая экология может помочь ответить на вопрос «почему», стоящий за этим вопросом.
Причина, по которой экспоненциальное распределение используется для моделирования выживания, заключается в жизненных стратегиях, связанных с организмами, живущими в природе. Существуют две крайности в отношении стратегии выживания с некоторым пространством для середины.
Вот изображение, которое иллюстрирует, что я имею в виду (любезно предоставлено Khan Academy):
На этом графике показаны выжившие особи по оси Y и «процент от максимальной ожидаемой продолжительности жизни» (или аппроксимация возраста индивидуума) по оси X.
Тип I - это люди, которые моделируют организмы, которые чрезвычайно заботятся о своем потомстве, обеспечивая очень низкую младенческую смертность. Часто у этих видов очень мало потомства, потому что каждый из них отнимает у родителей много времени и сил. Большинство из того, что убивает организмы типа I, - это тип осложнений, возникающих в пожилом возрасте. Стратегия здесь заключается в высоких инвестициях для высокой отдачи в долгой и продуктивной жизни, хотя и за счет огромного количества.
И наоборот, тип III моделируется деревьями (но также могут быть планктон, кораллы, нерестовые рыбы, многие виды насекомых и т. Д.), Где родитель вкладывает относительно мало в каждого потомства, но производит тонну из них в надежде, что немногие выжить. Стратегия здесь заключается в том, чтобы «распылять и молиться», надеясь, что, хотя большинство потомков будут относительно быстро уничтожаться хищниками, пользующимися легкой добычей, тем немногим, кто выживает достаточно долго, чтобы расти, становится все труднее убивать, в конечном итоге становится (практически) невозможно съедено. Все время эти особи производят огромное количество потомков в надежде, что некоторые из них также доживут до своего возраста.
Тип II - это стратегия среднего уровня с умеренными родительскими инвестициями для умеренной выживаемости в любом возрасте.
У меня был профессор экологии, который выразил это так:
«Тип III (деревья) - это« Кривая надежды », потому что чем дольше человек выживает, тем больше вероятность того, что он будет продолжать существовать. Между тем Тип I (люди) является« Кривой отчаяния », потому что чем дольше ты живешь, тем более вероятно, что ты умрешь ".
источник
Это не дает прямого ответа на вопрос, но я думаю, что это очень важно отметить, и не вписывается в один комментарий.
Хотя экспоненциальное распределение имеет очень хороший теоретический вывод, и, таким образом, предполагается, что полученные данные следуют механизмам, предполагаемым в экспоненциальном распределении, теоретически оно должно давать оптимальные оценки, но на практике мне еще не приходилось сталкиваться с набором данных, в котором экспоненциальное распределение дает даже близки к приемлемым результатам (конечно, это зависит от типов данных, которые я проанализировал, почти от всех биологических данных). Например, я только что посмотрел на подбор модели с различными дистрибутивами, используя первый набор данных, который я смог найти в своем R-пакете. Для проверки модели распределения базовой линии мы обычно сравниваем с полупараметрической моделью. Посмотрите на результаты.
Что касается распределения Вейбулла, логистического и логарифмического распределения, то не существует абсолютно четкого победителя с точки зрения надлежащего соответствия. Но есть явный неудачник: экспоненциальное распределение! По моему опыту, эта величина несоответствия является не исключительной, а скорее нормой экспоненциального распределения.
Зачем? Потому что экспоненциальное распределение - это семейство с одним параметром. Таким образом, если я укажу среднее значение этого распределения, я укажу все остальные моменты распределения. Эти другие семейства являются двумя семействами параметров. Таким образом, в этих семьях гораздо больше гибкости для адаптации к самим данным.
Теперь имейте в виду, что распределение Вейбулла имеет экспоненциальное распределение в качестве особого случая (то есть, когда параметр формы = 1). Таким образом, даже если данные действительно экспоненциальные, мы добавляем немного больше шума к нашим оценкам, используя распределение Вейбулла по экспоненциальному распределению. Поэтому я бы никогда не рекомендовал использовать экспоненциальное распределение для моделирования реальных данных (и мне любопытно услышать, есть ли у читателей пример того, когда это действительно хорошая идея).
источник
Другая причина, по которой экспоненциальное распределение часто возникает до модельного интервала между событиями, заключается в следующем.
Хорошо известно, что при некоторых предположениях сумма большого числа независимых случайных величин будет близка к распределению Гаусса. Аналогичная теорема справедлива для процессов восстановления , то есть стохастических моделей для событий, которые происходят случайным образом во времени с интервалами между событиями IID. Фактически, теорема Пальма – Хинчина утверждает, что суперпозиция большого числа (не обязательно пуассоновских) процессов восстановления ведет себя асимптотически подобно пуассоновскому процессу . Интервалы между событиями пуассоновского процесса экспоненциально распределены.
источник
tl; dr - Экспоненциальное распределение эквивалентно предположению, что люди могут умереть в любой данный момент так же, как и любой другой.
отвлечение
Предположим, что живой человек может умереть в любой момент, как и в любой другой.
Таким образом, население следует экспоненциальному распределению.
Математическая записка
Проверка на практике
Экспоненциальное распределение предполагает, что люди в населении имеют тенденцию умирать с той же скоростью в течение долгого времени. В действительности, смертность будет иметь тенденцию изменяться для конечных групп населения.
Для получения лучшего распределения используются стохастические дифференциальные уравнения . Тогда мы не можем сказать, что существует постоянная вероятность смерти; скорее, мы должны придумать распределение вероятностей смерти каждого человека в любой момент, затем объединить эти различные деревья возможностей вместе для всего населения, а затем решить это дифференциальное уравнение во времени.
Я не могу вспомнить, чтобы когда-либо видел это в Интернете, поэтому вы, вероятно, не столкнетесь с этим; но это следующий шаг моделирования, если вы хотите улучшить экспоненциальное распределение.
источник
(Обратите внимание, что в той части, которую вы цитировали, это утверждение было условным; само предложение не предполагало экспоненциального выживания, оно объясняло последствия этого. Тем не менее, предположение об экспоненциальном выживании распространено, поэтому стоит рассмотреть вопрос «почему экспоненциальный "и" почему не нормально "- поскольку первое уже довольно хорошо освещено, я остановлюсь больше на втором)
Нормально распределенные времена выживания не имеют смысла, потому что они имеют ненулевую вероятность того, что время выживания будет отрицательным.
Если вы затем ограничите свое рассмотрение нормальными распределениями, которые практически не имеют шансов приблизиться к нулю, вы не сможете смоделировать данные о выживании, которые имеют разумную вероятность короткого времени выживания:
Может быть, время от времени выживание, у которого почти нет шансов на короткое время выживания, было бы разумным, но вам нужны распределения, которые имеют смысл на практике - обычно вы наблюдаете короткое и длинное время выживания (и все, что между ними), с обычно перекошенным распределение времени выживания). Немодифицированное нормальное распределение редко будет полезно на практике.
[ Усеченная норма может чаще быть разумным приблизительным приближением, чем нормаль, но другие распределения часто будут лучше.]
Постоянная опасность экспоненты иногда является разумным приближением для времени выживания. Например, если «случайные события», такие как несчастный случай, являются основным фактором, влияющим на уровень смертности, экспоненциальное выживание будет работать довольно хорошо. (Например, среди популяций животных иногда и хищничество, и болезнь могут действовать, по крайней мере, примерно как случайный процесс, оставляя нечто вроде экспоненты в качестве разумного первого приближения к времени выживания.)
В самом деле, это может быть немного лучше ... но обратите внимание, что это будет соответствовать бесконечной опасности в 0, так что это будет только иногда полезно. Несмотря на то, что он может моделировать случаи с очень высокой долей очень коротких периодов времени, у него есть обратная проблема, заключающаяся в том, что он способен только моделировать случаи с типично намного короче, чем средняя выживаемость (25% времени выживания ниже 10,15% среднего времени выживания половина времени выживания составляет менее 45,5% от среднего значения, то есть медиана выживаемости составляет менее половины среднего значения.)
источник
Потому что
у этого все еще есть ненулевая вероятность быть отрицательным, таким образом это не строго положительно;
среднее значение и дисперсия - это то, что вы можете измерить из популяции, которую вы пытаетесь смоделировать. Если у вашего населения среднее значение 2 и дисперсия 1, а вы моделируете его с нормальным распределением, то это нормальное распределение будет иметь значительную массу ниже нуля; если вы моделируете его с нормальным распределением со средним значением 5 и дисперсией 0,1, ваша модель, очевидно, обладает очень разными свойствами по сравнению с тем, что она должна моделировать.
Нормальное распределение имеет особую форму, и эта форма симметрична относительно среднего. Единственный способ изменить форму - это переместить ее вправо и влево (увеличить или уменьшить среднее значение) или сделать ее более или менее разбросанной (увеличить или уменьшить дисперсию). Это означает, что единственный способ получить нормальное распределение, в котором большая часть массы находится между двумя и десятью, и лишь незначительное количество массы находится ниже нуля, необходимо указать среднее значение, скажем, шесть (середина диапазона ) и установите дисперсию достаточно малой, чтобы только крошечная доля выборок была отрицательной. Но тогда вы, вероятно, обнаружите, что большинство ваших сэмплов составляют 5, 6 или 7, тогда как у вас должно было быть достаточно много 2, 3, 4, 8, 9 и 10.
источник