Химические анализы проб окружающей среды часто подвергаются цензуре ниже пределов отчетности или различных пределов обнаружения / количественного определения. Последние могут варьироваться, как правило, пропорционально значениям других переменных. Например, для анализа может потребоваться разведение образца с высокой концентрацией одного соединения, что приведет к пропорциональному раздуванию пределов цензуры для всех других соединений, анализируемых одновременно в этом образце. В качестве другого примера, иногда присутствие соединения может изменить реакцию теста на другие соединения («матричное вмешательство»); когда лаборатория обнаружит это, она соответственно увеличит свои пределы отчетности.
Я ищу практический способ оценки всей дисперсионно-ковариационной матрицы для таких наборов данных, особенно когда многие из соединений подвергаются цензуре более чем на 50%, что часто имеет место. Традиционная модель распределения состоит в том, что логарифмы (истинных) концентраций распределены по нескольким нормам, и это, по-видимому, хорошо подходит на практике, поэтому решение для этой ситуации было бы полезно.
(Под «практическим» я подразумеваю метод, который можно надежно кодировать, по крайней мере, в одной общедоступной программной среде, такой как R, Python, SAS и т. Д., Способом, который выполняется достаточно быстро для поддержки итеративных пересчетов, таких как многократное вменение, и который достаточно стабилен [именно поэтому я неохотно исследую реализацию BUGS, хотя байесовские решения в целом приветствуются].)
Заранее большое спасибо за ваши мысли по этому вопросу.
Ответы:
Я не полностью усвоил проблему матричных помех, но здесь есть один подход. Позволять:
будет вектором, который представляет концентрацию всех целевых соединений в неразбавленном образце.Y
Наша модель это:
Следовательно, следует, что:
где
Таким образом, оценка заключается в использовании либо максимальной вероятности, либо байесовских идей. Я не уверен, насколько податливы вышесказанное, но я надеюсь, что это даст вам некоторые идеи.
источник
Другой более эффективный с точки зрения вычислений вариант - подгонка ковариационной матрицы путем сопоставления моментов с использованием модели, которая называется «дихомизированный гауссовский», на самом деле просто модель гауссовой связки.
В недавней статье Macke et al 2010 описывается процедура закрытой формы для подгонки этой модели, которая включает только (цензурированную) эмпирическую ковариационную матрицу и вычисление некоторых двумерных нормальных вероятностей. Та же группа (лаборатория Бетге в MPI Tuebingen) также описала гибридные дискретные / непрерывные гауссовские модели, которые, вероятно, вам здесь нужны (т. Е. Поскольку гауссовые RV не полностью «дихотомизированы» - только те, которые ниже порогового значения).
Критически, это не оценка ML, и я боюсь, что я не знаю, каковы ее свойства смещения.
источник
Сколько соединений в вашем образце? (Или насколько велика рассматриваемая ковариационная матрица?).
У Alan Genz есть несколько очень хороших кодов на разных языках (R, Matlab, Fortran; см. Здесь ) для вычисления интегралов многомерных нормальных плотностей по гипер-прямоугольникам (т. Е. Видов интегралов, которые вам нужны для оценки вероятности, как отмечено user28).
Я использовал эти функции («ADAPT» и «QSIMVN») для интегралов примерно до 10–12 измерений, и несколько функций на этой странице объявляют интегралы (и связанные с ними производные, которые могут вам понадобиться) для задач до измерения 100. Я надеваю Не знаю, достаточно ли измерений для ваших целей, но если это так, то это, вероятно, позволит вам найти максимальные вероятностные оценки по градиентному всплытию.
источник