СВД коррелированной матрицы должен быть аддитивным, но не

29

Я просто пытаюсь воспроизвести утверждение, сделанное в следующей статье « Поиск коррелированных бикластеров по данным экспрессии генов» :

Предложение 4. Если . тогда мы имеем:XIJ=RICJT

я. Если - идеальный бикластер с аддитивной моделью, то - идеальный бикластер с корреляцией по столбцам; II. Если - идеальный бикластер с аддитивной моделью, то - идеальный бикластер с корреляцией по строкам; III. Если и и являются идеальными бикластерами с аддитивной моделью, то является идеальным коррелированным бикластером. X I J C J X I J R I C J X I JRIXIJ
CJXIJ
RICJXIJ

Эти предложения могут быть легко доказаны ...

... но, конечно, они не доказывают это.

Я использую несколько простых примеров в статье плюс базовый + пользовательский R-код, чтобы посмотреть, смогу ли я продемонстрировать это предложение.

corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4)

(из таблицы 1F)

некоторый пользовательский код для преобразования стандартной формы X = svd в X = R C T, как описано в статье:UdVTX=RCT

svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) {
#convert standard SVD decomposed matrices UEV' to RC' form
#x -> output of svd(M)
#r -> rank of matrix (defaults to length of singular values vector)
            # but really is the number of non-zero singular values
#ignoreRank -> return the full decomposition (ignore zero singular values)
#zerothresh -> how small is zero?

    R <- with(x, t(t(u) * sqrt(d)))
    C <- with(x, t(t(v) * sqrt(d)))

    if (!ignoreRank) {
        ind <- which(x$d >= zerothresh)
    } else {
        ind <- 1:r
    }

    return(list(R=as.matrix(R[,ind]), C=as.matrix(C[,ind])))
}

примените эту функцию к набору данных:

 > svdToRC(svd(corbic))
$R
           [,1]       [,2]
[1,]  0.8727254 -0.9497284
[2,] -2.5789775 -1.1784221
[3,]  4.3244283 -0.7210346
[4,] -0.8531261 -1.0640752

$C
          [,1]       [,2]
[1,] -1.092343 -1.0037767
[2,]  1.223860 -0.9812343
[3,]  3.540063 -0.9586919
[4,] -3.408546 -1.0263191

Если я не галлюцинирую, эти матрицы не являются аддитивными, хотя корбика демонстрирует идеальную корреляцию между строками и столбцами. Кажется странным, что пример, который они приводят, демонстрирует свойство, которое, как они сказали, должно быть ... разве я пропускаю какой-то шаг до или после преобразования?

zzk
источник
3
Привет, zzk: Это может помочь кратко дать определение идеального бикластера здесь, так как (а) не каждый может иметь доступ к документу и (б) это может означать несколько разных вещей в зависимости от общности, которую вы предполагаете.
кардинал
1
в основном, абсолютные значения оценок парной корреляции между всеми строками и строками и столбцами и столбцами матрицы равны 1.
zzk
3
Я запутался. Разве это не 4iiiговорит P(R), P(C), additivity => P(X)? (Я сокращенно " Yидеальный бикластер" P(Y)). Кажется, вы идете в другом направлении, ожидая этой аддитивности от других условий. Пожалуйста, объясните больше.
Stumpy Джо Пит
Stumpy - я ожидаю аддитивности в R & C, потому что я знаю, что матрица, которую я поставляю (corbic), демонстрирует идеальную корреляцию - это идеальный бикластер, как указано в самой статье.
zzk
6
Я все еще думаю, что вы идете в неправильном направлении. 4iii не говорит, что если Xэто идеально коррелированный бикластер, то Rи Cбудет аддитивным. Смысл идет в другом направлении. Теперь, я согласен, что странно, что приведенный ими пример, похоже, не совпадает с теоремами, с которыми он рядом. Возможно, есть какая-то другая информация, которую вы могли бы предоставить? Есть ли какая-то другая теорема, которая идет в другом направлении?
Stumpy Джо Пит

Ответы:

2

Обратите внимание, что термин «bicluster» в этой статье относится к подмножеству матрицы, «подмножеству строк, которые демонстрируют аналогичное поведение в подмножестве столбцов или наоборот». Идентификация бикластеров обычно выполняется в алгоритмах интеллектуального анализа данных. Авторы исследуют новую «коррелированную двухкластерную модель», которая отличается от предыдущих моделей, использованных для идентификации этих подмножеств. Я ничего не знаю о генетике, но путаница здесь кажется довольно ясной и приходит из двух источников:

1. Использование слова «добавка»

В этой статье нет ничего, что подразумевало бы, что две матрицы, приведенные в выходных данных функции, должны быть «аддитивными», если под «аддитивным» аддитивные инверсии - это то, что подразумевается под OP. Авторы не используют слово добавка в этом смысле. Они имеют в виду получение бикластера с аддитивной моделью, «где каждая строка или столбец может быть получена путем добавления константы в другую строку или столбец».

2. Неправильное прочтение предложения 4.3

ряСJИксяJИксяJряСJряСJ должно быть обратно аддитивным или чтобы они могли соответствовать аддитивной модели.

* Кроме того, данные примера взяты из совершенно другого раздела статьи, чем предложение, обсуждаемое в вопросе.

5ayat
источник
Приятно видеть, что на наш веб-сайт, который остался без ответа самый популярный вопрос, наконец-то, наконец-то ответили! +1, хотя я не читал газету и не могу подтвердить, что написанное вами правильно; но это кажется разумным.
говорит амеба: восстанови монику