Начало работы с бикластером

9

Я проводил некоторые случайные интернет-исследования бикластеров. (Я читал статью в вики несколько раз.) Пока что кажется, что существует несколько определений или стандартной терминологии.

  1. Мне было интересно, есть ли какие-нибудь стандартные документы или книги, которые должен прочитать любой, кто интересуется алгоритмами поиска бикластеров.

  2. Можно ли сказать, каков уровень техники в этой области? Я был заинтригован идеей поиска бикластеров с использованием генетических алгоритмов, поэтому я был бы признателен за комментарии по этому подходу, в частности, в контексте других подходов.

  3. Обычно при кластеризации цель состоит в том, чтобы разбить набор данных на группы, где каждый элемент находится в некоторой группе. Бикластерные алгоритмы также стремятся поместить все элементы в определенную группу?

Генри Б.
источник

Ответы:

16

Я никогда не использовал его напрямую, поэтому могу поделиться только некоторыми своими работами и общими соображениями по поводу этой техники (которые в основном касаются ваших вопросов 1 и 3).

Мое общее понимание бикластеризации в основном исходит из генетических исследований (2-6), в которых мы стремимся учитывать кластеры генов и группы индивидуумов: короче говоря, мы ищем группы образцов, совместно использующих сходный профиль экспрессии генов (это может быть связано например, к заболеванию) и генам, которые способствуют этому профилю генного профилирования. Обзор современного уровня биологических "массивных" наборов данных доступен на слайдах Пардалоса , Biclustering . Обратите внимание, что существует пакет R, biclust , с приложениями для данных микрочипов.

Фактически, моя первоначальная идея состояла в том, чтобы применить эту методологию к клиническому диагнозу, потому что она позволяет поместить признаки или переменные в более чем один кластер, что интересно с семеологической точки зрения, потому что симптомы, которые объединяются вместе, позволяют определить синдром , но некоторые симптомы могут перекрываются при разных заболеваниях. Хорошее обсуждение может быть найдено в Cramer et al., Comorbidity: сетевая перспектива (Behavioral and Brain Sciences 2010, 33, 137-193).

Несколько связанная техника - совместная фильтрация . Хороший обзор был сделан Су и Хошгофтааром (« Достижения в области искусственного интеллекта» , 2009): обзор методов совместной фильтрации . Другие ссылки перечислены в конце. Может быть, анализ частых наборов товаров , как показано на примере проблемы с корзиной , также связан с этим, но я никогда не исследовал это. Другим примером совместной кластеризации является случай, когда мы хотим одновременно кластеризовать слова и документы, как при анализе текста, например, Dhillon (2001). Совместная кластеризация документов и слов с использованием двудольного разделения спектральных графов . Proc. КДД , с. 269–274.

Что касается некоторых общих ссылок, вот не очень полный список, который, я надеюсь, вы найдете полезным:

  1. Jain, AK (2010). Кластеризация данных: 50 лет после K-средних . Письма о распознавании образов , 31 , 651–666
  2. Кармона-Саез и соавт. (2006). Бикластеризация данных экспрессии генов с помощью негладкой неотрицательной матричной факторизации . БМК Биоинформатика , 7 , 78.
  3. Prelic et al. (2006). Систематическое сравнение и оценка бикластерных методов для данных по экспрессии генов . Биоинформатика , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
  4. DiMaggio et al. (2008). Бикластеризация через оптимальное переупорядочение матриц данных в системной биологии: строгие методы и сравнительные исследования . БМК Биоинформатика , 9 , 458.
  5. Сантамария и др. (2008). BicOverlapper: инструмент для визуализации двух кластеров . Биоинформатика , 24 (9) , 1212-1213.
  6. Мадейра С.К. и Оливейра А.Л. (2004) Бикластерные алгоритмы для анализа биологических данных: обзор . IEEE Trans. Вычи. Biol. Bioinform. , 1 , 24–45.
  7. Бадя Л. (2009). Обобщенные кластерограммы для перекрывающихся бикластеров . IJCAI
  8. Symeonidis, P. (2006). Коллаборативная фильтрация ближайших кластеров . WEBKDD
хл
источник
1
Отличный ответ. Если бы у меня был еще один голос, я бы снова проголосовал за этот ответ.
Генри Б.
@chl Первая ссылка на слайды Пардалос, кажется, мертва. Кто-нибудь знает об альтернативном месте?
Эрик
@Erik Большую часть материалов из слайдов можно найти в « Последовательном бикластеринге с помощью дробного программирования 0–1 » того же автора. (Я проверил содержание слайдов с моей копией неработающей ссылки.)
chl