Я никогда не использовал его напрямую, поэтому могу поделиться только некоторыми своими работами и общими соображениями по поводу этой техники (которые в основном касаются ваших вопросов 1 и 3).
Мое общее понимание бикластеризации в основном исходит из генетических исследований (2-6), в которых мы стремимся учитывать кластеры генов и группы индивидуумов: короче говоря, мы ищем группы образцов, совместно использующих сходный профиль экспрессии генов (это может быть связано например, к заболеванию) и генам, которые способствуют этому профилю генного профилирования. Обзор современного уровня биологических "массивных" наборов данных доступен на слайдах Пардалоса , Biclustering . Обратите внимание, что существует пакет R, biclust , с приложениями для данных микрочипов.
Фактически, моя первоначальная идея состояла в том, чтобы применить эту методологию к клиническому диагнозу, потому что она позволяет поместить признаки или переменные в более чем один кластер, что интересно с семеологической точки зрения, потому что симптомы, которые объединяются вместе, позволяют определить синдром , но некоторые симптомы могут перекрываются при разных заболеваниях. Хорошее обсуждение может быть найдено в Cramer et al., Comorbidity: сетевая перспектива (Behavioral and Brain Sciences 2010, 33, 137-193).
Несколько связанная техника - совместная фильтрация . Хороший обзор был сделан Су и Хошгофтааром (« Достижения в области искусственного интеллекта» , 2009): обзор методов совместной фильтрации . Другие ссылки перечислены в конце. Может быть, анализ частых наборов товаров , как показано на примере проблемы с корзиной , также связан с этим, но я никогда не исследовал это. Другим примером совместной кластеризации является случай, когда мы хотим одновременно кластеризовать слова и документы, как при анализе текста, например, Dhillon (2001). Совместная кластеризация документов и слов с использованием двудольного разделения спектральных графов . Proc. КДД , с. 269–274.
Что касается некоторых общих ссылок, вот не очень полный список, который, я надеюсь, вы найдете полезным:
- Jain, AK (2010). Кластеризация данных: 50 лет после K-средних . Письма о распознавании образов , 31 , 651–666
- Кармона-Саез и соавт. (2006). Бикластеризация данных экспрессии генов с помощью негладкой неотрицательной матричной факторизации . БМК Биоинформатика , 7 , 78.
- Prelic et al. (2006). Систематическое сравнение и оценка бикластерных методов для данных по экспрессии генов . Биоинформатика , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
- DiMaggio et al. (2008). Бикластеризация через оптимальное переупорядочение матриц данных в системной биологии: строгие методы и сравнительные исследования . БМК Биоинформатика , 9 , 458.
- Сантамария и др. (2008). BicOverlapper: инструмент для визуализации двух кластеров . Биоинформатика , 24 (9) , 1212-1213.
- Мадейра С.К. и Оливейра А.Л. (2004) Бикластерные алгоритмы для анализа биологических данных: обзор . IEEE Trans. Вычи. Biol. Bioinform. , 1 , 24–45.
- Бадя Л. (2009). Обобщенные кластерограммы для перекрывающихся бикластеров . IJCAI
- Symeonidis, P. (2006). Коллаборативная фильтрация ближайших кластеров . WEBKDD
Вот хороший обзор / обзор:
Станислав Бусыгин, Олег Прокопьев и Панос М. Пардалос. Бикластеризация в интеллектуальном анализе данных . Computer & Operations Research, 35 (9): 2964–2987, сентябрь 2008 г.
источник