Разбор данных о структуре белка в С

17

Мой опыт в области геномики, но я недавно работал над проблемами, связанными со структурой белка. Я написал несколько соответствующих программ на C, создавая собственный анализатор PDB-файлов с самого начала. Я не беспокоился о создании действительно надежного синтаксического анализатора, я просто знал, что его создание будет лучшим способом заставить себя по-настоящему понять формат PDB.

Теперь, когда я прошел через этот процесс, я ищу что-то более надежное и зрелое. Существуют ли какие-либо библиотеки с открытым исходным кодом, реализованные в C? Мне удалось найти несколько в Google, но я никогда не слышал о них раньше, и они не кажутся достаточно зрелыми или стабильными. Немного связанный вопрос: все ли на самом деле делают все эти типы вычислений с использованием Python? или доморощенный код?

PS. По сути, я ищу библиотеку, которая включает в себя парсер файлов PDB, функции для вычисления углов склеивания, длин скручивания, углов кручения, площади поверхности, доступной поверхности, и т. Д.

Дэниэл Стендж
источник

Ответы:

8

Есть библиотека C ++, которая вполне зрелая. Это, вероятно, так близко, как вы доберетесь до C. Я сам еще не нашел пригодной для использования библиотеки C. Вы можете использовать библиотеку C ++ и по-прежнему писать большую часть своего кода на C, используя extern C { }в коде C ++.

Хафдан
источник
1
Ссылка устарела
xhg
Вот текущий дом библиотеки DSR PDB: graphics.stanford.edu/~drussel/pdb
Стивен Дарнелл
6

OpenBabel - это C ++, но он обычно используется для общих структурных вещей - его основной задачей является преобразование и возможность чтения широкого спектра форматов. Насколько я знаю, у него нет возможности рассчитывать SAS-области.

Aesin
источник
3
Просто записка. Позвольте мне сообщить, что OpenBabel отличный, но GPL, что может быть проблемой, если программное обеспечение, разработанное с его помощью, должно стать коммерческим.
Стефано Борини
Если вы рассматриваете коммерческую полезность, я бы порекомендовал взглянуть на OEChem ( eyesopen.com/oechem-tk ) из OpenEye и связанных с ним других библиотек (которые среди прочего включают в себя надежные инструменты для расчета поверхностей). Это не бесплатный или открытый исходный код, но он надежный и широко используется в отрасли.
Джо Коркери
4

Начнем с вашего «связанного вопроса»: я делаю парсинг PDB на Python, даже если для ускорения необходимо выполнить последующую обработку на некотором скомпилированном языке. C просто не подходит для синтаксического анализа, в частности, не для таких грязных форматов, как PDB. И, вероятно, поэтому в C. нет стабильных и зрелых парсеров PDB.

Еще кое-что, что вы можете рассмотреть, предполагая, что ваша цель - работать со структурами из PDB, - это использовать формат mmCIF, а не формат PDB. mmCIF гораздо более регулярный и, следовательно, легче разбирать. Вы также получаете больше разбираемой информации из версии mmCIF записей PDB, чем из версий PDB. Вы можете найти синтаксический анализатор C для mmCIF на веб-сайте PDB (он называется CIFPARSE), хотя вы заметите, что его разработка была прекращена в пользу переписывания C ++ под названием CIFPARSE-OBJ.

khinsen
источник
3

Я знаю, что речь идет о C, но есть отличный способ сделать это, используя библиотеку GLGRAPHICS, которая реализует OPENGL в обработке (основанная на Java инфраструктура с синтаксисом, подобным c ++). OpenGL в основном один и тот же независимо от того, какой язык вы используете, поэтому Java не должна сильно влиять на производительность. В любом случае, библиотека GLGRAPHICS поставляется с программой просмотра pdb, которая работает из коробки. Его очень легко настроить, и у форума Processing есть очень отзывчивые последователи. Это может быть хорошей отправной точкой.

Библиотека GLGRAPHICS http://sourceforge.net/projects/glgraphics/files/glgraphics/1.0/, см. GLGRAPHICS / examples / PDBview

Обработка http://processing.org/

Наконец, вы можете проверить это (не 3D, но все еще классный пример) http://www.mydisk.se/tgn380/webpage/RECEPTOR/

D.Deriso
источник
3

Если вы готовы использовать C ++, я бы порекомендовал ESBTL .

Вместо того, чтобы работать с файлами в формате PDB, вы можете загрузить их из Protein Data Bank в формате PDBML , который на самом деле является XML. Затем вы можете анализировать файлы PDBML, используя вашу любимую библиотеку XML для C (например, с Libxml2 ).

Хуан М. Белло-Ривас
источник
1

Хотя это, возможно, не предполагаемое использование программного обеспечения, я нашел парсеры и общие методы обработки структуры белка, найденные в исходном коде VMD, надежными и всеобъемлющими.

VMD - это инструмент молекулярной визуализации с открытым исходным кодом. Когда это уместно, расширять его относительно рано, в противном случае код может быть удален из него.

Стюарт
источник
VMD бесплатно, но не с открытым исходным кодом. Вы должны запросить доступ к исходному коду, и вы не можете распространять его.
Хинсен
@khinsen Лицензия на ks.uiuc.edu/Research/vmd/current/LICENSE.html и делает позволяют распространение производных работ. Насколько я знаю, вам нужно зарегистрироваться, чтобы получить исходный код, но это автоматизированный процесс, такой же, как получение исполняемого пакета.
Стюарт
Существуют серьезные ограничения для производной работы. Вы можете свободно распространять его, только если он содержит не более 10% кода VMD, что может составлять не более 50% производной работы. На практике вы не можете распространять несколько измененную версию VMD. Вы можете только распространить патч и попросить людей получить VMD с официального сервера. Это не Open Source по моим стандартам.
Хинсен
1

Файлы PDB легко читаются и обрабатываются в C ++ с использованием открытого исходного кода (BSD-лицензия) библиотеки chemkit .

В качестве примера приведем код, который будет считывать в файле PDB гемоглобин (ID PDB: 2DHB ) и распечатывать общее количество атомов, число цепей и площадь поверхности, доступную для растворителя:

#include <iostream>

#include <chemkit/polymer.h>
#include <chemkit/polymerfile.h>
#include <chemkit/molecularsurface.h>

using namespace chemkit;

int main()
{
    PolymerFile file("2DHB.pdb");
    bool ok = file.read();
    if(!ok){
        std::cerr << "Failed to read file: " << file.errorString() << std::endl;
        return -1;
    }

    Polymer *protein = file.polymer();
    if(!protein){
        std::cerr << "File is empty." << std::endl;
        return -1;
    }

    std::cout << "Number of Atoms: " << protein->atomCount() << std::endl;
    std::cout << "Number of Chains: " << protein->chainCount() << std::endl;

    MolecularSurface surface(protein);
    surface.setSurfaceType(MolecularSurface::SolventAccessible);

    std::cout << "Surface Area: " << surface.surfaceArea() << " A^2" << std::endl;

    return 0;
}

Выход:

Number of Atoms: 2201
Number of Chains: 2
Surface Area: 14791 A^2

Для получения дополнительной информации см. Документацию для классов, представленных выше:

Кайл Лутц
источник
0

Вы можете также рассмотреть другой «язык», такой как ЦНС , который специально разработан для работы с молекулярными структурами и имеет функции, которые вы упомянули.

Кристофер Боттомс
источник