В рамках этой стажировки вам предстоит работа над автоматизацией инструментов, рутинно использующихся вычислительными химиками. Основной язык разработки в группе – Python, поэтому в этом тестовом задании мы хотим узнать как вы умеете работать с документацией и пишете код. При выполнении задания не нужно писать промышленную программу с учетом всех граничных случаев, покрытием тестами и пр., достаточно рабочего примера и комментария о том, как его запустить. Из приведенных заданий достаточно выполнить только одно, на ваш выбор.
Не стесняйтесь задавать вопросы и уточнять требования:
- Telegram @diazepunk
- Почта [email protected]
Молекулярная динамика – один из основных методов исследования комплексов малой молекулы с белком. В наших исследованиях довольно часто нужно запускать МД-вычисления для серии малых молекул, при этом подготовка входных файлов для Gromacs в ручную – достато трудоемкий процесс. Поэтому имеет смысл автоматизировать конвертацию лигандов из структурных файлов в входной формат Gromacs, чтобы упростить процедуру спорки системы и последующего запуска.
Написать набор функций в виде Python-скрипта или Jupyter-ноутбука для параметризации большого количества малых молекул полем OpenFF для использования в Gromacs.
- SDF-файл с координатами лигандов. Координаты не должны измениться в процессе подготовки. Пример файла с малыми молекулами находится в папке openff_data
В отдельной папке для каждого лиганда из SDF (желательно, чтобы имя папки соответствовало имени молекулы, если оно есть в файле):
- Файл со структурой лиганда, в читаемом Gromacs формате (PDB или GRO)
- Файл с топологией Gromacs (topol.top)
Для чтения SDF-файлов можно использовать библиотеку RDKit, для параметризации и записи файлов для Gromacs – openff-toolkit (showcase, конвертация в Gromacs).
Молекулярный докинг – «рабочая лошадка» медхимика, эта процедура выполняется довольно часто на довольно большом объеме низкомолекулярных соединений. Одна из популярных программ для докинга – Autodock Vina, она умеет работать только с соединениями в формате PDBQT, с которым не удобно работать во всех остальных случаях. Поэтому для автоматизации докинга нужен инструмент для конвертации более распространенных структурных файлов (SMI и SDF) в формат PDBQT.
Написать набор функций в виде Python-скрипта или Jupyter-ноутбука для конвертации большого количества малых молекул в формат PDBQT из SDF и SMILES. SDF может содержать молекулы в 2D и без атомов водорода.
Примеры входных данных находятся в папке vina_data
- Набор PDBQT-файлов, по одному на каждый лиганд, имя файла берется из его названия в соответствующем исходном файле.
Для чтения SDF-файлов можно использовать библиотеку RDKit, для конвертации файлов лучше всего использовать библиотеку Meeko. Дополнительное задание – сделать алифатические циклы с числом атомов больше 5 «гибкими» (нужные параметры для подготовки лиганда можно подсмотреть здесь).