Математическая клетка

Программа PlatProm может анализировать заданную последовательность как кольцевой геном и как линейный фрагмент генома, как одно- и двуцепочечную ДНК. Поиск стартовых точек транскрипции на любой цепи заключается в оценке значения весовой функции (score) для каждого основания последовательности ДНК. Более подробное описание алгоритма можно найти в работах [2, 6].

PlatProm предсказывает точки инициации транскрипции, используя 60 позиционных матриц трёх типов [1, 2]. Две весовые матрицы оценивают наличие консервативных гексануклеотидов (для TTGACA вблизи позиции -35 и TATAAT в окрестности -10), образующих специфические контакты с σ⁷⁰-субъединицей РНК-полимеразы E. coli. Ещё две матрицы оценивают специфическое распределение динуклеотидов около стартовой точки транскрипции (позиции -1 и +1; для промоторов, узнаваемых σ⁷⁰-субъединицей E. coli, предпочтительными являются CA и TA) и динуклеотидов в области, фланкирующей 5'-конец элемента -10 ("extended -10 element", доминирует TG). Весовые коэффициенты этих четырёх матриц отражают частоту встречаемости в каждой позиции консервативных элементов всех пар азотистых оснований и для каждого потенциального промотора учитывают как позитивный, так и негативный вклад имеющихся пар. Пятьдесят четыре "каскадные" весовые матрицы отражают присутствие в промоторах структурообразующих, термодинамически нестабильных и других неканонических мотивов нуклеотидной последовательности, частота присутствия которых превышает фоновое значение, по крайней мере, на 5 StD [3, 6]. Присутствие любого из этих элементов в заданном участке промотора учитывается каскадными матрицами по альтернативному принципу. При отсутствии всех мотивов, типичных для заданной области промотора, назначается негативный вклад, который оценивается по проценту таких промоторов в обучающей компиляции. Вклад каждой каскадной матрицы нормируется по относительному информационному содержанию соответствующей области промотора и наименее консервативной шестой пары в элементе -35. В результате вклад дополнительных элементов в общий показатель промотор-подобия PlatProm составляет около 50%.

Две матрицы учитывают длину спейсера между элементами -35 и -10 (14-21 н.п.; для промоторов, узнаваемых σ⁷⁰-субъединицей E. coli, оптимальны 17 н.п.) и расстояния между элементом -10 и потенциальной точкой старта (2-11 н.п.; для промоторов, узнаваемых σ⁷⁰-субъединицей E. coli, оптимальны 6 н.п.). При этом отклонение от оптимальных длин дают негативный вклад, в зависимости от доли соответствующих промоторов в обучающем наборе промоторов.

PlatProm рассматривает промоторную ДНК как единую платформу для взаимодействия и с РНК-полимеразой, и с регуляторными белками (размер учитываемой области -255/+155 от потенциальной точки старта). Поэтому в качестве независимого критерия используется наличие в промоторах прямых и инвертированных повторов длиной не менее 5 н.п., расположенных на расстоянии 5-6 н.п. Такие повторы могут быть мишенями для взаимодействия с димерами и тетрамерами белковых факторов транскрипции. Их вклад оценивается как логарифм длины повторяющегося мотива.

PlatProm не использует "внешние" факторы, т.е. информацию о расположении открытых рамок считывания или последовательности Шайна-Дальгарно, поэтому его можно применять для прямого сканирования генома и поиска в нём не только промоторов, контролирующих экспрессию генов, кодирующих белки, но и промоторов для синтеза нетранслируемых РНК.

В настоящее время PlatProm способен сканировать кольцевые (каждую из нитей последовательно) или линейные ДНК, содержащие только стандартные символы A, T, G и C. При наличии в последовательности вырожденных символов они заменяются на стандартные в соответствии с таблицей 1. В этом случае выводимые значения весов маркируются. Если ДНК кольцевая, то программа замыкает предложенную последовательность в кольцо и автоматически выдаёт значения рассчитанных весов по обеим нитям генома. В случае линейной ДНК кольцевание биологически не адекватно, поэтому сканирование фрагмента может начинаться с 256 позиции на 5'-конце и заканчиваться в 256 позиции от 3'-конца. Длина задаваемой последовательности должна выбираться с учётом этого обстоятельства. Возможно сквозное сканирование всей нуклеотидной последовательности или сканирование указанных областей.

Таблица 1. Замены для неопределенных символов

Symbol	Description	Bases represented				Base used
W	Weak	A			T	A
S	Strong		C	G		G
M	aMino	A	C			C
K	Keto			G	T	G
R	puRine	A		G		G
Y	pYrimidine		C		T	C
B	not A (B comes after A)		C	G	T	G
D	not C (D comes after C)	A		G	T	G
H	not G (H comes after G)	A	C		T	C
V	not T (V comes after T and U)	A	C	G		G
N or -	any Nucleotide (not a gap)	A	C	G	T	G

Среднее значение весов для непромоторных фрагментов в геноме E. coli составляет -5.0±3.11 [2]. В геноме кишечной палочки сигналы, превышающие фон на 4 StD (значения выше 7.44) и располагающиеся в виде кластеров, обеспечивают около 99% истинно-положительных сигналов. Расчет фонового значения веса без использования специальных компиляций можно осуществить методом, предложенным в работе [6].

Консервативность бактериального аппарата транскрипции позволяет использовать PlatProm для поиска промоторов в геномах других бактерий, в том числе таких, которые существенно отличаются от E. coli по АТ/GC-составу. Для этого реализован режим обучения алгоритма, при котором по обучающему набору промоторных областей рассчитываются 4 весовые матрицы (для -35-элемента, -10-элемента, длины спейсера между -35- и -10-элементами, расстояния между -10-элементом и точкой старта транскрипции). Две матрицы, учитывающие частоты динуклеотидов перед -10-элементом и в районе стартовой точки, рассчитываются по тому же набору промоторных областей, при этом частоты динуклеотидов считаются с учетом встречаемости этих динуклеотидов в обучающем геноме. Поэтому для использования режима обучения обязательно нужно задать 2 дополнительных файла (с набором промоторов и обучающим геномом). Предсказание точек инициации транскрипции производится в анализируемом геноме с учетом расчитанных в ходе обучения 6 новых весовых матриц. Критическим при этом является адекватная оценка пороговых значений, обеспечивающих нужный уровень достоверности. Для этого может быть использованы автоматически рассчитанные статистические параметры (фоновый уровень и StD). Желаемый уровень значимости задаётся пользователем в единицах StD.

Поиск промоторов в последовательностях бактериальных ДНК

ОПИСАНИЕ МОДЕЛИ

Таблица 1. Замены для неопределенных символов