Программа PlatProm может анализировать заданную последовательность как кольцевой геном и как линейный фрагмент генома, как одно- и двуцепочечную ДНК. Поиск стартовых точек транскрипции на любой цепи заключается в оценке значения весовой функции (score) для каждого основания последовательности ДНК. Более подробное описание алгоритма можно найти в работах [2, 6].
PlatProm предсказывает точки инициации транскрипции, используя 60 позиционных матриц трёх типов [1, 2]. Две весовые матрицы оценивают наличие консервативных гексануклеотидов (для TTGACA вблизи позиции -35 и TATAAT в окрестности -10), образующих специфические контакты с σ70-субъединицей РНК-полимеразы E. coli. Ещё две матрицы оценивают специфическое распределение динуклеотидов около стартовой точки транскрипции (позиции -1 и +1; для промоторов, узнаваемых σ70-субъединицей E. coli, предпочтительными являются CA и TA) и динуклеотидов в области, фланкирующей 5'-конец элемента -10 ("extended -10 element", доминирует TG). Весовые коэффициенты этих четырёх матриц отражают частоту встречаемости в каждой позиции консервативных элементов всех пар азотистых оснований и для каждого потенциального промотора учитывают как позитивный, так и негативный вклад имеющихся пар. Пятьдесят четыре "каскадные" весовые матрицы отражают присутствие в промоторах структурообразующих, термодинамически нестабильных и других неканонических мотивов нуклеотидной последовательности, частота присутствия которых превышает фоновое значение, по крайней мере, на 5 StD [3, 6]. Присутствие любого из этих элементов в заданном участке промотора учитывается каскадными матрицами по альтернативному принципу. При отсутствии всех мотивов, типичных для заданной области промотора, назначается негативный вклад, который оценивается по проценту таких промоторов в обучающей компиляции. Вклад каждой каскадной матрицы нормируется по относительному информационному содержанию соответствующей области промотора и наименее консервативной шестой пары в элементе -35. В результате вклад дополнительных элементов в общий показатель промотор-подобия PlatProm составляет около 50%.
Две матрицы учитывают длину спейсера между элементами -35 и -10 (14-21 н.п.; для промоторов, узнаваемых σ70-субъединицей E. coli, оптимальны 17 н.п.) и расстояния между элементом -10 и потенциальной точкой старта (2-11 н.п.; для промоторов, узнаваемых σ70-субъединицей E. coli, оптимальны 6 н.п.). При этом отклонение от оптимальных длин дают негативный вклад, в зависимости от доли соответствующих промоторов в обучающем наборе промоторов.
PlatProm рассматривает промоторную ДНК как единую платформу для взаимодействия и с РНК-полимеразой, и с регуляторными белками (размер учитываемой области -255/+155 от потенциальной точки старта). Поэтому в качестве независимого критерия используется наличие в промоторах прямых и инвертированных повторов длиной не менее 5 н.п., расположенных на расстоянии 5-6 н.п. Такие повторы могут быть мишенями для взаимодействия с димерами и тетрамерами белковых факторов транскрипции. Их вклад оценивается как логарифм длины повторяющегося мотива.
PlatProm не использует "внешние" факторы, т.е. информацию о расположении открытых рамок считывания или последовательности Шайна-Дальгарно, поэтому его можно применять для прямого сканирования генома и поиска в нём не только промоторов, контролирующих экспрессию генов, кодирующих белки, но и промоторов для синтеза нетранслируемых РНК.
В настоящее время PlatProm способен сканировать кольцевые (каждую из нитей последовательно) или линейные ДНК, содержащие только стандартные символы A, T, G и C. При наличии в последовательности вырожденных символов они заменяются на стандартные в соответствии с таблицей 1. В этом случае выводимые значения весов маркируются. Если ДНК кольцевая, то программа замыкает предложенную последовательность в кольцо и автоматически выдаёт значения рассчитанных весов по обеим нитям генома. В случае линейной ДНК кольцевание биологически не адекватно, поэтому сканирование фрагмента может начинаться с 256 позиции на 5'-конце и заканчиваться в 256 позиции от 3'-конца. Длина задаваемой последовательности должна выбираться с учётом этого обстоятельства. Возможно сквозное сканирование всей нуклеотидной последовательности или сканирование указанных областей.
Таблица 1. Замены для неопределенных символов
Symbol |
Description |
Bases represented |
Base used |
W |
Weak |
A |
|
|
T |
A |
S |
Strong |
|
C |
G |
|
G |
M |
aMino |
A |
C |
|
|
C |
K |
Keto |
|
|
G |
T |
G |
R |
puRine |
A |
|
G |
|
G |
Y |
pYrimidine |
|
C |
|
T |
C |
B |
not A (B comes after A) |
|
C |
G |
T |
G |
D |
not C (D comes after C) |
A |
|
G |
T |
G |
H |
not G (H comes after G) |
A |
C |
|
T |
C |
V |
not T (V comes after T and U) |
A |
C |
G |
|
G |
N or - |
any Nucleotide (not a gap) |
A |
C |
G |
T |
G |
Среднее значение весов для непромоторных фрагментов в геноме E. coli составляет -5.0±3.11 [2]. В геноме кишечной палочки сигналы, превышающие фон на 4 StD (значения выше 7.44) и располагающиеся в виде кластеров, обеспечивают около 99% истинно-положительных сигналов. Расчет фонового значения веса без использования специальных компиляций можно осуществить методом, предложенным в работе [6].
Консервативность бактериального аппарата транскрипции позволяет использовать PlatProm для поиска промоторов в геномах других бактерий, в том числе таких, которые существенно отличаются от E. coli по АТ/GC-составу. Для этого реализован режим обучения алгоритма, при котором по обучающему набору промоторных областей рассчитываются 4 весовые матрицы (для -35-элемента, -10-элемента, длины спейсера между -35- и -10-элементами, расстояния между -10-элементом и точкой старта транскрипции). Две матрицы, учитывающие частоты динуклеотидов перед -10-элементом и в районе стартовой точки, рассчитываются по тому же набору промоторных областей, при этом частоты динуклеотидов считаются с учетом встречаемости этих динуклеотидов в обучающем геноме. Поэтому для использования режима обучения обязательно нужно задать 2 дополнительных файла (с набором промоторов и обучающим геномом). Предсказание точек инициации транскрипции производится в анализируемом геноме с учетом расчитанных в ходе обучения 6 новых весовых матриц. Критическим при этом является адекватная оценка пороговых значений, обеспечивающих нужный уровень достоверности. Для этого может быть использованы автоматически рассчитанные статистические параметры (фоновый уровень и StD). Желаемый уровень значимости задаётся пользователем в единицах StD.