Напомню, что кодом Грея называется любая циклическая последовательность всех наборов из нулей и единиц, в которой два соседних набора отличаются только по одной компоненте (дельта Хемминга). Другими словами, код Грея – это система замкнутой организации числового ряда, в которой два соседних значения различаются только в одном разряде. Вот как выглядит 3-битный двоичный код Грея (каждое трехзначное число представлено здесь вертикально; то есть чтение его сверху вниз соответствует обычному чтению слева направо) в линейном представлении:
Первое и последнее числа (000) совпадают, указывая на замкнутость ряда. Читателю предлагается обратить внимание на то, что числа кода Грея (двоичные в данном случае) расположены в последовательности, не совпадающей с натуральным рядом: преобразованные в десятичные, они дают здесь последовательность 0—1—3—2—6—7—5—4—0.
В представлениях Свансон и Босняцкого кодировка Грея образует последовательность наборов (3-компонентных наборов, то есть, триплетов из 4-х оснований), в которой два соседних набора отличаются только по одному основанию (в одной и той же позиции). В последовательности, организованной по этому правилу, различаются (хотя и не слишком строго) группы, соответствующие размерам аминокислот («большим» и «малым»), а также их позициям в составе белковых молекул («наружным» или «внутренним», то есть, гидрофильным или гидрофобным). Описанное свойство дает генетическому коду дополнительную защищенность. Стоит вспомнить, что – как об этом пишет Википедия – «коды Грея широко используются для упрощения выявления и исправления ошибок в системах связи, а также в формировании сигналов обратной связи в системах управления». Они применяются и в теории генетических алгоритмов для кодирования генетических признаков, представленных целыми числами, поскольку минимизируют эффект ошибок при преобразовании аналоговых сигналов в цифровые.
Часть аминокислот обладает выраженными гидрофильными или гидрофобными свойствами. Молекулы синтезируемого полипептида сворачиваются в фиксированную трехмерную структуру. Основной параметр, определяющий это сворачивание (фолдинг) – гидрофобность или гидрофильность аминокислоты. Код очевидно не мог эволюционировать по размеру кодона; он с самого начала был триплетным, что определялось физикой комплементарных соответствий. Что до функций каждой буквы триплета, то поскольку в современном коде за гидрофобность аминокислоты отвечает центральный нуклеотид, постольку на начальных этапах эволюции кодирования направление считывания кодона, по-видимому, не имело большого значения. А общий паттерн генетического кода потребовал симметрий как условия помехоустойчивости хранения, передачи и приема информации, и соответствующие функции были делегированы краевым основаниям триплета. После установления вектора считывания кодона эти функции были, по преимуществу, отданы первым буквам, в то время, как половина третьих стала просто межкодонными разделителями, а вторая половина – дискриминаторами для продуктов с общим кодирующим дублетом. И в этом случае (то есть в случае вторых кодонных оснований) порядок CTAG выявляет билатеральную симметрию:
То обстоятельство, что позиции гидрофильных и гидрофобных аминокислот выходят за пределы «своей» центральной буквы в обе стороны от оси симметрии (между Т и А в этой таблице, еще раз подчеркивает значение порядка CTAG в организации генетического кода. Так же симметрично в Таблице 4 размещаются и некоторые другие продукты кодирования – например, пунктуационные знаки.
Вернемся, однако, к молекулярной массе как таковой. Автор использовал этот параметр не только для характеристики кодируемых продуктов, но также для характеристики кодирующих оснований. Упорядочивание азотистых оснований по нарастанию массы приводит к ряду C <T <A <G (или C <U <A <G, что в данном случае дела не меняет). Основания ряда симметричны относительно середины, которая делит его на две пары зеркально расположенных оснований CG и ТА (о чем мы уже говорили). Этот ряд не совпадает с рядами Крика и Румера, положенными в основу соответствующих таблиц кода, но Автор находит его намного более интересным и рациональным. Он мгновенно преобразует хорошо известную стандартную таблицу универсального генетического кода (Глава [email protected]), кочующую из учебника в учебник, в симметричную по группам вырожденности относительно оси, разделяющей первые кодирующие пиримидины и пурины (см. следующую страницу).
В новой таблице хорошо разделяются кодоны октетов 1 и 2; последние образуют светлую фигуру «креста», в которой, в свою очередь, хорошо заметно симметричное – относительно центра фигуры – расположение нечетных групп вырожденности и триплетов, дополняющих в октете 2 кодирование аминокислот S, L и R, имеющих свои кодоны в октете 1.
Упорядочивание кодируемых аминокислот по массе неожиданно выявляет еще одну группу симметрий, которые связаны с классом аминоацил-тРНК-синтетаз (АРСаз), присоединяющих аминокислоту к тРНК. АРСазы делятся на два класса на основе структурного сходства и способу аминоацилирования тРНК. АРСазы 1-го класса (АРСазы-1) в большинстве случаев мономеры. 76-й аденозин тРНК они аминоацилируют по 2» -ОН группе. АРСазы-2 – это, как правило, димеры. За исключением фенилаланил-тРНК-синтетазы все они аминоацилируют 76-й аденозин тРНК по 3» -ОН группе. Оба класса АРСаз содержат равное число ферментов – по десять в каждом. Кроме того, АРСазы-1 узнают «свою» тРНК со стороны так называемого «малого желобка» акцепторной миниспирали, а АРСазы-2 – со стороны «большого».
Разделим по аналогии с АРСазами-1 и -2 – соответствующие им аминокислоты также на два класса арс-1 и арс-2. При этом возникает внятная билатеральная симметрия двадцатки аминокислот: ровно половина из них (мы здесь не вдаемся в детали), синтезируется с помощью аминоацил-тРНК-синтетаз (АРСаз) I класса:
Другая половина синтезируется с помощью АРСаз II класса (нижние строки – порядковые номера аминокислот при раздельной – по классам [1—10 и 1—10] и при сплошной [1—20] их нумерации):
В обоих представленных рядах аминокислоты упорядочены по нарастанию молекулярной массы. Любопытно, что в каждый арс-класс попадает по три неполярные алифатические аминокислоты (VLI и GAP), по три полярные незаряженные (CQM и STN), по одной негативно и позитивно заряженных (E-R+ и D-K+) и по две ароматические (YW и HF) аминокислоты. В каждой из строк первых букв кодирующих эти аминокислоты триплетов легко различаются две четверки GTCA и GATC, разделенные в одном случае пиримидинами С* и Т*, в другом – пуринами G*и А*. Поэтому арс-1 мы условно называем пиримидиновыми аминокислотами арс-Y, а арс-2 – пуриновыми, арс-R. Как это может соотноситься с молекулярной биологией процессов, связанных с трансляцией, мы увидим далее.
Описанные симметрии рядов арс-Y и арс-R сохраняются и в двумерном (2D) представлении. Это представление, образно (то есть, не математически) названное Автором базовой матрицей генетического кода, формируется абсциссой, вдоль которой размещаются аминокислоты, упорядоченные по нарастанию молекулярных масс, и ординатой, вдоль которой размещаются первые кодирующие основания, соответствующие этим аминокислотам.
Базовая (без нижней дополнительной строки) матрица является прямоугольником 4х5, содержащим двадцатку канонических аминокислот. В отличие от каллигаммы, матрица не требует специального допущения для кодирования цистеина и, таким образом, полностью соответствует универсальному генетическому коду. Центральные колонки матрицы отчетливо структурированы по гидрофильности аминокислот (в таблице ниже – светлые ячейки заняты гидрофобными аминокислотами, темные – гидрофильными):
Матрица структурирована также по позициям обозначенных выше четверок аминокислот обоих арс-классов, демонстрируя их строгую сдвиговую симметрию: