В приведенной табличке упорядоченность по нарастанию молекулярной массы относится к аминокислотам в составе упорядоченных по номерам групп вырожденности (римские цифры), сгруппированным в два октета (арабские цифры). При этом позиция цистеина С скорректирована, о чем речь будет идти в следующей главе; там же мы расскажем и об октетах.
Возвращаясь к выбору именно двадцати аминокислот для кодирования, стоит отметить еще одно интересное обстоятельство: этот выбор мог определяться также квантовой теорией информации, которая предлагает оптимальный алгоритм (алгоритм Гровера) упаковки и чтения информационного содержания ДНК (Апурва Патель, 2001). Такой алгоритм определяет число объектов N, различаемое числом ответов да/нет на вопросы Q, следующим образом:
(2Q +1) sin-1 (1 / √N) = π /2.
Решения этого уравнения для малых значений Q весьма характерны:
Q = 1lnN = 04.0
Q = 2lnN = 10.5
Q = 3lnN = 20.2.
Теоретически эти значения не обязательно должны быть целыми числами. Любопытно, что в первом приближении они соответствуют последовательности тетраэдрических чисел, а также эволюции функционального размера кодона от синглетного к триплетному. Другими словами, тетраэдр также можно построить из десяти и из четырех мономеров; эти числа и отмечены в решениях приведенного уравнения. Позднее мы покажем, что комбинация размерных параметров аминокислот и нуклеотидов, базирующаяся на предложенных нами правилах, приводит к пространственному равновесию тетраэдра из двадцати мономеров, соответствующих этим аминокислотам. Здесь же стоит, пожалуй, вспомнить актуальные до сих пор слова Вѐзе (1973): «Представляется почти жестокой шуткой, что Природа выбрала такое число [кодируемых] аминокислот, какое легко получается в результате множества
математических операций». Но, так или иначе, двадцати альфа-аминокислот (из сотен, встречающихся в природе) оказалось довольно для обеспечения необходимого разнообразия белков.
…………………
Число 496, которым обозначена эта глава, интересно тем, что оно относится к классу так называемых совершенных чисел, и это единственное трехзначное совершенное число. Совершенным называют натуральное число, равное сумме всех своих собственных делителей (т. е. всех положительных делителей, отличных от самого́ числа). Сумма всех делителей числа 496, то есть, 1+2+4+8+16+31+62+124+248, равна ему самому. Мы вспомнили о совершенных числах и отмечаем уникальность именно этого числа, потому что оно, во-первых, трехзначно – как трехзначны кодирующие элементы, о которых мы говорим, а во-вторых, как и все предыдущие упомянутые здесь числа, оно – случайно или нет – характеризует один из формальных параметров генетического кода, о которых мы будем говорить дальше. Терпение читателя небезгранично, и Автор вспоминает в связи с этим выдержку из письма одного из читателей известному популяризатору математики Мартину Гарднеру: Перестаньте отыскивать интересные числа! Оставьте для интереса хотя бы одно неинтересное число! Но соблазн велик, и трудно удержаться.
Часть третья. Арифметика генетического кодирования
Глава A.
Аналоговые таблицы генетического кода (XIII)
Первым, кто попытался упорядочить таблицу генетического кода и построить ее на рациональной основе, был наш выдающийся ученый Юрий Борисович Румер. Он был физиком, учеником Макса Борна, хорошо знал Альберта Эйнштейна, Пауля Эренфеста, Эрвина Шредингера, был другом Льва Ландау. Читал лекции в Московском университете, работал в ФИАНе. Само собой, очередная российская власть (большую часть ХХ века – советская) привычно обошлась с крупным ученым, сунув его в 1938г в лагерь, а потом в авиационную шарашку, где он работал с Туполевым, Королевым, Мясищевым, Петляковым, Глушко, Бартини, Карлом Сциллардом, братом упоминавшегося выше Лео; каждый незауряден. Ольга и Сергей Бузиновские55 показывают целую вереницу выдающихся людей, которая незримо тянется за именем Румера – от Понтекорво до Ферми и Александра Грина, от Флерова до Сент-Экзюпери и Алексея Толстого, от Бартини до Ильфа и Петрова и Булгакова…
…В 1953г Румер был реабилитирован, потом работал в Академгородке под Новосибирском. Как только Ниренберг с соавторами опубликовали в 1965г полный словарь генетического кода, Румер немедленно погрузился в эту тематику. В том же году он писал: «Рассмотрение группы кодонов, относящихся к одной и той же аминокислоте, показывает, что в каждом кодоне (XYZ) целесообразно отделить двухбуквенный корень /XY/ от окончания /Z/. Тогда каждой аминокислоте, в общем случае, будет соответствовать один определенный корень, а вырожденность кода является следствием изменения окончания». Шестнадцать возможных корней он разбил на два октета (с заменой тимина Т на урацил U для РНК):
Идея о разбиении корней кодонов на два октета – «сильные» и «слабые» была совершенно новой и неожиданной для специалистов, работавших в этой области. Оказалось, что анализ многих свойств аминокислот четко подтверждает разбиение всех аминокислот на две группы, соответствующие разбиению корней на два октета. Исследованию разнообразных следствий этой идеи были посвящены несколько работ Румера. В частности, подход Румера к проблеме с однозначностью приводил к следующему порядку букв:
C – очень сильная
G – сильная
U – слабая
A – очень слабая
Этот порядок букв (CGUA) дает возможность сформулировать простые правила, определяющие «силу» корня:
сила корня, содержащего в качестве второй буквы С или А, определяется
силой второй буквы;
сила корня, содержащего в качестве второй буквы G или U, определяется силой первой буквы.
Крик предпочитал другой порядок букв в генетическом алфавите. В письме Румеру он доказывал преимущества порядка UCAG (этот порядок и сейчас используется во всех учебниках), но алфавит Румера позволял, в частности, видеть поразительные симметрии внутри генетического кода. Не вдаваясь в описание румеровской аргументации, мы предлагаем здесь свой порядок: CUAG, основанный не на качественном понятии «сила кодирующего основания», но на простом упорядочивании по нарастанию весьма простого же параметра – молекулярной массы азотистых оснований – и показываем группу наглядных симметрий, что – как и сам принцип такого упорядочивания – представляется нам даже более интересным. Но об этом позже. Что же до Юрия Борисовича Румера, то это фигура чрезвычайно интересная; о нѐм очень много можно прочесть в Интеренете:
…Чутьѐ у Румера было поразительным. То, что увлекало его в молекулярной биологии [много] лет назад, сейчас является передним краем исследований. В последние годы наблюдается явный рост числа публикаций, в которых проблемы генетического кода анализируются с привлечением симметрий и методов теории групп. Предлагаются разные подходы, основанные на разных типах групп, включая квантовые. В основном этим занимаются физики, не слышавшие о работах Юрия Борисовича. Когда они знакомятся-таки с работами Румера, то поражаются их изяществу, глубине и тому, что идеи симметрии уже [много] лет назад играли центральную роль при подходе к проблемам генетического кода…
Любопытно, в частности, что Юрий Борисович инициировал исследования и по поиску корреляций между одномерной и трехмерной структурами белков. Их не удалось довести до конца по причине существенной неполноты экспериментальных данных, отсутствия хороших компьютеров, а в основном, по-видимому, из-за недостатка энтузиазма… у молодых участников проекта. И снова современное: Не люблю я точные науки, Точно сам не знаю, почему…
Он объединил кодоны, третья буква которых может быть любой из четырех, в один набор, а кодоны, не удовлетворяющие этому условию – в другой. Оба набора содержали равное число триплетов – по 32 каждый. При этом число кодирующих дублетов в обоих наборах составляло по восемь в каждом, поэтому наборы были названы октетами. Оба октета оказались связанными между собой простым преобразованием: T↔G, C↔A (ДНК-вариант):
Этот рисунок иллюстрирует румеровское преобразование, переводящее дублеты одного октета в другой. Третье основание кодона неявно присутствует здесь в составе октета II, продукты которого организованы в две строки: верхнюю кодируют триплеты с третьим пиримидином, нижнюю – с третьим пурином.