단백질 생성 필수 정보 지닌 DNA, 해석한 정보 알맞게 옮기는 RNA
4가지 염기 배열 따라 정보 암호화… 20가지 아미노산 정보 표현 위해
3개 염기 배열로 경우의 수 충족
상훈: 코로나19 뉴스를 보면 생명과학시간에 배웠던 DNA나 RNA가 많이 등장하는 것 같아요.
엄마: 바이러스는 결국 단백질로 둘러싸인 핵산인데 이 핵산의 종류에 따라 DNA바이러스, RNA바이러스로 나뉘어서 그렇지.
상훈: DNA나 RNA는 유전정보를 의미하는 것 아니에요?
엄마: 맞아. DNA나 RNA는 4가지 종류의 염기들로 유전정보를 암호화하고 있단다. 다시 말해 염기가 어떤 순서로 나열되는지에 따라 다른 정보를 담고 있는 것이지. 이 염기 배열에 숨어 있는 수학을 살펴볼까?
신종 코로나바이러스 감염증(코로나19)에 대한 정보를 접할 때마다 RNA가 등장합니다. 코로나19 바이러스와 질환의 원인이 되는 사스코로나바이러스-2는 RNA를 유전체로 지닌 RNA바이러스라 합니다. 지금의 바이러스와의 전쟁에서도 계속 등장하고 있는 화이자, 모더나 백신 등도 메신저 RNA라 불리는 mRNA백신이지요. 그런데 얼마 전 인도에서 코로나19 백신 가운데 DNA 백신이 긴급승인된 첫 사례가 되었다는 뉴스가 전해졌습니다. 전문가들은 또 다른 새로운 백신이 전 세계 코로나19 대응 전선에 합류했다고 평가하고 있으며 국내 기업들이 진행 중인 DNA 백신 임상에도 긍정적인 신호로 작용할지 주목된다고 합니다.
○ DNA와 RNA 그리고 mRNA 백신
DNA는 개인마다 다른, 고유의 유전 정보를 담고 있습니다. 유전 정보는 어떠한 세포들을 만들어야 하는지, 몸속 장기부터 전체적인 모습까지 어떻게 구성할지에 대한 정보라고 할 수 있습니다. 우리 몸에 필요한 단백질을 적재적소에 만들기 위해서는 설계도인 DNA의 정보를 해석한 뒤, 단백질을 만드는 곳에 ‘전달’하는 역할이 필요합니다. 그러한 역할을 하는 것이 바로 RNA입니다.
RNA는 그 역할에 따라 명칭이 조금씩 다릅니다. 공장에서 물건을 만드는 활동에 비유해 다양한 RNA를 살펴볼까요. 신제품(단백질)을 만드는 설계자(DNA)가 있다고 합시다. 그럼 DNA의 설계도면을 공장에 전달하는 RNA가 있습니다. 이 RNA는 ‘전령(messenger)’의 앞 글자를 따서 mRNA라고 부릅니다. 공장의 기술자들은 전달된 도면을 보면서 필요한 재료인 아미노산을 주문하고, 재료가 공장에 도착하면 설계 도면에 맞게 조립해서 완제품인 단백질을 만들어 낼 겁니다. 이때 공장에서 주문한 재료를 구해 기술자에게 가져다주는 RNA도 있습니다. ‘운반자(transfer)’라는 뜻으로 tRNA라고 부릅니다. tRNA가 가져온 재료들을 활용해 설계도면에 따라 완제품을 만드는 RNA는 단백질을 만드는 세포기관의 이름인 ‘리보솜(ribosome)’을 따서 rRNA라고 합니다. 일반적으로 RNA라 하면 mRNA를 의미합니다.
코로나19의 백신으로 잘 알려진 mRNA 백신은 코로나바이러스의 구조에 나타난 공격형 스파이크단백질의 유전정보를 담은 mRNA를 주사함으로써, 진짜 스파이크단백질과 똑같이 생긴 ‘가짜 스파이크단백질’이 우리 몸에서 스스로 생성되도록 합니다. 만들어진 가짜 스파이크단백질을 이용하여 우리 몸속 면역세포들이 바이러스와 싸울 수 있는 항체를 스스로 만들어내는 원리인 것이지요. 화이자와 모더나 백신이 그 예이고 근육주사를 이용합니다.
○ 염기 서열의 경우의 수
DNA는 당과 인산, 염기로 구성되어 있고 그중 정보를 암호화하는 염기의 종류는 네 가지입니다. 아데닌(A), 시토신(C), 구아닌(G), 티민(T)으로 모두 작고 단순한 분자입니다. 생명체의 DNA는 이러한 염기쌍 등을 차곡차곡 쌓아올린 무더기로 생물학자 크릭과 왓슨은 이중 나선구조를 이룬다는 것을 밝혀냈습니다. 이후 물리학자 가모브는 수학적 사고 실험으로 DNA 염기서열이 세 글자 암호로 아미노산 서열을 표현한다는 것을 예측합니다. 우리도 수학 사고실험에 참여해볼까요?
네 염기를 각각 A, C, G, T라는 글자로 나타내 봅시다. 이 네 글자를 사용하여 두 글자로 만들 수 있는 낱말은 AA, AC, AG,… , TT로 (첫 번째 글자의 경우의 수)×(두 번째 글자의 경우의 수)=4×4=16개가 나옵니다. 이에 따르면 한 글자짜리 낱말은 4개이고, 한 글자와 두 글자 낱말을 합하면 4+16=20개라는 것을 알 수 있습니다. 그러나 [AACGCTATTG…]과 같이 나열된 염기서열에서 연속한 AA가 두 글자 낱말인지 한 글자 낱말 A가 2개인지 구분이 어렵습니다. 그래서 길이를 고정한 낱말을 약속해서 사용할 필요가 있습니다. 따라서 두 글자 낱말로는 20개의 아미노산을 표현하기에 모자라기 때문에 적어도 세 글자짜리 낱말을 사용합니다. 세 글자짜리 낱말은 같은 방법으로 4×4×4=64개가 되어 아미노산을 지정하여 넉넉하게 사용할 수 있습니다. 이보다 더 긴 낱말을 사용하면 매우 비경제적이게 됩니다. 실제로 여러 생물학자의 연구에 의해 3개의 염기 서열에 의해서 아미노산이 결정된다는 것이 밝혀졌습니다.
mRNA를 통해 단백질을 만들어내는 인간의 유전자는 3만∼3만5000개 정도로 추정됩니다. 연속된 아미노산 서열에 해당하는 DNA 유전 암호를 예측하고 이를 활용하는 것은 여전히 중요한 이슈입니다. 이제는 DNA 염기서열 분석법인 차세대 분석 기술이 개발되면서 대용량 DNA 서열 정보의 병렬적 분석이 가능해졌습니다. 이로 인해 한 개체의 유전정보나 전사체 등 다양한 계층의 데이터 세트가 생산되고 축적되고 있으며 이를 이용한 유전자 합성, 유전자 편집 등 생명공학 분야에 활용되고 있습니다.
코로나19로 인류의 고통이 길어지고 있습니다. 하지만 고난 속에서 우리는 지속적으로 수학, 과학적 호기심을 자극받아 연구를 계속해 나갑니다. 생명과학에서 기초가 되는 수학에 대해 깊이 탐구해보는 계기가 되면 좋겠습니다.
댓글 0