article thumbnail image
Published 2021. 3. 23. 13:45

“끝나기 전에는 끝난 것이 아니다” (it’s not over until it’s over)라는 말이 있다. 왕년의 MLB 레전드인 요기 베라라는 사람이 처음 쓴 말이다.

 

그러나 여기서 야구 이야기를 하자는 게 아니고 이 글에서 “끝나기 전에는 끝난 게 아니다” 라는 것은 지놈시퀀싱 이야기이다.

 

요즘은 워낙 시퀀싱 기술이 발달되어 있고, 개인의 지놈시퀀스도 며칠만에 시퀀싱을 할 수 있네 하는 퍼스널 지놈 이야기, 그리고 수십, 수백만명의 사람의 지놈을 시퀀싱한다는 이야기 등등이 나오기 때문에 특정한 종에 대한 시퀀스 쯤은 마음만 먹으면 얼마든지 간단히 뽑을 수 있는 것처럼 생각되곤 한다. 그러나 과연 그럴까?

 

약 십몇년 전에 클린턴 아저씨가 하얀집에 사실때 이 아저씨는 옆에 두 사람 (Francis Collins, Craig Ventor)를 세워놓고 휴먼 지놈 시퀀싱을 완료하였다는 발표를 하였다.

도원결의 아니면 삼당합당

이게 2000년도의 이야기이다. 그러나 문제는 이때 완성된 것은 “휴먼 지놈 시퀀스의 초안” 이 만들어졌다 정도의 이야기이고 초기 분석이 시작되었다는 이야기이다.

 

그렇다면 ‘초안’ 은 무엇이고 ‘완성본’은 무엇인가? 흔히 우리가 지놈 시퀀스라고 생각한다면 이런 식으로 생각한다. 인간은 23+1개의 염색체를 가지고 있으므로 23+1개의 연속된 시퀀스가 있겠지? 그리고 circular chromosome 으로 되어있는 박테리아의 경우는 하나의 시퀀스가 있겠고. 그러나 2001년에 발표된 ‘Human Draft Genome’ 은 어느정도의 수준이었나? 2001년 발표된 휴먼 지놈 초안 논문의 Table 6을 보면 대략적으로 짐작할 수 있는데,

보통 지놈시퀀싱 하는 사람의 업계용어로 Contig 라고 하면 하나의 연속적인 시퀀스 쪼가리를 의미한다. 가령 위의 논문에서 전체 Contig의 갯수가 4884개가 되어있다는 이야기는 원래 23+1 (남자는 Y Chromosome이 하나 더 있으니 +1 ㅋ ) 쪼가리가 되어야 할 것이 4884조가리가 나있다라는 것이다. 그리고 N50 Contig 사이즈는 제일 긴 Contig부터 짧은 Contig 끼리 죽 줄을 세운다고 할때 전체 지놈 시퀀스의 절반이 포함되는 위치의 Contig Size를 의미한다. 당연히 이 크기가 길수록 지놈의 완성도가 높다고 봐야지? 아무튼 2001년에 공개된 시퀀스는 전체 휴먼지놈 시퀀스를 대충 5000조가리 정도로 내놓은 불완전한 시퀀스였다고 생각하면 된다. 이 정도면 양반이고, 휴먼지놈 시퀀싱 콘소시움과 동시에 휴먼지놈 시퀀스를 ‘완료’ 했다고 대중에게 알려진 Craig Venter 와 그 똘마니들이 내놓은 시퀀스는 이보다 훨씬 못미치는 퀄리티의 저질 지놈이었다. 게다가 몇 년 후에는 휴먼지놈 시퀀싱 콘소시움의 데이터를 몰래 빌려썼다는 의혹 컨닝지놈도 받았거니와.

벤터네는 17만개의 쪼가리. 17만개 쪼가리 vs 4884 쪼가리. 둘다 제대로 된게 아니니 오십보 백보일까? ㅋㅋ

어쨌든 휴먼지놈 시퀀스가 최초로 공개된 이후 그동안 2-3년에 한번씩 개정판이 나왔고, 얼마전에는 Version 38 이라고 생각되는 GRCh38 이 나왔다. 이걸 한번 둘러보자. 

 

 

약 15년간 지놈 시퀀스를 improve 했음에도 불구하고, 아직도 휴먼 지놈은 약 1385 쪼가리가 나 있는 상태이다. 그리고 그 쪼가리 사이에 있는 시퀀스 (우리는 아직 그 시퀀스의 내용을 모르는) 의 길이는 159,970,007 bp가 된다. 그렇게 많은 시간과 노력을 투자했음에도 아직도 휴먼 지놈 시퀀싱은 현재진행형이다. 아직 끝나기 전에는 끝난 게 아니다라는 이야기. 

그렇다면 완전히 끝난 지놈 시퀀스, 즉 박테리아라면 하나의 시퀀스, 여러개의 염색체를 가진 생물이라면 그 염색체수만 있는 지놈 시퀀스는 어떤게 있나? 일단 대개의 박테리아의 경우 ‘완전히 끝났다’ 라고 할 수 있다.

 

1. 대장균

갭? 그딴거 없다 ㅋㅋ

 

2. 효모 (Saccharomyces cerevisiae)

3. 꼬마선충 (C.elegans)

이 정도까지다. 이것보다 지놈이 복잡해지는 것들은 사실 아직 다 안 끝났다. 사실 지놈 사이즈가 작아서 모델로 쓰이는 초파리, 애기장대만 보아도 아직까지 Gap 이 남아있을 정도니까.

 

그나마 주로 많이 연구된 모델 생물, 즉 사람, 쥐, 초파리, 애기장대…등등만 해도 사실 지도에 약간 안보이는 부분이 있다뿐이지 전체적인 지놈에 대한 비교적 완벽한 지도를 가지고 있다고 생각해도 된다. 즉 자신이 연구하고자 하는 유전자가 거의 대개는 지놈상에 어떤 위치에 어떻게 있는지 알고 있으므로..지도로 비유한다면 약간의 음영지역은 있지만 거의 모든 영역이 다 커버된다 정도?

 

그러나 이러한 모델생물이 아닌 경우가 되면 점점 상태는 안좋아진다.

 

개 지놈

개..까지만 가도 지놈은 2만7천 쪼가리가 나있다. 포유류로 비슷한 지놈사이즈를 가진 사람, 마우스 등의 경우에는 3자리수 Contig를 가진 것에 비하면 참 차별대우가 심하다. (그러니까 십이간지에서 끝발이 높았어야지)

소라면?

 

개만도 못한 소ㅋㅋㅋ

말이라면? (어째 개나소나말이나 순서로 가는것 같지만 신경쓰면 지는거다)

비슷한 수준.

이 정도라면 지도로 비유한다면 중요한 랜드마크, 큰 건물은 나오는데 골목길에 들어가면 지도에는 아예 공백으로 나와있는데 길이 막혀있거나 그런 경우가 수도없이 나오는 경우다. 그래도 염색체별로 대략적으로 배열되었으므로 좀 누더기같지만 대충 길을 찾아갈 수 있는 수준.

그나마 이정도면 이전 생거시퀀싱 시절에 리드당 800bp정도로 된 시퀀스를 써서 어셈블리되서 퀄리티가 좋은 편이다. 문제는 요즘 나온 NGS 시퀀스 기기로만 수행된 생물 잡생물들의 퀄리티인데, 이들은 기껏해봐야 150-300bp 정도의 숏다리 시퀀스를 써서 어셈블리된 양산형 지놈이기 때문에 극히 퀄리티가 떨어지며, 심지어는 각각의 contig 들이 크로모좀에 맞게 배열되어 있지 않은 경우도 많다.

 

 

자이언트 판다

팬더 “우리는 천민지놈. 천민에게 염색체에 맞게 시퀀스가 배열되어 있기를 기대하는 건 무리 ㅋㅋㅋ”

이정도 되면 자신이 원하는 유전자 중 코딩 리전의 시퀀스가 빠져있다거나 하는 경우도 심심치 않게 발생하는 편. 역시 지도로 비유하면 이 정도는 고속도로 타고가다가 중간에 공사가 안된 부분이 있는데도 그게 표시가 되어 있지 않거나, 지도가 전라도, 경상도, 서울시 등으로 구분되어 있지 않고 동별 축적의 지도가 마구 찢어져서 쪼가리로 널려있는 수준. 없는 것보다는 낫기야 하지만 이거 가지고 여행가려면 눈물이 앞을 가릴 지경. 

 

아마도 이렇게 숏리드로만 구성된 생물 시퀀스는  시퀀싱 기술이 발전하고 (특히 단일 리드의 길이가 길어지면) 가격이 싸지는 경우 처음부터 다시 갈아엎지 않으면 안될 수준으로 보인다. 지금은 없는 것보다는 나으니까 쓰지만…

어쨌든 그러하다. 그렇게 오랜 세월 노력을 했음에도 불구하고 우리는 아직도 휴먼 지놈 시퀀스도 끝내지 못했다. 온갖 잡생물들의 시퀀스는 어련하랴?

 

앞으로도 시퀀싱 기술의 발전은 필요하다고 생각한다. 그러나 본 블로그 주인장의 견해로는 ‘그닥 훌륭하지 않은 퀄리티로 지놈을 싸게 뽑는 것’ 의 기술발전은 이만하면 되었다고 생각한다. 이제 생물학, 나아가서 바이오메디신의 발전을 위해서는 ‘지놈의 퀄리티’ 를 올리는 것이 필수적이며, 이를 위해서는 아마도 개별 read 의 길이가 늘어나는 것이 필수적이라고 생각한다.

 

Ref : madscientist.wordpress.com/2014/03/16/끝나기-전에는-끝난-게-아니다-뭐가-지놈시퀀싱/

 

'🧬 Bio > 생명정보학' 카테고리의 다른 글

IGV (Integrative Genomics Viewer)  (0) 2021.02.01
Single Cell RNA Sequencing  (0) 2021.01.28
Read count  (0) 2021.01.20
RPKM, FPKM, TPM  (0) 2020.11.15
복사했습니다!