Published 2020. 11. 15. 13:17

시퀀싱을 하고 난 다음 발현량의 단위로   RPKM 또는  FPKM 을 쓰는 것을 못 본 사람은 없겠죠.

근데 이 둘 이 뭔 공통점이 있는지 차이점이 있는지 도통 잘 모르겠고요? 이건, 쉽게 말하면 normalization method 중 하나 입니다.

 

서로 다른 샘플의 유전자 발현량을 비교하려면 그 샘플 속의 세포 또는  rna의 양이 같아야겠죠?? 

하지만 똑같이 rna를 뽑고 시퀀서에 돌리 수는 없으니까 상대 값을 이용해 발현양을 표시해야합니다.

 

네 철 밖에 안되는 이 이름을 사자성어 풀이 하듯이 쪼개 볼까요. 

 

RPKM

R(Reads)  : Reads mapped in a gene / total reads

P(per)

K(Kilobase per) : 1,000bp / gene length

M(Millions mapped reads) : 1,000,000 / total reads

 

 

풀어 말하면 ,,, 유전자의 길이를 1000bp로 정규화 했을 때  전체 reads 된 것 중 해당 유전자에만 매핑 된 reads 를 말하고 이는 너무 작은 수 이기 때문에 10^6을 곱해주는 것입니다. 밀리언 정도는 곱해줘야 발현 되었다고 하죠... 설명으로는 두 줄 도 넘 길죠???

 

  RPKM = Reads mapped to a gene / total reads X 1,000 / gene length X 1,000,000 

 

FPKM

내가 single end 시퀀싱을 했다면   RPKM으로 나타내면 되고 paired end  시퀀싱을 했다면 하나의 dna fragment를 2번 읽는게 되니까 FPKM (Fragments per kilobase per millions mapped reads) 이라고 하는거에요. 계산 법은 똑같고요^^

 

TPM

마지막으로 TPM은요? 눈치 채셨겠지만  transcripts 가 들어갈 것 같죠??

 

TPM  Transcripts per millions mapped reads 입니다. 왜  transcripts 의 개념이 나왔을 까요.  서로 길이가 다른 두 유전자(1kb, 2kb)를 읽은  reads 가 둘다 2kb라고 가정해 봅시다.  이 때 1kb 유전자는 2번 읽혔다고 해석 되죠? 즉 2배 더 발현 한 것이에요.  

 

결국 reads  수 가  다가 아니라는 거네요.  그래서 이런 경우에는 해당 유전자에서의 RPKM 을 구한 뒤에 전체 유전자에서 RPKM으로 나눠 보정하고  

(K와 M이 상쇄됨) 그 값은 역시나 작을 테니까  10^6 을 또 곱해주는거에요.

 

TPM = RPKM Total RPKM  X 1,000,000

 

 

'🧬 Bio > 생명정보학' 카테고리의 다른 글

contig 란?  (0) 2021.03.23
IGV (Integrative Genomics Viewer)  (0) 2021.02.01
Single Cell RNA Sequencing  (0) 2021.01.28
Read count  (0) 2021.01.20
복사했습니다!