contig 란?
2021. 3. 23. 13:45
🧬 Bio/생명정보학
“끝나기 전에는 끝난 것이 아니다” (it’s not over until it’s over)라는 말이 있다. 왕년의 MLB 레전드인 요기 베라라는 사람이 처음 쓴 말이다. 그러나 여기서 야구 이야기를 하자는 게 아니고 이 글에서 “끝나기 전에는 끝난 게 아니다” 라는 것은 지놈시퀀싱 이야기이다. 요즘은 워낙 시퀀싱 기술이 발달되어 있고, 개인의 지놈시퀀스도 며칠만에 시퀀싱을 할 수 있네 하는 퍼스널 지놈 이야기, 그리고 수십, 수백만명의 사람의 지놈을 시퀀싱한다는 이야기 등등이 나오기 때문에 특정한 종에 대한 시퀀스 쯤은 마음만 먹으면 얼마든지 간단히 뽑을 수 있는 것처럼 생각되곤 한다. 그러나 과연 그럴까? 약 십몇년 전에 클린턴 아저씨가 하얀집에 사실때 이 아저씨는 옆에 두 사람 (Francis Co..
IGV (Integrative Genomics Viewer)
2021. 2. 1. 18:42
🧬 Bio/생명정보학
IGV (Integrative Genomics Viewer) IGV는 통합적인 유전체 데이터셋 등을 보여주는 고성능 시각과 도구이다. 어레이데이터나 NGS 데이터 등 다양한 타입의 데이터를 지원한다. IGV ? High-performance genomics data vidualization and exploration. 통합적인 유전체 데이터셋을 시각화해주는 그래픽 기반 프로그램 다양한 유전체 관련 정보를 여러가지 트랙을 통하여 보여줌 다양한 포맷의 데이터 로드할 수 있어 편리함 (array-based, NGS, annotation data) Annotation 결과를 그림과 그래프 형태로 제공해주고 Annotation 정보가 추가된 VCF 파일을 생성해줌 IGV interface IGV 메뉴 설명 IG..
Single Cell RNA Sequencing
2021. 1. 28. 16:32
🧬 Bio/생명정보학
scRNA-seq을 하는 2가지 이유 Bulk RNA-seq 분석이 불가능하므로 Bulk RNA-seq의 조직에 2가지 이상의 세포가 섞여서 전사체들이 bias를 만든다. scRNA-seq은 세포끼리 섞이지 않기 때문이 bias가 없다. 초기 scRNA의 프로토콜 피펫으로 난자 캡쳐 Cell lysis Reverse Transcription cDNA 합성 Poly A tailing PCR 따라서 조직에서 세포를 하나씩 캡쳐하는 기술이 필요하다. Barcode CB (Cell Barcode) : 각각의 세포 구분 UMI (Unique Molecular Identifier) : 각각의 분자 구분 -> 증폭의 noise를 줄일 수 있다. 여러가지 캡쳐 방법이 존재한다. 많은 종류의 세포를 얻을 수 있는 시스템..
Read count
2021. 1. 20. 14:47
🧬 Bio/생명정보학
Read count는 어떤 DNA fragment에 포함된 base sequence 들을 말합니다. 사용하는 예로는 두 group간의 read counts 차이들을 통해서 얼마나 gene 들이 differentially expressed 된지 알 수 있습니다.
RPKM, FPKM, TPM
2020. 11. 15. 13:17
🧬 Bio/생명정보학
시퀀싱을 하고 난 다음 발현량의 단위로 RPKM 또는 FPKM 을 쓰는 것을 못 본 사람은 없겠죠. 근데 이 둘 이 뭔 공통점이 있는지 차이점이 있는지 도통 잘 모르겠고요? 이건, 쉽게 말하면 normalization method 중 하나 입니다. 서로 다른 샘플의 유전자 발현량을 비교하려면 그 샘플 속의 세포 또는 rna의 양이 같아야겠죠?? 하지만 똑같이 rna를 뽑고 시퀀서에 돌리 수는 없으니까 상대 값을 이용해 발현양을 표시해야합니다. 네 철자 밖에 안되는 이 이름을 사자성어 풀이 하듯이 쪼개 볼까요. RPKM R(Reads) : Reads mapped in a gene / total reads P(per) K(Kilobase per) : 1,000bp / gene length M(Millions..