scRNA-seq을 하는 2가지 이유

Bulk RNA-seq 분석이 불가능하므로

Bulk RNA-seq의 조직에 2가지 이상의 세포가 섞여서 전사체들이 bias를 만든다.

scRNA-seq은 세포끼리 섞이지 않기 때문이 bias가 없다.

 


초기 scRNA의 프로토콜

  1. 피펫으로 난자 캡쳐
  2. Cell lysis
  3. Reverse Transcription cDNA 합성
  4. Poly A tailing
  5. PCR

 

따라서 조직에서 세포를 하나씩 캡쳐하는 기술이 필요하다.


Barcode

CB (Cell Barcode) : 각각의 세포 구분

UMI (Unique Molecular Identifier) : 각각의 분자 구분 -> 증폭의 noise를 줄일 수 있다.

 

여러가지 캡쳐 방법이 존재한다.

  1. 많은 종류의 세포를 얻을 수 있는 시스템 = Large scale : 10 x 
    1. splicing 이나 variant는 볼 수 없다.
  2. 관심있는 유전자를 집중적으로 보고싶을 경우 = Mid-to-low scale : FACS or SMART-seq

scRNA-seq의 도전 과제

  1. 단일세포 캡처 기술
  2. 증폭시 생기는 noise 컨트롤

Noise 생기는 2가지 원인

1. stochastic mRNA loss

*stochastic  = random

capture efficiency가 세포의 종류와 유전자에 따라 다르기 때문이다.

2. 증폭 (amplification)

샘플 RNA의 양이 많을수록 노이즈를 감소시킬 수 있다.

Amplification factor가 세포 및 유전자 별로 다르다. -> Unique Molecular Identifier로 해결 가능


Single-cell Multi-omics

한 세포에서 RNA-seq만 하는 것이 아니라, DNA-seq, Epigenetics, Proteomics를 동시해 시도해볼 수 있다.

세포 lysis 후 핵만 뽑아 DNA-seq 하고, Cytosol에서 RNA-seq 이런식으로

이것을 Large-scale로 하는 것이 가장 중요한 이슈이다.


scRNA-seq 문제에 대한 CS적 해결책

High technical noise : 통계로 해결

High biological noise : (유전자 발현은 stochastic하여 bimodal : 봉우리가 두개)수학적 모델링으로 해결

Big data : (데이터가 많다) 기계학습을 통해 해결


scRNA-seq의 고유 특징

  1. Large-scale platform
    1. 10 x
    2. dorp-seq-sparse count matrix 
    3. Count matrix에 0이 많은 이유
      1. 유전자 발현이 stochastic하기 때문에 발현 안됐을 수도 있다.
      2. Capture efficiency와 Sequencing depth가 낮기 때문에
  2. 많은 세포를 한번에 분석할 수 있다.
  3. condition을 모르는 경우가 많다. -> unsupervised 분석 수행
    1. clustering
    2. PCA
    3. t-SNE
  4. 반면 bulk RNA-seq은 input/output condition을 알고 있으므로 -> supervised 분석 수행
    1. DEG

scRNA-seq의 workflow

  1. 데이터 생성 (Data generation) : 바코드 처리, read mapping, gene counting, Cell filtering
  2. 데이터 처리 (Data processing) : normalizaion, imputation, feature section
  3. 탐색적 분석 (Exploratory analysis) : 시각화 (visualization)
  4. 이종성 분석 (Heterogeneity analysis) : clustering, trajectory inference

 

아직 Gold-standard tool은 존재하지 않는다.

R과 Python 플랫폼이 가장 tool로써 많이 사용된다.


1. 데이터 생성 (Data generation)

  1. 바코드 처리 : 시퀀싱 기계가 생성한 read file(FASTQ)의 header에는 Cell Barcode(CB)와 UMI가 있다.
  2. Read mapping : Bulk RNA-seq와 동일하게 수행된다. 완료시 raw UMI count table 생성
  3. Gene counting : CB의 demultiplexing 및 UMI 합친다.
  4. Cell filtering : low-quality 세포를 제거해야 한다.

10x 에서 제공하는 프로그램 Cell Ranger Analysis Pipeline이 위 단계를 자동으로 분석해준다.

 

Cell filtering 1

  1. Read마다 header에 CB 및 UMI 정보가 있기 때문에, 각 read가 어디에 mapping이 되었나 정보가 나온다. 이걸로 UMI count table을 만들 수 있다.
  2. Count table을 만들 때 염두사항
    1. barcode를 도입함으로써 모든게 해결되는 것이 아니다 - sequecing error 존재
    2. PCR error
  3. 실제 데이터를 보면 seq-error와 PCR error 때문에 UMI의 종류가 늘어나는 것을 볼 수 있다.

2. 데이터 처리 (Data processing) - normalization, imputation, feature selection

위 분석을 수행하여 QC가 끝난 Gene X Cell count matrix를 얻는다.

실제 분석을 하기 전에 normalization, imputation, informative feature selection을 해야한다.

 

Normalization : 세포 특이적 global scaling factor를 예측한다.

Normalization을 하는 이유는 Gene X Cell count matrix의 Cell마다 bias가 들어있기 때문이다.

그러므로 bias를 없애서 각각의 gene이 cell마다 실제 발현값을 예측하는 것이 목적이다.

 

Normalization은 어떤 세포의 예상되는 유전자의 숫자가 유전자의 실제 발현 및 세포 특이적 global scaling factor와 비례한다는 것이 가정한다.

global scaling facotr = 세포크기, capture and RT efficiency, amplification factor, dilution factor, sequencing depth 등

 

R의 Scran package로 Normalization 이 가능하다.

 


3. 탐색적 분석 (Exploratory Analysis) - 시각화 (Visualization)

위의 informative gene을 사용하여 각각의 세포를 축소된 공간으로 projection 하기 = Dimentionally reduction

다양한 기법 : PCA, diffusion map, UMAP, t-SNE

축소된 공간에서 어떤 feature를 강조할 것인가 살펴봐야 한다.

 

local structure : 이웃 지역의 세포들 간 세포와 세포의 거리 유지

global structure : 생물학적 과정(cell cycle 등)과 관련된 저차원에서 세포와 세포 간 거리 유지

각 기법마다 강조하는 것이 다르다.

 

PCA, diffusion map : global structure 강조

t-SNA : local structure 강조

UMAP : local/global structure의 균형

 


4. 이종성 분석 (Heterogeneity Analysis) - clustering, trajectory inference

  1. Discrent latent variable 방법 : 세포의 종류와 상태를 나타내기 위한 clustering 방법
  2. Continuous latent variable 방법 : 각 세포가 어떤 생물학적 과정(ex 분화)에 속해 있나 나타내기 위한 방법

 

출처 : blog.naver.com/naturelove87/221474142816

'🧬 Bio > 생명정보학' 카테고리의 다른 글

contig 란?  (0) 2021.03.23
IGV (Integrative Genomics Viewer)  (0) 2021.02.01
Read count  (0) 2021.01.20
RPKM, FPKM, TPM  (0) 2020.11.15
복사했습니다!