배아 줄기세포(ESC)와 유도 만능 줄기세포(iPSC)의 유전자 발현 패턴 분석


Introduction


Background

신약개발의 패러다임은 화학물질의 합성을 통한 합성 신약의 개념에서 출발하였지만 현재는 단백질 공학을 이용한 항체 치료와 같은 바이오 신약의 개념으로 그 의미가 확장되어왔다. 최근에는 치료를 위해 살아있는 세포를 환자에게 직접 주입하는 세포 치료의 개념으로 더욱 확장되고 있다.  재생 의학은 선천적 돌연변이에 의한 유전적 변형 혹은 불의의 사고나 퇴행성 질환으로 인해 기능성을 잃어버린 인체의 기관이나 세포를 정상적으로 되돌리는 것을 목표로 하고 있다. 이러한 재생 의학의 발전에 이바지한 커다란 사건들을 꼽아보자면 줄기세포(stem cell)의 발견과 역분화(reprogramming)를 이용한 줄기세포의 생성을 꼽을 수 있다. 이러한 줄기세포를 이용해 만들어진 세포치료용 의약품들은 여러가지 질병의 치료 방법으로 그 동안 꾸준히 많은 연구자들에 의해 개발되어 최근에는 여러 임상시험들이 환자들을 통해 진행중에 있고 다가올 미래에는 기존의 합성신약들을 능가할 치료방법이 되리라 예측되고 있다.

 

A. 줄기세포

줄기세포(stem cell)란 무엇인가? 국어사전에는 “배아 또는 성체에 있는, 여러 종류의 세포로 분화할 수 있는 미분화 세포” 라고 정의되어 있는데, 이처럼 줄기세포는 기본적으로 분화가 이루어진 성체 세포와는 다른 몇 가지 커다란 특성들을 지니고 있다. 대표적인 줄기세포만의 특징으로는 자기복제(self-renewal) 능력과 다분화능(pluripotency)이 있다. 자기복제 능력은 줄기세포 자체가 자신의 특성인 다분화능을 잃어버리지 않은 채 무한대로 자신과 같은 특성을 지닌 줄기세포로의 재생산이 가능한 것을 의미하며, 다분화능이란 줄기세포가 특정 환경과 조건 하에서 여러 다른 계통(lineage)의 세포로 분화가 이루어질 수 있음을 의미한다.

 

B. 배아줄기세포

배아줄기세포(embryonic stem cells, ESCs)의 경우 말 그대로 아직 줄기세포능이 남아있는 배아의 미분화된 속 세포덩이(inner cell mass)에서 유래된 줄기세포이다. 이처럼 배아줄기세포는 수정 이후 3~5일의 수정란의 inner cell mass에서부터 유래되어 만들어지기 때문에 수정된 수정란을 희생하지 않고는 분리 생성할 수 없다. 결국 배아줄기세포의 생성을 위해서는 잠재적 태아의 희생이라는 윤리적 문제를 태생적으로 안고 개발된 것이다. 따라서 종교와 윤리적 문제에서 오는 여러 가지 연구의 제약과 반대를 극복해야 하는 문제를 함께 가지고 있기도 하다.

 

C. 유도 만능 줄기세포

유도 만능 줄기세포(induced pluripotent stem cell)는 체세포로부터 역분화(reprogramming)라는 과정을 거쳐서 만들어지는 줄기세포로써 배아줄기세포와 매우 흡사한 기능과 특성을 보여준다. 4개의 transcription factor(c-myc, Klf4, Oct4, Sox2)를 레트로 바이러스(retro virus)를 이용해 완전하게 분화가 이루어진 인간의 상피세포가 줄기세포로 만들어질 수 있음을 보여줌으로 시작되었다. 유도만능줄기세포의 가장 큰 매력은 맞춤형 환자 세포 치료가 가능하다는 점을 들 수 있다. 환자의 세포를 이용해 만들어진 줄기세포이기 때문에 세포치료를 위해 환자에게 이식 후 발생 가능한 면역거부반응에 대한 위험이 다른 종류의 줄기세포보다 훨씬 적다. 또한 환자 고유의 유전체적 특성을 모두 가지고 있기 때문에 이를 이용한 질병의 모델링이 가능하며 drug library screening를 통한 신약개발에도 적용 가능하기 때문에 유도만능줄기세포는 질병의 연구와 치료에 무한한 잠재력을 가지고 있는 도구이다


Problem Definition

유도 만능 줄기세포(iPSC)와 배아 줄기세포(ESC)로부터 세포를 생성하는 능력이 향상되었다. 그러나 세포 분화의 초기단계에 기초한 전사 조절 네트워크에 대한 연구자의 이해는 여전히 제한적이다. ChIP(chromatin immunoprecipitation)이나 bioChIP과 같이 항체를 이용해서 면역학적으로 특정한 단백질과 결합된 DNA 조각들만 침전하는 방법도 있지만 그 DNA 조각들의 숫자는 매우 커서 어떤 DNA가 세포를 생성하는 기능을 가지는지 알기가 어렵다.


Motivation

유도 만능 줄기세포(iPSC)와 배아 줄기세포(ESC)에 관한 논문을 찾아보다가 인간 유도 만능 줄기세포(hiPSC)와 인간 배아 줄기세포(hESC)로부터 심근세포를 생성하는 능력을 관찰하는 논문을 보게 되었고 이와 관련된 데이터도 얻을 수 있었다. 이 논문에서도 1.문제 정의에서 언급했던 제한적인 전사 조절 네트워크에 대한 문제를 논하였다. 심근세포 분화의 초기단계(즉, 중배엽에서 심장 중배엽에 이르기까지)에 기초한 전사 조절 네트워크에 대한 이해는 제한적이다고 하였다. 이러한 문제에 대해 유전자 발현량 분석을 머신러닝 및 통계적인 방법으로 접근해보고 싶었다.


Objective

인간 유도 만능 줄기세포(hiPSCs)와 인간 배아 줄기세포(hESCs)의 유전자 발현 패턴이 서로 비슷하게 나타나는지, 유전자 발현 패턴이 어떤 식으로 나타나는지, 두 세포로부터의 초기 심근세포로의 분화가 일어날 동안 어떤 유전자가 심근세포 분화에 영향을 미치는지 확인하는 것이 목적이다.


Method and Result


Data import with R

두개의 hiPSCs(C15, C20)와 hESCs(H1, H9)를 사용하였다. Stanford Cardiovascular Institute (SCVI) Biobank와 Stem Cell Core Facility of Genetics에서 얻은 데이터이다.C15와 C20 hiPSC는 익명의 건강한 사람들의 피부 섬유아세포로부터 lentvirus로 생성되었다. 각 세포의 RNA를 추출해서Sequencing을 진행한다.

Fig 1. RNA Sequencing  과정

 

 

그리고 RNA sequencing의 결과로 얻은 서로 다른 샘플의 유전자 발현량의 비교하기 위해서는 normalization을 해야 한다. 상대 값을 이용해 발현량을 표시해야 비교가 가능하기 때문이다. 이를 위해 만들어진 Table이 RPKM Table이다.

 

Table 1. FPKM Table

 

데이터 분석에 사용되는 툴은 R로 진행했다. 아직까지 유전체 데이터 분석에는 파이썬보다 R에 더 많은 라이브러리가 존재하고, 벡터에 관한 처리가 더 용이하기 때문이다.

 

 

FPKM table은 49개의 column과 26256 개의 row로 이루어져 있다. 이 데이터에서 확인할 수 있는 H1, H9는 hESC(인간 배아 줄기세포)에서 Cardiomyocyte(심근세포)로 분화된 sample이고, C15, C20은 hiPSC(인간 유도 만능 줄기세포)에서Cardiomyocyte(심근세포)로 분화된 sample 이다. 이 4개의 sample을 각각 day0(undifferentiated cells), day2(mesoderm), day4(cardiac mesoderm), day30(cardiomyocyte)으로 나누고 각각의 sample에 대해 2번의 replicate로 실험을 진행하였기 때문에 FPKM table에는 총 32개의 sample과 각각의 유전자에 대한 정보 및 각 sample에서 여러 유전자들의 발현량을 확인할 수 있다.


Data Preprocessing

유전자에 대한 추가적인 정보를 제거하고 31열까지 나와있는 유전자 발현량에 대한 정보만 이용한다.

Table 2. hESC, hiPSC table

 

Fig 2. FPKM box plot 1

 

box plot으로 FPKM table 데이터를 보았을 때 발현량에 대한 차이가 커서 이에 대한 차이를 줄이기 위해 log2를 취해주었다.

 

 

Fig 3. Log FPKM box plot 1

 

데이터가 box plot에 그려지지 않는 데이터가 있는 것으로 보아 0값이 존재한다. 0으로 나와있는 곳은 발현이 되지 않는 유전자이므로 이를 제거해준다.

발현되지 않은 유전자를 제거하는 것뿐만 아니라 1 을 더해주는 것이 굉장히 중요하다. 발현량이 1 이하로 나온다면 log 값이 음수로 나오기 때문이다. 음수로 나오는 값을 어떻게 해결할지에 대한 부분에서 굉장히 고전하였다. 이렇게 처리를 하고 plot 을 보았을 때, 유전자 발현량 분석을 위한 전처리가 잘 되었다고 판단되었다.


Hierarchical Clustering

Fig 5. Clustering with Euclidean distance

 

 

Hierarchical Clustering 이란 각 sample 에 대해서 data 간의 값의 거리를 이용하여 clustering 하는 방법이다. data 간의 거리는 Euclidean distance 로 구하였다. 위의 plot 을 분석해보면 C15, C20과 H1, H9가 멀리 떨어지지 않고 함께 묶여 있으며, 각 Day 별로 묶여 있는 것으로 보아 hESC(H1, H9)와 hiESC(C15, C20)에서의 차이보다는 분화된 날짜에 더 큰 영향을 받는다는 사실을 알 수 있다. 여기서 hESC끼리,hiESC끼리 묶이지 않고 Day 별로 묶여 있다는 것은 배아 줄기세포와 유도 만능 줄기세포의 유전자 발현 패턴이 매우 비슷하고 이를 통해 기능과 특성 또한 매우 비슷하다는 것을 확인할 수 있다.

 

 

Fig 6. Clustering with Manhattan distance

 

Manhattan distance 로 clustering 하여도 같은 결과를 얻을 수 있다.


Standardization

데이터 정규화는 변수 값의 분포를 표준화하는 것을 의미한다. 표준화는 변수에서 데이터의 평균을 빼거나 변수를 전체 데이터의 표준 편차로 나누는 작업을 포함한다. 이렇게 하면 변수값의 평균이 0이 되고 값의 퍼짐 정도(분포) 또한 일정 해진다. 이를 기반으로 K-means clustering 을 위한 정규화를 진행하였다.

 

Table 3. Standardization FPKM table


K-means Clustering

Table 4. K-means Clustering Cluster table

 

8 개의 군집으로 나누어서 K-means Clustering 을 진행하였다. Center = 8 로 설정하였고 그렇게 나눈 이유는 H1,H9,C15,C20 데이터가 각각 Day0,2,4,30 으로 2개씩 존재하기 때문이다. 최적의 Center 의 개수를 구하기 위한 Elbow method 를 수행해 보았지만 데이터가 너무 시간이 굉장히 오래 걸렸고 Cluster 는 Day 에 따라 크게 보면 4 개로 나타나기 때문에 Elbow method 수행은 의미가 없다고 판단하였다.

 

Fig 7. K-means Clustering plot

 

K-means clustering 의 결과를 plot 으로 나타낸 결과이다. 이렇게 plot 으로 보는 것은 데이터가 많이 겹쳐 있고 한번에 여러 유전자의 발현 패턴을 분석하기에는 어려움이 따랐다. 따라서 heatmap 으로 K-means clustering 의 결과를 봐야 시간대 별로, 각 세포의 유전자 발현 패턴이 잘 보일 것이라고 판단했다.

 

 

Fig 8. K-means Clustering Heatmap

 

heatmap 은 열을 뜻하는 히트(heat)와 지도를 뜻하는 맵(map)을 결합시킨 단어로, 색상으로 표현할 수 있는 다양한 정보를 일정한 이미지위에 열분포 형태의 비쥬얼한 그래픽으로 출력하는 방법이다. 발현이 많이 된 유전자는 붉은색으로, 적게 발현된 유전자는 푸른색으로 나타난다. 보통 유전자 발현 패턴을 파악하는 데에 많이 사용된다.

 

K-means Clustering 의 결과를 heatmap 으로 보게되면 위와 같은 그림이 나타난다. 앞의 Standardization 과정에서 유전자의 발현량 변화를 normalization 하기 위해 z- score를 이용하여 서로 가까운 data를 묶어주어 모든 유전자의 발현량에 기여도를 동일하게 해주었다. 이를 heatmap으로 보았을 때 유전자 발현이 증가하는 양상, 감소하는 양상을 직접적으로 눈으로 확인할 수 있었다. Hierachical Clustering 에서의 결과와 같이 hESC  hiPSC 의 차이보다는 Day에 따라 유전자 발현이 달라지는 것을 확인할 수 있었다.


PCA (Principal Component Analysis)

Fig 9. PCA plot

PCA(Principal Component Analysis)는 고차원의 데이터를 어떤 벡터에 정사영시켜 저차원으로 낮추었을 때 데이터 구조를 최대한 유지하면서 종합적인 지표를 나타내는 것이다. 위의 간단한 코드로 PCA plot을 나타낼 수 있다. Sample의 개수가 많은 경우에 눈으로 쉽게 확인해 볼 수 있으며 위 plot에서 점들의 무리가 hESC와 hiPSC끼리 묶인 것이 아니라 Day 별로 묶여 있는 것을 확인할 수 있다.이를 통해 hESC와 hiPSC는 각각의 특성보다는 지난 시간에 더 큰 영향을 받는다는 것을 확인할 수 있다. hESC와 hiPSC는 Day 별로 특성이 다르게 나타난다는 것을 확인했으므로 이제 어떤 유전자가 hESC와 hiPSC의 심근세포 분화 기능의 발현을 유발하는지 알아야 한다.


Differentially Expressed Genes

이제 배아 줄기세포와 유도 만능 줄기세포의 유전자가 Day마다 어떤 유전자가 얼마나 다르게 발현되는지 확인해야 한다. 그래야 심근세포 분화에 어떤 유전자가 중요한 기능을 하는지 알 수 있기 때문이다.

 

DEG로 분석하여 나온 결과는 심근세포 분화에 중요한 유전자의 후보군을 고르는 것이기 때문에, 논문에서 밝힌 심근세포 분화에 중요한 유전자가 분석 결과로 나온 후보군 안에 들어가 있는지 확인하는 것을 목표로 하였다.

 

심근세포로 분화된 세포와 1일 차, 2일 차, 4일 차의 유전자 발현 패턴량을 분석하였다.

 

먼저 1일차와 분화된 심근세포의 유전자 발현량 표본을 비교하기 위해서 1일차 세포와 분화된 심근세포 표본에 대해 t test를 진행하고 p-value 0.05보다 낮은 값을 구하였다. 그리고 Fold change라는 FC값을 구할 건데 Fold change는 유전자 발현량이 변한 정도를 나타낸다. 즉, Fold change가 크면 클수록 유전자 발현량의 차이가 큰 것이고, Fold change가 작으면 유전자 발현량의 차이가 작은 것이다. 결과를 예상해보면 논문에서 밝힌 GATA4 MEIS1, MEIS2, ZEB1 ,  4가지 대표적인 유전자가 p-value가 낮으면서 FC가 높은 범위에 존재해야 한다.

 

Table 5. GATA4, MEIS1, MEIS2, ZEB1 Table

 

분석 결과를 Excel 파일로 저장하고 FC 값을 내림차순 정렬하여 보았을 때, MEIS1, MEIS2, GAT4, ZEB1가 높은 FC값과 낮은 p-value 값을 가지는 것을 확인할 수 있었다.

 

Table 6. ZEB1 p-value, Fold change Table

 

2일차와 심근세포 유전자 발현량, 4일차와 심근세포 유전자 발현량 중 대표적인 유전자 중 하나인 ZEB1 유전자의 변화량을 보았을 때에 낮은 p-value 값과 점점 낮아지는 Fold Change을 확인할 수 있었다. Fold Change가 낮아진다는 것은 세포가 성장할수록 분화의 마지막 단계에 가까워 지기 때문에 심근세포와의 차이가 낮아지는 것이고 이는 ZEB1 유전자가 심근세포 분화에 굉장히 중요한 역할을 하는 것으로 판단할 수 있다.


Discussion

hiPSCs(인간 유도 다능성 줄기 세포)hESCs(인간 배아 줄기 세포)로부터 심근세포 (cardiomyocyte)를 생성하는 능력에 관하여, 초기 단계( , 중배엽에서 심장 중배엽까지)에서 전사 조절 네트워크에 대한 연구 data에 대해 분석을 해 보았다. 이는 RNAseq을 이용하여 얻은 FPKM 형식의 data로 이를 R studio의 간단한 코드를 이용해 분석을 해보았는데, normalization of the data, hierarchical clustering for the samples, K-means clustering for the genes, identification of differentially expressed genes(DEG) 등 여러 분석 방법을 이용하여 다양한 시각에서 분석을 진행 해보았다. 위의 분석으로. H Clustering, PCA를 통해 C15, C20  H1, H9가 멀리 떨어지지 않고 함께 묶여 있으며,  day 별로 묶여 있는 것으로 보아 hESC(H1, H9), hiPSC(C15, C20) 에서의 차이보 다는 분화된 날짜에 더 큰 영향을 받는다는 사실을 알 수 있었다. 또한 K-means clustering을 통해 hESC hiESC의 차이보다는 day에 따라 유전자의 발현이 달라지는 것을 확인할 수 있었고, 이 유전자가 정확히 어떤 유전자인지 판단하기 위해 Differentially Expressed Genes을 확인해보았다. DEG의 분석을 통해 여러 개의 유전자를 추려낼 수 있었고, 이 유전자가 cardiomyocyte를 생성하는 능력에 관여하는 유전자라고 예상을 하였다. 

하지만 이는 day0 day2, day4, day30에서만 분석을 하였고, 더 오랫동안 실험한 날짜의 분석을 통하여 많은 sample 분석을 한다면 더 정확한 분석을 할 수 있을 것이라고 판단된다. R을 통한 간단한 DEG 분석이 아니라 더 섬세한 DEG 분석과 잘 연구된 Protein DB과의 서열 유사성을 이용해 Functional annotation 분석을 통한다면 더 정확한 분석을 할 수 있을 것이다. 또한 위와 같은 분석으로 유전자 발현이 감소하는 유전자 또한 밝혀낼 수 있을 것이다.

 

수정과 발생에서부터 생명의 탄생에 이르기까지 세포의 발생과 분화는 인간의 기술 영역이 아닌 자연의 수동적 섭리라고 인류는 생각해 왔다. 줄기세포를 이용한 세포치료는 정상적으로 작동할 수 없는 기능이 없는 세포나 기관을 새롭게 바꾸어 주는, 기존의 치료법으로는 치료가 불가능 했던 여러가지 질병의 근본적인 치료법을 우리에게 제시해 준다. 급속도로 발전하는 유전자 편집 (gene editing) 기술과 bioinformatic tool을 통해 유전자 분석을 함으로써 이러한 줄기세포의 잠 재력을 폭발적으로 성장시키고 있을 것이다. 비록 아직까지는 질병 치료를 위해 바로 적용하기에는 기술적 문제들이 아직 남아있기는 하지만 이러한 기술적인 문제들이 아주 먼 미래가 아닌 다가올 미래에 극복될 수 있으리라 예상해본다.


Reference

1) 데이터 출처(GSE85331 FPKM Table) :

https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE85331&format=file&file=GSE85331%5Fall%2 Egene%2EFPKM%2Eoutput%2Ereplicates%2Etxt%2Egz

2) 관련 논문 :

Liu Q1, Jiang C1, Xu J1, Zhao MT1, Van Bortle K1, Cheng X1, Wang G1, Chang HY1, Wu JC1, Snyder MP1, 29 Jun 2017, Genome-Wide Temporal Profiling of Transcriptome and Open Chromatin of Early Cardiomyocyte Differentiation Derived From hiPSCs and hESCs., Circulation Research

Barral, S. and M. A. Kurian (2016). "Utility of Induced Pluripotent Stem Cells for the Study and Treatment of Genetic Diseases: Focus on Childhood Neurological Disorders." Front Mol Neurosci 9: 78.

3) 줄기세포 : http://www.nih.go.kr/contents.es?mid=a40405010800

4) 줄기세포를 이용한 세포치료의 현재와 미래 발간 보고서 :

https://www.khidi.or.kr/board/view?pageNum=1&rowCnt=10&no1=&linkId=48827387&menuId=M ENU01846&maxIndex=&minIndex=&schType=0&schText=&schStartDate=&schEndDate=&boardSt yle=&categoryId=04&continent=&country=

 

'📌 Internship > BIG Lab' 카테고리의 다른 글

Bioinformatics tool installation  (0) 2021.04.01
bcftools 설치하기  (0) 2021.03.19
Workspace 설치  (1) 2021.02.26
Docker 에서 CentOS7 설치 및 IGV 설치 및 실행  (0) 2021.02.01
복사했습니다!