- Homology (상동성)을 관찰하여 유전자가 무슨 관계인지 확인한다.
- DNA와 아미노산 서열 둘다 상동성 있어야 공통조상을 가질 가능성이 높다.
- 염기서열의 상동성 76%, 아미노산 서열의 상동성 28%면 기능이 달라버린다.
- Synteny : 두 종에서 여전히 보전되고 있는 부위
- ORF (Open Reading Frame) : 단백질 생산이 가능한 유전체 영역, mRNA로 전사될 가능성이 있는 염기서열
- Gene annotation : gene의 정보, 의미를 규명하는 것
- ORF를 찾으면 된다.
- ChIP-seq = Chromatin + Immunoprecipitation + NGS
- antibody를 이용해 DNA에 특정 위치에 결합한 단백질을 침강시킨 후 NGS를 이용해 시퀀싱 하는 것
- Genome 상의 특정 기능을 수행하는 부분을 찾기 위한 것
- 특정 단백질이 붙은 부위와 결합되지 않은 부위로 나눈다.
- Sonicate로 잘게 자른다
- 내가 찾고자 하는 단백질만 고르고 싶다면 그 단백질에 대한 항체를 첨가한 후 sequencing 한다.
- Gene disruption
- 유전자의 구조를 유전자 조작에 의해서 파괴시켜 그 유전자 기능을 상실하게 하는 것.
- R1, 프로모터, genR(항생제 내성 유전자), R2(제한효소 절단부위)
- Gene disruption 은 주로 Homologous recombination(상동 재조합) 방법을 사용한다.
- 상동 재조합이 일어나면서 원래 유전자가 망가져 있고 새로운 기능이 생길 수 있다.
- Transcriptome(전사체) 연구 방법
- Microarray
- SAGE
- RNA-seq
- Microarray = DNA chip : 유전자 발현 양상 확인
- Northern hybridization을 써서 내 유전자가 특정 세포에서 발현이 되느냐 안되느냐를 보는 것
- Northern hybridization : 상보적 서열끼리 혼성화
- Reverse Northern : filter에다 유전자를 심고 관찰 (그림참조) **
- DNA Chip에다가 Oligonucleotide를 붙일 수도 있다.
- Oligonucleotide는 특정 유전자의 특정 부위를 대표한다.
- 17mer 정도가 단 하나의 유전자를 대표하는 특이성을 갖는다.
- SAGE : 유전자 발현 연속 분석
- mRNA를 추출한 후 적절히 잘라 긴 DNA로 합성한 후, DNA 시퀀싱을 통해 유전자의 비율을 보는 것
- RNA-seq
가능한 유전자 찾기
6개의 reading prame으로 찾기
진핵세포에서는 인트론을 찾는 것이 중요하다.
GU
기존에 알려져 있는 것과 Homology를 보면 또 잘 찾아낼 수 있다.
Database와 내가 관심있는 것과의 연관성을 본다.
상동성(Homology)
상동성은 생물학에서 매우 중요한 개념이다. 간단하게 말하면, 두개의 생물학적 객체가 서로 친족관계를 가지고 있다는 뜻이다. 이것의 거시적 예로, 아프리카인과 한국인이 서로 친족관계가 있기 때문에 생물학적으로 상동성이 있다고 말할수 있다. 또, 두개의 단백질이 수억년 전에 분화를 했지만, 하나의 조상에서 나왔다는 것이 증명이 되면, 두개는 서로 상동관계가 있다고 말할수 있다. 영어로는 서로 homologous하다고 한다.
염기서열 만으로 homology를 판단하는 것은 위험할 수 있다.
DNA서열로 봤을 때의 homology, 아미노산 서열로 봤을 때의 homology
염기서열의 상동성을 봤더니 76%가 일치했다.
이정도면 같은 유전자라고 볼 수 있다.
그러나 아미노산 서열로 봤을 때는 28% 밖에 안됐다.
기능이 달라버리기 때문이다.
둘다 같아야 공통조상을 가질 가능성이 높다.
따라서 둘다 봐야한다.
Synteny
Synteny : 두 종에서 여전히 보전되고 있는 부위
조절자 단백질의 결합부위가 있느냐 없느냐
조절 부위를 봄으로써 기능을 알 수도 있다.
어떤 조절부위 motif를 가지고 있느냐를 봄으로써 어떤 기능을 하느냐를 알 수 있다.
Gene annotation
: gene의 정보, 의미를 규명하는 것
지름길은 ORF를 찾는 것이다.
: 가능성 없는 애들 버리고 진짜일 거 같은 애들을 남기고 이미 있는 데이터베이스와 비교
ChIP-seq
ChIP-seq : 특정 DNA 결합단백질이 genome에 결합하는 자리 결정
단백질이 결합하는 부위를 찾는 방법
Sonicate로 잘게 자른다.
이 특정 단백질(조절자)들이 붙은 부위와 결합되지 않은 부위로 나뉠 것이다.
내가 찾고자 하는 조절자만 고르고 싶다면 특정 단백질들에 대한 항체를 첨가한다.
그것만 뽑아서 모아서 sequencing을 하면 그 부위를 알 수 있다.
항체항원 반응으로 조절자 단백질이 결합되는 부위를 찾아 내는 것
Chromatin ImmunoPrecipitation followed by sequencing (ChIP-Seq)으로 NGS 기술을 활용한 세포내 전사조절인자 규명을 위해 이용된다. 특정 단백질의 세포내 전자 조절인자로서의 기능을 알고자 할때 특정 단백질이 binding하는 DNA 서열을 NGS로 시퀀싱하여 유전체 전체에서 binding 가능한 motif 를 search 한다.
- 알고자 하는 특정 단백질을 in-vitro 상에서 발현후 정제하여 해당 단백질에 특이적인 anti-body(항체)를 제작 한다.
- 정제된 단백질과 whole genome을 binding 시킨후 DNAase를 처리하여 단백질이 binding 되지 않은 비특이적인 DNA 서열은 모두 제거 되도록 한다.
- 정제된 단백질과 결합된 DNA 서열 겹합체를 앞서 제작한 anti-body를 이용해 분리해 낸다.
- 분리된 결합체로부터 DNA 서열만을 추출 하여 NGS library를 제작 한다.
- NGS sequencing을 수행한다 (TF binding site가 그리 길지 않은 점을 감안하여 1x 50 ~ 75bp로 시퀀싱한다).
- 시퀀싱된 서열을 해당종의 genome 서열에 mapping 하여 consensus motif site를 확인 한다.
- motif 서열을 기준으로 가장 가까운 유전자들을 대상으로 (promoter 영역) Functional annotation 수행으로 TFs의 downstream regulation study에 이용한다.
- 동일 condition 에 해당하는 Input DNA (control)를 추가 실험 및 분석하여 peak calling시 bias를 제거할 수 있다.
31퍼센트의 효모 유전자와 인간유전자는 비슷하다.
단백질 구조로 단백질의 기능을 알 수 있다.
Reverse genetics로 무슨 기능을 하는지 알 수 있다.
Gene disruption
Gene disruption : 유전자의 구조를 유전자 조작에 의해서 파괴시켜 그 유전자 기능을 상실하게 하는 것.
이 방법을 적용시키기 위해서는 유전자가 클로닝되어 있고,
그 유전자 속에 유전적 선택에 쓰는 마커유전자를 삽입할 수 있는 적당한 제한효소 절단 부위가 있어야 한다.
gene disruption은 주로 homologous recombination 방법을 사용합니다.
R1, 프로모터, genR(항생제 내성 유전자), R2
제한효소자리에 target 유전자를 넣는다.
상동 재조합이 일어나면서 원래 유전자가 망가져 있고 항생제 내성이 생길 수 있다.
transcriptome : 전사물(transcript)의 총체(-ome)의 합성어로 전사체를 의미하는 용어이다.
Transcript 중 하나인 mRNA는 단백질을 합성하는 데 사용되므로 transcriptome은 genome의 기능적 요소를 해석하고 세포와 조직의 분자 구성 요소를 밝혀내고 발달과 질병을 이해하는 데 필수적이며, 다양한 RNA들도 기능적 역할에 많은 관여를 하고 있다. Transcript의 범위는 단백질 합성에 필요한 mRNA부터 아미노산 운반을 담당하는 tRNA, 코딩에 관여되지 않는 non-coding RNA 등에 이르기까지 RNA의 전반적인 분야를 포함하고 있다.
사람 세포에서 기능을 하는 모든 것은 전부 DNA의 gene에서 전사(transcription)된다. 이렇게 전사된 것들은 RNA의 형태를 가지며 mRNA와 noncoding RNA 로 나눠지게 된다.
mRNA는 단백질의 아미노산 서열 정보를 담고 있으며, 전사된 이후 핵공을 빠져나와 세포질의 리보솜에서 단백질로 번역된다. 번역된 단백질은 곳곳에서 전사인자, 효소, receptor 등으로 기능하게 된다.
ncRNA는 이름에서도 알 수 있듯 단백질에 대한 서열 정보가 아니다. 즉 ncRNA는 단백질로 번역되지 않고 RNA자체로서 기능을 수행하게 된다. ncRNA에는 우리가 흔히 알고있는 tRNA, rRNA부터 snoRNA, miRNA, lncRNA까지 포함되며 세포 내 곳곳에서 전사, 스플라이싱, 번역 등에 관여한다.
다시 말해 세포에서 기능하는 모든 것은 gene에서 나온다고 볼 수 있으며, 이러한 mRNA와 ncRNA를 통틀어 전사체 (transcriptome)라고 부르게 된다. 전사체 분석은 정상세포와 암세포가 왜 서로 달라지는가에 대한 힌트를 제공할 수 있다.
1. Microarray / DNA chip 기법
특정 RNA의 전사체를 먼저 분석해야 한다.
Microarray는 Northern hybridization을 써서 내 유전자가 특정 세포에서 발현이 되느냐 안되느냐를 보는 것
내 유전자에 전사된 전사체만 Hybrdization 될 것이고 유전자 탐침에다가 표시해둔 표지자 때문에 가시화 된다.
동량으로 발현되는 항체 발현성 > GAPDH = 대조군
AMG에 나타나는 밴드의 강도 : 내 유전자의 전사체의 양을 반영한다.
하나하나 다 해야하므로 시간이 오래걸린다. 따라서 한번에 Hybrdization을 해보자. >> Reverse Northern
Microarray 상세 설명
Microarray는 연구 대상 sample에서 대량의 유전자 발현 상황을 총체적으로 탐색하는 방법으로, 전사된 전사체(transcriptome)를 빠르게 분석할 수 있다. 연구대상 샘플을 준비해서 RNA를 추출하고 역전사 효소를 사용하는 RT-PCR을 통하여 cDNA를 합성한다. DNA를 준비하는 것은 안정성 때문이기도 한데 이렇게 준비된 단일가닥 DNA(ssDNA)이 준비된 micro chip의 상보적인 염기서열과 혼성화(hybridization) 되는 원리를 기본으로 하고 있다.
Microarray과정은 크게 세 부분으로 나눌 수 있다.
- array를 만드는 과정
- sample에서 mRNA를 추출하여 microarray를 혼성화시키는 과정
- 스캐닝을 하여 정량화하고 분석 하는 과정
Microarray slide 한 장에 고정시킬 수 있는 cDNA의 수는 적게는 수백개에서 많게는 수 만개이다.
즉 Microarray를 통해서 수 만개의 유전자의 발현양상을 동시에 살펴볼 수 있다.
방법과 절차
- sample 준비 : control과 sample을 준비한다.
- RNA 분리 : 유전체로부터 전사된 전사체를 분리한다.
- cDNA 제작 (RT-PCR) : 만약 관심 대상이 mRNA라면 mRNA를 cDNA로 제작한다
이 때, control은 green, sample은 red 형광 dye로 표지한다. - dsDNA -> ssDNA : 이중가닥을 단일가닥으로 만들어준다. (혼성화를 위해서)
- Hybridization (혼성화) : 상보적 서열끼리 혼성화 시켜준다.
- fluorescence scan (형광 감지) : 표지된 형광을 감지하여 발현된 전사체를 확인한다.
- data 분석 : control과의 형광 세기 비교로 data를 분석한다.
초록색으로 표지된 곳은 대조군에서 발현되는 전사체이며
빨간색으로 표지된 곳은 sample에서 발현되는 전사체를 나타낸다.
만약 양쪽 모두에서 발현된다면, 두 가지 형광이 합쳐져 노랑색을 띠게 된다.
이러한 형광 정도를 컴퓨터를 이용하여 반정량적으로 분석하게 된다.
RNA 분리 -> 전기영동 -> PCR -> membrane으로 옮기기
- 100개의 유전자의 발현 여부를 한번에 알고 싶다.
- filter에다가 알고 있는 유전자를 심어 놓는다.
- 유전자를 Membrane에 붙인다.
- RNA를 cDNA로 바꾼 다음에 RNA를 표지를 해서 붙인 유전자에 붙인다.
- 검게 붙은 부위는 mRNA가 있었다는 뜻
100개 정도의 암과 관련된 유전자를 filter에다가 붙여본 것.
어떤 유전자가 얼마나 발현되는가를 본 것이다.
유전자들을 filter에 붙여놓고 세포에 달아논 동위원소를 본 것이므로 Reverse Nothern이라고 불린다.
첫번째 그림에서 특정한 부분에서 발현이 된 부분이 확인할 수 있다.
이를 통해 암을 유발하는 것과 관련돼 있을 것이다라고 추측 가능.
발현 수준 까지 판단할 수 있다.
이 것의 결과가 DNA chip 이다.
각각의 세포에서 발현된 양을 알 수 있다.
어떤 cDNA는 이런 패턴이 나오고 다른 cDNA는 저런 패턴이 나오는지 알 수 있다.
cDNA로 바꿔서 빨간색, 초록색으로 표지해서 붙인다.
시그널이 아예 없는 검정색은 양쪽에서 발현되지 않았다는 것이다 = 이 유전자의 전사체가 없다는 뜻
빨간색은 실험군에만 발현된 유전자고 초록색은 control에만 발현된 유전자이다. 발현량의 차이를 말해준다.
상대적 발현량을 이야기 할 수 있다. 세포에 발현돼서 존재하는 양에 따라서 최종적으로 발현정도를 말해준다.
DNA Chip 에다가 유전자를 붙이는 것도 있지만 Oligonucleotides를 붙이는 경우도 있다.
이때 Oligonucleotide는 특정유전자의 특정부위를 대표할 수 있다.
얼만큼의 크기로 해야 할까? 17mer 정도 -> 그래야 단 하나의 유전자를 대표하는 특이성을 가질 수 있다.
이 부분 다시 꼭 봐라.
서열을 보기 위해서 프라이머를 보기로 했는데 프라이머의 길이를 얼마로 할것이냐?
17MER 정도로 해야한다. 그러면 엄청나게 많은 노이즈가 생길 수 있다.
길이가 4개짜리를 올린다.
256가지가 가능하게 된다.
Combinatorial synthesis
2. Serial Analysis of Gene Expression (SAGE) 기법 : 유전자 발현 연속 분석
Microarray는 reverse northern 기법으로 쓰인다.
DNA chip에 붙인 개수만큼 발현량을 알 수 있다.
이제 SAGE 기법을 보자.
mRNA를 cDNA로 바꾼 다음 sequencing을 한다.
읽힌 횟수가 결국 특정 유전자의 상대적 발현량을 의미한다.
Signature sequence 를 만들어서 한번에 한다.
자기의 인지부위에서 내려가서 자른다.
모든 애들이 BamF1의 인식서열을 갖는 것은 아니다.
그래서 모든 애들에게 BamF1을 인식하는 linker를 붙인다.
각각의 염기서열을 읽은 다음에 genome 서열이 gene bank에 있으니까 어느 유전자에서 만들어진지 알 수 있다.
cDNA서열을 몇 번 읽었느냐에 따라 달려있다.
하나하나 cDNA서열을 읽는데 오래 걸리므로 각각의 RNA에서 20개씩만 떼내어서 20개씩 읽어버리자.
몇 번 읽었느냐가 각 조각이 대표하는 유전자의 전사체의 상대적인 발현양이다.
SAGE는 간단히 말해 mRNA를 추출한 후 적절히 잘라 하나의 긴 DNA로 합성한 후,
DNA 시퀀싱을 통해 읽어내며 유전자가 어떤 비율로 나타나는가를 알아보는 방법이다
(A)
우선 mRNA를 추출한다. 추출하는 방법은 설명 안 해도 되겠지? 비즈에 폴리 티민 태그를 붙여서 mRNA의 폴리 아데닌을 잡으면 된다.
그 후에 비즈에서 분리하지 않고 그대로 cDNA로 중합한다.
(B)
그 후에 제한 효소를 처리한다. 보통 NIaⅢ을 많이 쓰는거 같은데 이유는 모르겠다.
NIaⅢ은 점착 말단(Sticky end)를 형성하는 제한 효소이고, 점착 말단의 단일 사슬은 GTAC의 서열을 갖는다.
당연히 다양한 cDNA가 있으니 다양한 길이로 절단되었을 것이다.
(C)
이 후에, 각 cDNA에 어댑터를 부착한다. 어댑터에는 NIaⅢ 인식서열 뿐만 아니라 BsmFⅠ과 같은 2S형 제한 효소 인식서열도 존재한다.
2S형 제한 효소가 어떤 녀석인지 기억하는가? 인식한 서열을 그대로 자르는 것이 아니라 인식한 서열에서 항상 일정한 거리에 위치한 서열을 자른다.
BsmFⅠ의 인식서열은 5'-GGGAC-3'으로, 이 서열에서 10b 떨어진 하류 영역을 절단하고, 안티센스 DNA는 14b 떨어진 하류 영역을 절단한다.
그러니까 이런 식으로 절단된다는 뜻이며, 파란 부위를 표본으로써 추출할 수 있다.
Adaptor-5'-NNGGGACATGNNNNNNN NNNNNNAAA...AAA-3'
Adaptor-3'-NNCCCTGTACNNNNNNNNNNN NNTTT.....TTT-5'-Biotin-Avidine-Bead
즉, 어댑터를 붙인 후 BsmFⅠ을 이용하여 항상 일정한 길이의 표본을 얻을 수 있다. 당연히 BsmFⅠ를 처리하면 cDNA는 비즈에서 분리된다.
비즈에서 분리된 cDNA들은 점착 말단을 갖고 있는 상태이므로 중합 효소를 이용하여 채워준다.
(D)
그 후에 리가아제(Ligase)를 넣어주면, 어댑터가 붙은 쪽은 붙을 수가 없고 DNA가 노출된 평활말단(Blunt end)끼리 결합하게 된다.
그 다음 다시 NIaⅢ를 처리해주면 어댑터가 다시 분리된다.
(E)
그러면 이 재조합 표본 DNA의 양 끝에는 각각 상보적인 단일 사슬이 남게 되므로,
리가아제로 처리해주면 서로 연결하여 긴 길이의 DNA 세트를 얻을 수 있다.
(F)
이 DNA를 벡터에 넣어 클로닝 한 후, 시퀀싱을 하면
각 유전자가 어떤 비율로 나타나는가를 세어서 비교하면 정량적으로 유전자의 발현량을 계측할 수 있다.
그러나 일반적인 SAGE는 상류의 꽤 짧은 서열만 표본으로써 남기기 때문에 종종 유사한 서열들끼리 헷갈리는 경우가 생길 수 있다.
이 문제를 최소화하려면 표본으로 추출하는 서열의 길이를 길게 하면 될 것이다.
따라서 BsmFⅠ 대신에 MmeⅠ를 사용하는 긴(Long) SAGE와 EcoP151을 사용하는 수퍼(Super) SAGE가 있다.
(Mme는 21b 떨어진 하류 영역을 자르고, EcoP151은 27b 떨어진 하류 영역을 자른다)
하지만 이렇게 표본을 길게 뽑을 경우, 동정은 용이하나 하나의 벡터에 수용할 수 있는 DNA의 길이의 한계가 있으므로 많은 수의 벡터에 나누어 담아야 한다는 단점 역시 존재한다.
A. 모든 cDNA가 한 번 이상 잘라지게 하려면 제한효소를 써야한다.
4base pair가 유리하다. 확실하게 한번씩 자르게 하는게 더 유리하다
6base pair는 더 불리하다. 자를 확률이 더 줄어들기 때문이다.
마지막에 폴리에테르를 갖는 조각만 모은다.
모든 cDNA로부터 20개~25개를 고른다.
Nla lll = 4 base pair cutter
B. 마지막 조각의 끝에다가 linker를 붙이는데 제한효소 자리를 가지고 있다.
C. 모든 cDNA로부터 20개씩 떼낸다.
D. 자른 다음에 Ditag만 모아서 sequencing을 한다.
G. Tag를 통계처리해서 몇번 읽혔는지 상대적인 발현량을 분석할 수 있다.
3. RNA-seq
Proteomics
전사체가 있다고 해서 모든 유전자형을 알 순 없다.
그 유전자로부터 어떤 단백질이 만들어졌는지 확인할 수 있는 것은 프로테오믹스이다.
모든 단백질들을 분리해야 한다. 2차원적으로 분리해야 한다.
각각의 단백질을 걔들이 뭔지 알아내기 위해서 2가지 차원의 분석을 해야한다
1. PMF : 아미노산 서열을 분석하는 건 매우 어렵다. 그 단백질이 뭘까하고 유추하는 것
Finger printing 따로 공부하기
2. PST
'🧬 Bio > 유전공학' 카테고리의 다른 글
유전공학 12장 (3) (0) | 2020.05.21 |
---|---|
유전공학 12장 (2) - Proteomics (0) | 2020.05.18 |
유전공학 11장 - Studying gene expression and function (0) | 2020.05.04 |
유전공학 10장 - Next Generation Sequencing (2) (0) | 2020.04.27 |
유전공학 10장 - Next Generation Sequencing (0) | 2020.04.23 |