분자생물학 (13) - 진핵세포의 전사
2020. 11. 26. 22:44
🧬 Bio/분자생물학
mRNA - Pol ll 우선은 가장 잘 알려진 mRNA의 전사에 대해 살펴보도록 하자. mRNA는 누가 담당한다? 제 2형 RNA 중합효소(Pol ll)가 담당한다. 진핵생물의 프로모터(Promoter)로 가장 잘 알려진 것은 TATA 박스(TATA box)라 불리는 염기 서열 부위다. 그러나 RNA 중합효소가 스스로 프로모터를 인식하여 결합하지는 못한다. DNA 복제와 비슷하게 RNA 전사 과정에서도 프로모터에 결합하는 여러 전사 조절 단백질들이 복합체를 형성해야 한다. 시험관 조건(In vitro)에서는 DNA 주형에 RNA 중합효소와 프로모터에 관여하는 몇몇 보편 전사인자(GTF, General transcription factor)를 넣어주게 되면 전사가 일어난다. 그러나 실제 생리적 조건(In..
분자생물학 (13) - 전사기작
2020. 11. 25. 21:26
🧬 Bio/분자생물학
RNA 중합효소 이제 RNA에 대해 다루게 된다. 앞에서 DNA의 복제에 대해 알아보았으니 여기에선 RNA 전사에 대해 살펴보게 될 것이다. RNA의 전사는 RNA 중합효소(RNA polymerase)에 의해 일어나는데, DNA 중합효소(DNA polymerase)와 기능적으로 상당히 유사하다. 이 둘은 모두 하나의 주형(Template)을 바탕으로 하여 상보적인 (리보)뉴클레오티드를 차례차례 연결하여 긴 사슬을 형성한다. 마찬가지로 이 둘은 진행성이 높은 효소이며, 연속적인 중합이 일어나지만 혹시라도 잘못된 중합이 일어났을 경우 자체적으로 수선도 가능하다. RNA 중합효소의 진행성 다만 RNA 중합효소의 진행성은 DNA 중합효소에 비하면 많이 떨어지는 편이며, 정확도 역시 DNA 중합효소가 훨씬 더 높..
RPKM, FPKM, TPM
2020. 11. 15. 13:17
🧬 Bio/생명정보학
시퀀싱을 하고 난 다음 발현량의 단위로 RPKM 또는 FPKM 을 쓰는 것을 못 본 사람은 없겠죠. 근데 이 둘 이 뭔 공통점이 있는지 차이점이 있는지 도통 잘 모르겠고요? 이건, 쉽게 말하면 normalization method 중 하나 입니다. 서로 다른 샘플의 유전자 발현량을 비교하려면 그 샘플 속의 세포 또는 rna의 양이 같아야겠죠?? 하지만 똑같이 rna를 뽑고 시퀀서에 돌리 수는 없으니까 상대 값을 이용해 발현양을 표시해야합니다. 네 철자 밖에 안되는 이 이름을 사자성어 풀이 하듯이 쪼개 볼까요. RPKM R(Reads) : Reads mapped in a gene / total reads P(per) K(Kilobase per) : 1,000bp / gene length M(Millions..
R (17) - Support Vector Machine (SVM)
2020. 11. 13. 21:56
📌 R
Support Vector Machine SVM의 매력은 매우 아름답고 탄탄한 이론적인 배경을 바탕으로 정교하게 고안된 기계학습 알고리즘이라는 것에 있습니다. 여기에 알고리즘의 실제 적용이 여러 모로 쉽고 성능이 강력하며 따라서 실전적이라는 점이 그 매력을 더합니다. SVM에서 풀고자 하는 문제는 다음과 같습니다. "How do we divide the space with decision boundaries?" 예시와 함께 보면 좀 더 구체적으로 문제를 좁힐 수 있습니다: 우리가 ′+′ 샘플과 ′−′ 샘플을 구별하고 싶다면 어떤 식으로 나눠야 하는가? 만약 선을 그어 그 사이를 나눈다면 어떤 선이어야 할 것인가? 가장 쉽게 그리고 직관적으로 생각할 수 있는 답은 아마도 ′+′와 ′−′ 샘플 사이의 거리를..
R (16) - 랜덤 포리스트
2020. 11. 13. 20:55
📌 R
랜덤 포리스트 Decision Tree는 overfitting될 가능성이 높다는 약점을 가지고 있습니다. 가지치기를 통해 트리의 최대 높이를 설정해 줄 수 있지만 이로써는 overfitting을 충분히 해결할 수 없습니다. 그러므로 좀더 일반화된 트리를 만드는 방법을 생각해야합니다. 이는 Random Forest(랜덤 포레스트)의 기원이 되는 아이디어입니다. Random forest는 ensemble(앙상블) machine learning 모델입니다. 여러개의 decision tree를 형성하고 새로운 데이터 포인트를 각 트리에 동시에 통과시키며, 각 트리가 분류한 결과에서 투표를 실시하여 가장 많이 득표한 결과를 최종 분류 결과로 선택합니다. 랜덤 포레스트가 생성한 일부 트리는 overfitting될 ..
R (15) - 회귀, 결정트리
2020. 11. 6. 16:02
📌 R
회귀 & 분류 분류(Classification)와 회귀(Regression)는 지도학습(Supervised Learning)의 목적이라 할 수 있다. - 지도학습 : 입력과 출력 데이터(훈련 데이터)가 있고 이를 모델화하여 새로운 데이터에 대해 정확한 출력을 예측하는 것 분류와 회귀는 어떻게 다른가 분류 : 결과가 이산값 회귀 : 결과가 연속값 분류 (Classification) 분류는 class를 예측하는 것이다. (세부적으로는 다중분류) 어떤 text를 입력했을 때, 그것이 어떤 class에 속하는지 예측하는 것이다. 이제는 hot하다고 말하기에는 너무 큰 흐름이 되어 버린 Deep Learning, 특히 CNN 에서 Tutorial 처럼 언급되는 개/고양이 이미지 예측 문제와 같은 것들이다. 즉, ..
R (14) - 일반화 선형 모델, 로지스틱 회귀
2020. 11. 6. 08:37
📌 R
일반화 선형모형(Generalized Linear Model) 회귀분석이나 분산분석은 종속변수가 정규분포되어 있는 연속형 변수이다. 하지만 많은 경우에 있어서 종속변수가 정규분포되어 있다는 가정을 할 수 없는 경우도 있으며 범주형 변수가 종속변수인 경우도 있다. 다음과 같은 경우에 일반화 선형모형을 사용한다. 종속변수가 범주형변수인 경우 : 이항변수( 0 또는 1, 합격/불합격, 사망.생존 등)인 경우도 있으며 다항변수(예를 들어 poor/good/excellent 또는 공화당/민주당/무소속 등)인 경우 정규분포 하지 않는다. 종속변수가 count(예를 들면 한 주간 교통사고 발생 건수, 하루에 마시는 물이 몇잔인지 등)인 경우. 이들 값은 매우 제한적이며 음수가 되지 않고 평균과 분산이 밀접하게 관련되..
R (13) - 모델링
2020. 10. 27. 16:29
📌 R
모델링과 예측 모델 = 수학식 모델을 이용하여 예측을 할 수 있다. 훈련 집합 : 주어진 데이터 독립 변수 : 설명 변수 종속 변수 : 반응 변수 모델링 = 훈련 집합을 이용하여 최적의 모델을 찾아내는 과정 모델 선택 모델을 가지게 되면 x값이 어떤 값이 오던지 y값을 예측할 수 있다. 모델을 완성하면 무엇을 해야할까? 모델의 품질 평가 평균 제곱 오차(MSE, Mean Squared Error) 평균 제곱 오차 평균 제곱 오차는 작을수록 좋다. 모델 적합 모델피팅을 하기위해서 데이터 입력을 한다. m이라는 변수에 모델 피팅을 한다. lm 이라는 함수에 반응변수와 설명변수를 입력해준다. m을 출력하면 학습된 모델이 출력된다. 모델 m에 해당하는 직선의 매개변수가 출력된다. 최적의 모델을 구할 수 있게 된..
R (12) - 워드클라우드
2020. 10. 15. 21:57
📌 R
JRE 설치 한글 워드클라우드를 사용하기 위해서는 JRE를 설치해야 한다. JRE = 자바 실행 환경 워드클라우드 문서 파일 준비 주의할점 : 마지막 문장에서 Enter 치고 끝내야 한다. 인코딩을 UTF-8로 하고 저장해야한다. KONLP 패키지 설치하기 Korea Natural Language Process = 자연어 처리 명사 추출하기 text 데이터에서 명사를 추출해서 noun에 저장 빈도수 높은 단어 막대그래프로 작성하기 워드클라우드 작성하기 random.oredr=F : 빈도가 높은 단어는 가운데에 배치. 만약 T이면 단어를 무작위로 배치 rot.per=.1 : 세로방향의 단어의 배치 비율 colors = 단어의 색 names(wordcount) freq=wordcount scale=c(6, ..
R (11) - 구글맵
2020. 10. 15. 17:30
📌 R
Application programming interface 를 통해 ggmap을 이용해보자. R 최신 버전으로 업데이트하기 ggmap 패키지 설치하기 API 키를 복사해서 저장해놔야 한다. 예제1) 서울시 종로구 근방 지도 보기 register_google(key='구글 API 키') geocode : 지명을 경도와 위도로 바꾼다. enc2utf8("한글") : 한글 포맷을 utf8 포맷으로 바꾸어준다. gc에는 경도와 위도가 들어간다. gc를 벡터타입으로 변경을 해서 cen 변수에 넣어준다. center=cen : 지도의 중심을 cen으로 하겠다는 것 그것을 매개변수로 하여 지도를 가지고 온다. center zoom size maptype geocode : 설악산의 지도를 보기 위해서 한글 인코딩을 ..
분자생물학 10장 (2) - DNA 손상
2020. 10. 15. 16:23
🧬 Bio/분자생물학
DNA 손상 자발적 돌연변이 외부에서 특별한 돌연변이 유발원인 발암물질들에 의한 노출에 의해서 유도되는 돌연변이 DNA는 가수분해와 탈아미노화로 자연적인 손상이 일어난다. 1) 자발적 돌연변이 물분자와 접촉하고 있어서 가수분해가 돼서 염기의 어떤 그룹이 떨어져 나가게 된다. Ex) 아미노기가 떨어짐 Deamination : 탈아미노기 시토신 염기의 탈아미노화가 가장 빈번한 가수분해에 의한 손상이다. 시토신(C)은 자연적인 탈아미노화가 일어나 DNA에 비정상 염기인 우라실(U)를 형성한다. 그러면 복제시 아데닌(A)을 들어오게 한다. Depurination : 탈퓨린화 자연적 가수분해에 의해 탈퓨린화가 일어나면 DNA에 염기가 없는 것이 생기게 된다. c. C가 U로 되면 DNA의 U를 발견할 때마다 DN..
R (10) - ggplot2
2020. 10. 14. 22:00
📌 R
ggplot2 aes(가로축, 세로축) geom_point 아무런 옵션을 주지 않으면 위로 쌓인다. 대륙을 기반으로 나눠진다. 옆으로 나란히 그리고 싶다면 position=dodge 옵션을 추가한다. geom_boxplot geom_histogram scale_x_log10 coord_flip 가로축 세로축 바꾸기 scale_fill_brewer 팔레트를 사용해서 칼라를 사용한다. RColorBrewer 라이브러리 이용 쿠웨이트 관찰 데이터 가공시간을 줄일 수 있고 데이터를 직관적으로 파악한 뒤에 어떠한 관점으로 분석할 것인지 파악할 수 있어서 데이터를 시각화한다.
분자생물학 10장 (1) - 돌연변이와 mismatch repair
2020. 10. 11. 22:38
🧬 Bio/분자생물학
돌연변이의 성질 염기전이 (transition) : T-> C or A->G 염기교차 (transversion) : T -> G,A or A->C,T 이런 광범위한 DNA의 손상은 transposition에 의한 것이다. 돌연변이가 특히 잘 일어나는 한 부루의 서열이 있다. 단순한 2~4개의 뉴클레오티드 서열의 반복으로 DNA microsatellite 라고 부른다. Mutational hot spot : 자연상태의 돌연변이 비율 돌연변이율 보다 더 높은 비율로 나타날 수 있다. 미세반복서열(STR) 짧은 반복 서열이 늘어나거나 줄어들 수 있다. 염기서열 자체가 변하는게 아니라 반복 횟수의 변화가 생긴다. 개개인마다 이런 반복 수가 다를 수 있다. 어떤 복제 실수는 교정을 회피한다. 실수를 하지만 자기가..
분자생물학 9장 (4) - 텔로미어
2020. 10. 11. 22:07
🧬 Bio/분자생물학
Topoisomerase ll 는 딸 DNA 분자를 분리하는 데 필요하다. 염색체는 크게 2가지 형태이다. 대장균과 같은 Circular DNA 이다. 환형 DNA의 문제점은 복제하고 나서 고리로 엮이게 되는 것이다. 이 엮인 고리는 Topoisomerase ll 가 딸분자를 푼다. Topoisomerase ll 는 이중가닥 DNA 분자를 절단해 이 절단된 틈으로 다른 이중가닥 DNA를 통과시키는 능력이 있다. 선형 염색체의 말단에서는 지체가닥 합성이 불가능하다. 선형 DNA는 고리로 엮이지는 않는다. 헬리카아제가 복제분기점을 계속 풀면서 선도가닥은 쭉 풀지만 지체가닥은 계속 복제되면서 마지막 오카자키 조각의 맨 끝을 DNA로 채울 수 없다. 원래 뒤에 가닥의 3’에 붙여서 채웠지만 그럴 수가 없어서 점..
분자생물학 9장 (3) - Sliding clamp, Clamp loader, DNA pol 3, Replisome
2020. 10. 10. 17:32
🧬 Bio/분자생물학
짧은 RNA 조각을 합성하는 Primase Primase는 Pol 알파와 결합돼서 프라이머를 만든다. 그리고 Pol 델타와 앱실론으로 교체되면서 진정한 DNA가 만들어진다. Sliding clamp가 고정을 시켜줘야 이탈되지 않으면서 DNA 복제의 연속성을 가진다. Sliding clamp는 Pol 델타와 앱실론에 결합한다. 활주 클램프는 DNA 중합효소의 진행성을 크게 증가시킨다. 복제분기점에서 진행성이 높으면 염색체의 복제는 신속히 이루어진다. 신속하게 이루어지는 이유는 DNA 중합효소가 Sliding DNA clamp(활주 클램프)라는 단백질과 결합하기 때문이다. Sliding clamp는 DNA 중합효소의 진행성을 크게 증가시킨다. 앞으로 계속 복제되어야 될 부분이 있는 상황에서 친화도가 높다. ..