생물학

Hi-C란? (개념, 실험적 단계, 분석적 단계, 분석 원리, 데이터 해석)

studybiodata 2024. 9. 27. 17:01
반응형

 

1.  Hi-C란? 

  • Hi-C 는 chromatin conformation(크로마틴의 형태)를 포착(capture)하기 위한 기술을 의미한다.
    • cf) 3C: chromatin conformation capture의 약칭이다.
    • cf) DNA가 구부러지듯이 promoter와 enhancer가 상호작용 하는 경우를 생각해보자. 3C 기술은 이와 같은 선형적인 염기서열에서는 멀리 떨어져 있는 부위지만 공간 상으로 가까이 위치하게 되어 두 부위가 얼마나 interaction을 하고 있는지, 그  강도를 정량화 할 수 있는 기술이다.
  • Hi-C는 NGS와 3C의 접근 방식을 결합하여 게놈 전반에 해당하는 크로마틴 상호 작용을 종합적으로 감지할 수 있는 기술이다.

2.  Hi-C 실험의 일반적 단계

  • 1) 포름알데이드를 통한 crosslinking
  • 2) DNA fragmentation (제한효소, DNase, MNase 등 사용)
    • MNase fragmentation이 이용되는 Hi-C기술을 Micro-C 기술이라 한다. 
  • 3) DNA ligation 
  • 4) NGS library 생성

3.  Hi-C 데이터 분석

    • 1) 시퀀싱으로 생성된 FASTQ 파일을 참조 게놈에 정렬한다. 이때 주로 사용하는 툴로 bowtie, bwa 등이 있다.
      • 정렬(mapping) 전략 ? (Iterative mapping):
        • Hi-C 분석에서 ‘접합 부위(Ligation junction)’를 정확히 측정할 수 없기 때문에,어디서부터 어디까지가 연결된 건지를 직접 찾아내는 게 쉽지 않다.
        • 왜냐하면, 실험적 단계에서  DNA의 멀리 떨어진 두 부분이 물리적으로 연결되기 때문이다. 예를 들어, Hi-C 실험을 통해 ligation이 된 300bp 길이의 DNA가 있고, 이때, 그 DNA의 중앙에 ‘접합 부위(Ligation junction)’이 있다고 가정해보자. 그런 다음 50bp Paired End sequencing을 할 때 양쪽 끝에서 50bp 정도만 읽고, 중앙에 있는 200bp는 아예 읽히지 않는다. 이렇게 되면 접합 부위가 정확히 어디에 있는지 모르지만, 양쪽 끝에서 읽힌 정보로 DNA가 어디서 왔는지 알아낼 수 있게 된다.
        • 따라서 그래서 접합 부위(Ligation junction)를 찾으려고 하는 대신, ‘iterative mapping’이라는 전략을 취한다.
        • 반복 정렬 (iterative mapping) : 이 방법은 첫 단계에서 read의 끝 25bp의 짧은 부분만 분석해보고, 그게 DNA의 위치를 정확히 특정하여 맵핑 되지 않는 경우, 5bp를 더 추가하여 30bp의 부분을 정렬한다. 이 과정을 계속 반복하는 방식으로, 그 DNA 조각이 정확히 어디에 속하는지 알 수 있을 때까지 계속 길이를 늘려간다. 결론적으로, 이렇게 해서 DNA의 양쪽 끝 부분이 모두 정확히 어디에 속하는지 알아낼 수 있을 때만 그 데이터를 사용하고, 그렇지 않으면 그 데이터는 버려지게 된다.
    • 2) Fragment assignment
      • 맵핑된 위치는 참조서열에 맵핑된 리드의 5’ 끝을 기준으로 할당이 된다. 
    • 3) Fragment filtering
      • Multiple mapping (다중 맵핑), PCR duplicates (PCR 중복)를 제거하여,  데이터를 더 정확하게 만든다. 
    • 4) Binning / Bin-level filtering
      • 40 kb to 1 Mb 등(Hi-C 종류에 따라 저 fine한 bin도 가능)의 고정된 게놈의 구간에 그 구간에 속하는 fragments를 넣는다.
      • bin size를 크게 설정할수록 해상도는 떨어지며, 즉, 더 세밀하게 상호작용을 분석할 수 없다는 단점이 있다. 
      • 5) Bin level filtering
        • Bin-level filtering: DNA 상호작용이 일어나는 구간(bins)을 사용하는데, 이 구간들을 걸러내는 과정
        • 텔로미어(염색체 끝부분)나 센트로미어(염색체 중간의 반복적인 구조)처럼 반복적인 DNA 서열이 많은 곳은 분석에 방해가 되기 때문에 제거
        • low-coverage 구간 역시도 상호작용이 적은 구간을 찾아내서 제거(전체 구간 상호작용 수가 로그-정규분포를 따르는 경우, 평균보다 세 표준편차 정도 낮은 구간이 low-coverage 구간)
        • 이렇게 걸러낸 후 남은 Hi-C 데이터는 대칭 행렬(symmetric matrix) 형식으로 저장하며, 이 행렬은 구간끼리의 상호작용을 나타내는 일종의 표 같은 것으로 이해할 수 있다.
      • 6) balancing
        • interaction 횟수를 다시 보정하여 데이터를 더욱 정확하게 만든다. 
        • GC 함량, 개별 DNA 조각의 길이 등 각 Bias에 대한 ㅂ정 계수들을 계산하여, 각 bin의 상호작용 횟수에 적용해 데이터를 수정할 수 있다.
        • 이 밖의, DNA 구간에서 상호작용 신호의 총합이 같아야 한다는 가정하에,Iterative correction (반복 보정)을 취할 수 있다. Sinkhorn–Knopp 알고리즘이라는 수학적 알고리즘이 이용될 수 있고,  대칭 행렬에서 각 행과 열의 합이 같아지도록 계속 조정해주는 역할을 한다.
    •  
  •  

4.  데이터 해석

          • 1) Cis/Trans 상호작용 비율: 일반적으로 trans보다 cis 상호작용의 빈도가 더 높으며, 고품질의 Cis/Trans 상호작용의 비율은 40-60 이다.
            • Cis 상호작용: 동일한 염색체에 있는 두 부위에 대한 상호작용
            • Trans 상호작용: 다른 염색체에 있는 두 부위에 대한 상호작용
          • 2) 거리에 따른 상호작용 빈도
            • DNA 두 부위에 대한 거리가 더 멀어질수록 상호작용의 빈도가 점진적으로 낮아진다.
          • 3) 크로마틴 구획(chromatin compartments)
            • 상호작용 매트릭스에서 크기가 1~10Mb인 블록이 번갈아가며 나타나는 크로마틴의 구획 패턴(체크무늬 패턴)
            • 2가지 종류의 크로마틴 구획은  PCA분석을 통해 Lieberman-Aiden 등이 2009년에 처음 확립하였고, 활성(A, active) 및 비활성(B,inactive) 크로마틴으로 나뉜다. 많은 연구에 따르면 크로마틴 구획(chromatin compartments)은 DNA 접근성, histone marks와 같은 크로마틴 상태와 상관 관계가 있다. 따라서 compartment A는 euchromatin, B는 heterochrmatin을 나타낸다. 
          • 4) 위상적으로 연관되는 도메인(TAD, topologically associating domains )   
            • promoter-enhancer와 같은 보통 1Mb보다 작은 크기의 구조
            • 유전체의 고정된 구조를 의미하는 것이 아닌, 루프 형성과 같은 동적인 패턴을 의미
            • TAD 내의 상호작용 빈도가 TAD 외부나 인접한 영역들 사이의 상호작용 빈도보다 훨씬 높게 나타난다.
          • 5) 포인트 상호작용(point interaction)    
            • 생물학적으로 조절 상호작용은 TAD보다 훨씬 작은 규모인 1kb와 같은 짧은 거리 내에서 두 부위가 상호작용하여 유전자의 발현을 활성화/억제한다.
            • 유전체의 고정된 구조를 의미하는 것이 아닌, 루프 형성과 같은 동적인 패턴을 의미
            • TAD 내의 상호작용 빈도가 TAD 외부나 인접한 영역들 사이의 상호작용 빈도보다 훨씬 높게 나타난다.

5. 참고문헌

 

반응형

'생물학' 카테고리의 다른 글

[생물학] TGF beta signaling pathway 에 대한 정리  (2) 2024.10.22