生物帮旗下:生物产品通--生命科学科研用户的采购平台

安诺优达基因科技(北京)有限公司

基因组学技术和产业

产品分类
联系方式
  • 安诺优达基因科技(北京)有限公司
  • 联系人: annoroad
  • 电话:010-56315326
  • 传真:010-56315338
站内搜索
 
您当前的位置:首页 » 新闻中心 » 如何获得高质量Hi-C数据?资深大神告诉你答案~
新闻中心
如何获得高质量Hi-C数据?资深大神告诉你答案~
发布时间:2017-12-15        浏览次数:324        返回列表

 

 

不同Hi-C实验方法与染色质内数据比例

 

2009年Erez Lieberman-Aiden在3C技术的基础上创造性地在酶切片段粘性末端添加生物素,使嵌合片段能被链亲和素特异性富集开发了第一代 dilution Hi-C技术[1]。该技术与二代测序完美结合,解决了5C在全基因组水平构象数据量瓶颈的问题,使得在全局范围内研究三维结构成为可能。

 

1.jpg

图1 Hi-C实验原理

 

 

早期研究认为去垢剂SDS在对交联的细胞核进行处理时,低浓度的SDS(0.3%-1% SDS)加热到65℃会导致细胞核碎裂,基因组的DNA会释放到溶液中。因此在dilution Hi-C的酶连反应体系中,作者选用了近8ml 的大连接体系。随后4C研发人员通过用显微镜观测SDS处理细胞核,发现细胞核仍然维持在一个较为稳定的结构。在共聚焦显微镜下观察,利用1% SDS处理细胞核,会导致细胞核的通透性发生改变,但很少细胞核发生裂解。

 

另一个影响交联反应的因素是温度,通常认为65℃以上,在有NaCl存在的情况下,甲醛交联的DNA会发生解交联现象,从而影响染色质构象的稳定。在第一版本的Hi-C选用了65℃ 1% SDS处理细胞核10min,从最终的数据看染色质间的互作数据高达27.1%-65.3%。通常认为染色质是独立折叠定位在细胞核中形成染色质领域的,因此染色质间的数据通常会认为是无效数据(bais)。

直到2012年Chen Lin实验室意识到细胞核的扰动会影响到染色质的高级构象,因此他们在Hi-C实验的基础上,将生物素标记在蛋白上,将反应体系固定在磁珠上,使得反应体系扰动更小,更稳定[2] ,同时DNA-蛋白复合物限定在一个相对独立的区域进行反应,减少了分子间的互作概率,实验结果表明该方法可显著降低染色质之间互作数据占总体数据的比例。

1513329850271626.jpg

图2 TCC实验原理

2014年EreZ对Hi-C的实验进行了进一步的改进[3],他们在SDS处理细胞核的步骤选用了更温和的0.5% SDS 62℃处理5-10min,而细胞连接的体系也降低到1ml,值得一提的是他们在文章中尝试了未交联的Hi-C实验。发现除噪音增加外,可获得与正常Hi-C相似的热图。

In situ Hi-C的改进使得染色质间的互作数据进一步降低,实测数据显示Trans-interaction占valid pair的比例在20%左右。

在2015年,又有研究将SDS的处理条件更换成37℃ 60min,他们认为该方法可以更大程度维持细胞核的稳定性,提高intra/inter数据的比例[4]

表1 in solution Hi-C与 in nucleus Hi-C数据比较

1513329868213372.jpg

随着对Hi-C数据的进一步认识,研究人员发现一些超近距离的连接(<20Kb的数据)可能并不是有意义的由蛋白介导的空间上靠近的互作,而可能是线性距离较近引起的随机连接,因此引入了这一参数来评判数据的质量。

为更好地去除随机连接导致的bais,有研究利用统计模型认为三片段的连接可减少随机连接的可能性,因此他们采用了类似于ChIA-PET的方法,在连接反应过程中,添加一个带有生物素的bridge-linker[5],通过富集带有linker的嵌合片段,来改善实验中存在的随机连接可能性。作者自测的结果表明,添加linker后染色质内的互作比例比in situ Hi-C和HiChIP都有显著改善。

p 

1513329884446450.jpg

图3 BL-HiC实验原理图

除了cis/tran作为评判Hi-C数据的质量以外,Hi-C数据中还存在大量的无效数据,它们的存在会影响数据的有效利用率,以下篇幅将逐一进行介绍。

 

 

 

Hi-C文库质控及过滤

 

 

 

为了更好地理解Hi-C数据,在此我们简要介绍下基于illumina平台的二代测序文库。

 

1513329899210968.jpg

图4 二代测序文库建库示意图

在标准的二代文库中,DNA片段通过末端补平加A,再添加adapters。此时reads的两侧各带发卡结构P5/P7的测序接头,为了获取足够上机的DNA文库,通常还需要进行一轮扩增,扩增后的文库两端各带一种测序接头。

 

1513329912928187.png

图5 桥式PCR

在pool DNA到芯片上时,文库片段首先anneal在芯片的测序接头上,然后用DNA聚合酶进行扩增,DNA生长在芯片上;经过25-28轮的扩增,每条reads被扩增至数以千计的拷贝,利用添加可逆的终止子来检测碱基的组成。通过150轮添加可逆终止子并采集信号即可完成测序。

由于DNA聚合酶的自身的偏性,GC含量相对合适的片段及小片段更容易在芯片生长阶段得到富集。小片段(<150nt)在测序过程中,由于两端各读取150个碱基,就极可能将DNA插入片段读通,从而这部分的DNA就可能被检测到adapter污染。

 1513329932283977.jpg

图6 测序read示意图

Hi-C标准文库是标准的Chimera结构,在将两端序列进行比对到基因组上时,理论上两侧pair ends可以分别比对到基因组的两个座位。由于DNA在碎片化过程中,剪切是随机的,因此酶切位点末端补平形成的junction fragment很可能分布在一侧的reads中,常规的比对分析是很难处理chimera的。在HiC-Pro[6]和HiCUP[7]软件中,他们会去识别理论的junction  fragment。如HiC-Pro在比对时先进行Global Mapping,后将unmapping的reads用junction fragment序列进行识别并切割,再进行local mapping,最终将数据进行合并。

1513329948931955.jpg

图7 HiC-Pro的两种比对策略

在实际比对中,即使采用两步比对方式,仍有可能是只有一端序列能比对到基因组中,另外一端无法识别到基因组中,这种情况我们将其归类为Singleton。它产生的原因可能有①adapter污染(先前数据没进行过滤);②另一侧数据质量较差,多数为N的区域;③DNA片段被降解或酶切反应产生星号活性。同时片段过短,150碱基已经读通了生物素标记的位点,但是该位点不是正常的junction fragment。在植物样本中,singleton较为常见,可能与细胞壁破碎不完全,部分细胞质成分进入到反应体系影响酶切有关。

有些植物的基因组存在大量的重复序列,如玉米中85%的序列被认为是重复序列。这对要求两端都要唯一比对的Hi-C而言是巨大的挑战,一旦有一段比对到两个或两个以上的位点,该reads就将被归类到Multiple mapped reads中。

如果在比对过程中,global mapping 和 local mapping均无法将序列识别到特定的位点,这种序列会被归类到Unmapped reads。它可能产生的原因是基因组的组装完整度较差,基因组中存在大量的gap无法识别,被填充为NNNNN。另一个原因是酶切片段较碎,多个酶切片段连接在一起,无法识别到特定座位。

如果两侧数据都能比对到基因组的数据会被统一认为是Unique mapped reads,此时对于动物基因组,unique mapped reads 占测序量(clean reads)50%以上应是可接受的范围。对于植物样本,尤其是重复序列较多的样本,unique mapped reads 比例可能会急剧降低。

在获取unique mapped reads后,要进行进一步过滤,以识别真正有效的interaction reads。

1513329966348785.jpg

图8 三种比对过程识别的无效数据

根据Hi-C实验的基本原理PLA(proximity ligation assay)可发现,空间上相互靠近的片段更有机会被连接在一起。因此只有两个来源不同的片段连接在一起才会被认为是标准的文库片段。而这片段是指利用限制性内切酶酶切的Fragments,即唯有两个片段能分别比对到两个不同的酶切片段上,且实际片段(observe)符合理论的片段大小,在分析是才会将其归类到valid pairs中。

 

1513329983778230.png1513330021493791.png

图9 Hi-C数据过滤

因此在分析过程中会将部分无效的数据进行过滤,首先是如果两个片段原本通过一个酶切位点连接在一起,在Hi-C文库中如果该片段即使酶切后添加生物素仍然连接在一起,该片段会被归类到Re-ligation reads中;而如果两个的reads比对到同一个fragment,但是方向相反,则该reads会被认为是首尾相连形成了Self-circle ;如果pair end 同时比对到一个酶切片段上,则该片段会被认为是Dangling ends;如果有一个发现是adapter污染,该reads会被认为是Adapter polluted;如果两侧的end均能比对到基因组的两个酶切片段中,但是观测到的片段大小与理论的片段大小不一致,则该片段会认为是错误连接而被归类为Dumped reads;只有比对到两个酶切片段且片段的理论值等于实际值的reads,才会被认为是Valid pair reads

 

 

DanglingEnds与Dumpedreads 原因分析

 

 

 

 

Dangling ends

Dangling ends 主要来源于两部分,①经DNA连接酶连接反应后,携带生物素的DNA片段末端并未形成嵌合片段,在末端生物素切割的(klenow)时又未将末端的生物素去除,从而进入到最终的文库中;②磁珠洗脱步骤未完全将非特异性结合的DNA洗脱下来。有文章报道,只有将Dangling Ends的比例控制在10-45%以下才会被认为是成功的Hi-C文库[8]

 

Dump

Dump的主要原因在于酶的星号活性导致切割位点不在经典的位点,这有可能是酶切时间过长或反应体系中盐离子浓度和种类不合适导致的;另外一个原因是片段被DNA外切酶降解,使得片段的大小发生了改变。


获得了interaction reads后,要去除文库中完全一样的reads,因为这部分可能是由于PCR扩增导致的Duplication,去除Duplication后,Valid pairs数据可用于后续的滑bin统计分析了。

 

参考文献

[1]Science, 2009, 326(5950): 289-293.

[2]Nature biotechnology, 2012, 30(1): 90-98.

[3]Cell, 2014, 159(7): 1665-1680.

[4] Genome biology, 2015, 16(1): 175.

[5] Nature communications, 2017, 8(1): 1622.

[6]Genome biology, 2015, 16(1): 259.

[7] F1000Research, 2015, 4.

[8]Methods, 2012, 58(3): 268-276.

[9]Cell, 2017, 170(2): 367-381. e20.

 

文章来源:三维基因组Magic

留言

X