所属分类:生物信息学分析
联系电话:020-85625352
QQ:386244141
Email:servers@gzscbio.com
对于ChIP-seq实验,我们从比对文件中观察到的是链的不对称性,其中+/-链上的读取密度位于结合位点的中心。所选片段的5'末端将在正链和负链上形成基团。然后使用统计方法评估这些组的分布,并与背景(输入或模拟IP样本)进行比较,以确定富集位点是否可能是真实的结合位点。
MACS2,一个基于模型分析的,常用于ChIP-seq识别转录因子结合位点的工具。 MACS算法捕获基因组的复杂性的影响,以评估丰富的CHIP区域的意义。尽管它是为检测转录因子结合位点而开发的,但它也适用于较大的区域。
MACS通过结合测序标签位置和方向信息来提高结合位点的空间分辨率。MACS可以轻松地单独用于ChIP样品,也可以与增加峰值调用特异性的对照样品一起使用。MACS工作流程如下所示。
真实结合位点周围的标签密度应显示双峰富集模式(或成对的峰)。MACS利用这种双峰模式来对移动大小进行经验建模,以更好地定位精确的结合位点。
为了找到配对峰以建立模型,MACS首先扫描整个数据集,以寻找高度重要的富集区域。仅使用ChIP示例即可完成!给定超声处理的大小(bandwidth)和高置信度的折叠富集(mfold),MACS会bandwidth在基因组上滑动两个窗口,以找到具有相对于随机标签基因组分布而言富集程度更高的标签的mfold区域。
MACS随机采样这些高质量峰中的1,000个,分离其正链和负链标签,并按其中心之间的中点对齐它们。的在对准的两个峰的模式之间的距离被定义为“d”和表示所估计的片段长度。MACS将所有标签朝着3'末端移动d / 2到最可能的蛋白质-DNA相互作用位点。
为了从标签数计算λBG,MAC2需要有效的基因组大小或可映射的基因组大小。可映射性与基因组中特定位置的k聚体的独特性有关。低复杂度和重复区域的唯一性较低,这意味着可映射性较低。因此,我们需要提供有效的基因组长度,以纠正低映射区域中真实信号的丢失。
MACS将每个标签移动 d / 2 后,它会使用2d的窗口大小在基因组中滑动以找到候选峰。沿着基因组的标签分布可以通过泊松分布来建模。泊松是一个参数模型,其中参数λ是该窗口中预期的读取次数。
.narrowPeak
是 BED 6 + 4 格式,表示标准BED文件的前6列以及4个其他字段: