跳转至

Faq

如何选择限制性内切酶

为了获得最佳的组装与分型(Scaffolding & Phasing)效果,我们对不同测序技术的数据类型推荐如下: - 基于长读长的技术(如 Pore-C 或 CiFi): 推荐使用 4 碱基限制性内切酶(如 DpnII、MboI, 甚至NlaIII),而不是 6 碱基酶(如 HindIII)。因为 4 碱基酶的酶切位点分布更密集,可以在单条长读长序列(Read)上生成大量较短的 DNA 片段,从而捕获更丰富、更高阶的多体物理互作(High-order contacts)。

  • 基于短读长的技术(普通 Hi-C): 推荐优先级为:Omni-C > 多酶切位点 Hi-C(如 Arima) > 传统单酶切 Hi-C
    • Omni-C 使用 DNase I 进行随机序列切割,覆盖度极其均匀,能消除基于限制性内切酶带来的序列偏好性和覆盖盲区。
    • Arima 多酶切位点方案 则能显著高于单酶切方案的位点密度,有利于多倍体及复杂基因组中高难度区域的精确破译。

第一轮分组的结果不好:

在我们的两轮聚类算法中,第一轮聚类依赖于同源染色体之间比对错误;如果用户输入低水平Switch error的contigs或输入高精度的Pore-c数据,h-trans将不足以支撑将来自同源染色体的contig聚到一起,这容易导致结果不理想。用户可以为hyperpartitionpipeline设置-q1 0以增加h-trans错误率。但是,当您在porec.gz或pairs.gz中输入大量的互作数据时,此参数可能会引发内存不足的错误。

挂载上的染色体总大小远低于预估基因组大小

如果存在以下两种情况,可以通过调整 cphasing pipeline的模式至敏感(--preset sensitive)或者超敏感(--preset very-sensitive) 1. 输入的数据量低。2. 输入的基因组较为复杂,存在大量的纯合或者近乎纯合的区域。 需要注意的是,以上两种模式会让部分较碎的contig聚类或者排序错误。同时如果属于第二种情况,容易发生贪婪的聚类,即两条高度同源的染色体组被分到一组里面。

如何在组装非整倍体基因组时设置-n参数:

非整倍体基因组,如现代栽培的甘蔗,包含数目不相等的同源染色体。我们建议-n参数可以设置为零(-n 10:0),让程序自动判别分组数。 此外,我们也允许用户输入一个包含两列的文件:第一列是第一轮分区的索引(1-base),第二列是每个同源染色体的染色体数目。然后指定- n10:second.number.tsv。在cphasing pipelinecphasing hyperpartition中使用。

second.number.tsv
1    13
2    12
3    12
4    11
5    10
6    12
7    12
8    10
9    12
10    12