跳转至

C-Phasing

Faq

Faq

如何选择限制性内切酶¶

为了获得最佳的组装与分型（Scaffolding & Phasing）效果，我们对不同测序技术的数据类型推荐如下： - 基于长读长的技术（如 Pore-C 或 CiFi）： 推荐使用 4 碱基限制性内切酶（如 DpnII、MboI, 甚至NlaIII），而不是 6 碱基酶（如 HindIII）。因为 4 碱基酶的酶切位点分布更密集，可以在单条长读长序列（Read）上生成大量较短的 DNA 片段，从而捕获更丰富、更高阶的多体物理互作（High-order contacts）。

基于短读长的技术（普通 Hi-C）： 推荐优先级为：Omni-C > 多酶切位点 Hi-C（如 Arima） > 传统单酶切 Hi-C。
- Omni-C 使用 DNase I 进行随机序列切割，覆盖度极其均匀，能消除基于限制性内切酶带来的序列偏好性和覆盖盲区。
- Arima 多酶切位点方案 则能显著高于单酶切方案的位点密度，有利于多倍体及复杂基因组中高难度区域的精确破译。

第一轮分组的结果不好:¶

在我们的两轮聚类算法中，第一轮聚类依赖于同源染色体之间比对错误；如果用户输入低水平Switch error的contigs或输入高精度的Pore-c数据，h-trans将不足以支撑将来自同源染色体的contig聚到一起，这容易导致结果不理想。用户可以为hyperpartition或pipeline设置-q1 0以增加h-trans错误率。但是，当您在porec.gz或pairs.gz中输入大量的互作数据时，此参数可能会引发内存不足的错误。

挂载上的染色体总大小远低于预估基因组大小¶

如果存在以下两种情况，可以通过调整 cphasing pipeline的模式至敏感（--preset sensitive）或者超敏感（--preset very-sensitive） 1. 输入的数据量低。2. 输入的基因组较为复杂，存在大量的纯合或者近乎纯合的区域。需要注意的是，以上两种模式会让部分较碎的contig聚类或者排序错误。同时如果属于第二种情况，容易发生贪婪的聚类，即两条高度同源的染色体组被分到一组里面。

如何在组装非整倍体基因组时设置`-n`参数:¶

非整倍体基因组，如现代栽培的甘蔗，包含数目不相等的同源染色体。我们建议-n参数可以设置为零（-n 10:0），让程序自动判别分组数。此外，我们也允许用户输入一个包含两列的文件：第一列是第一轮分区的索引（1-base），第二列是每个同源染色体的染色体数目。然后指定- n10:second.number.tsv。在cphasing pipeline或cphasing hyperpartition中使用。

second.number.tsv