跳转至

基本用法

流程化的命令#

pipeline命令#

以下案例中的参数-n 8:4表示组装一个染色体基数为8的四倍体(4),指定程序第一次分组输出8组,第二次再每一组里面输出4组,最终输出32条染色体。我们也支持自动分组,只需设置-n 0:0, 这表示两轮自动分组。也可以设置为第一分成8组第二次自动分组(-n 8:0)或者第一次自动分组第二次分4组(-n 0:8)

Note

CPhasing也支持单套基因组的挂载,只需设置一个分组数,例如-n 8,染色体数为8,期望程序将contig分成8条染色体。pipeline会自动跳过1.allele这步,并且只执行一次contig分组.

输入 Pore-C 测序reads:#

cphasing pipeline -f draft.asm.fasta -pcd sample.fastq.gz -t 10 -n 8:4

输入多组 pore-c data:#

每个数据指定一次-pcd参数

cphasing pipeline -f draft.asm.fasta -pcd sample1.fastq.gz -pcd sample2.fastq.gz -t 10 -n 8:4

Note

如果你希望,将不同cell的数据分别投递到不同的节点上跑,可以使用cphasing mapper参数,并最后使用cphasing-rs porec-merge将输出的porec.gz 文件合并为一个.merge.porec.gz, 然后再通过-pct参数输入。

输入 pore-c table (porec.gz):#

这种文件是由cphasing mapper产生的.

cphasing pipeline -f draft.asm.fasta -pct sample.porec.gz -t 10 -n 8:4

输入Hi-C data数据#

cphasing pipeline -f draft.asm.fasta -hic1 Lib_R1.fastq.gz -hic2 Lib_R2.fastq.gz -t 10 -n 8:4

Note

  • 1 | cphasing pipeline 不支持输入多组Hi-C数据,但是用户可以自行使用cphasing hic mapper 进行比对,然后再使用cphasing-rs pairs-merge 合并所有的.pairs.gz文件, 然后通过 -prs 参数输入.
  • 2 | 如果基因组的大小大于8Gb,需要提高比对的kw的大小,避免chromap报错,例如 -hic-mapper-k 27 -hic-mapper-w 14.

输入4DN pairs文件#

cphasing pipeline -f draft.asm.fasta -prs sample.pairs.gz -t 10 -n 8:4
- 跳过一些步骤
## skip steps 1.alleles and 2.prepare steps 
cphasing pipeline -f draft.asm.fasta -pct sample.porec.gz -t 10 -ss 1,2

只跑某一步#

## run 3.hyperpartition 
cphasing pipeline -f draft.asm.fasta -pct sample.porec.gz -t 10 -s 3

提升组装质量#

大部分情况下,设置-hcr参数会使得组装质量更高,虽然这会让运行速度变慢,但是该参数的设置可以有效去除一些在全基因组频繁互作的区域对分型的影响。

cphasing pipeline -f draft.asm.fasta -pct sample.porec.gz -t 10 -hcr

通过Juicebox 人工调整基因组组装#

  • 首先需要生成两个文件:.assembly.hic, 以下步骤依赖于3d-dna 软件,用户需自行安装。
cphasing pairs2mnd sample.pairs.gz -o sample.mnd.txt
cphasing utils agp2assembly groups.agp > groups.assembly
bash ~/software/3d-dna/visualize/run-assembly-visualizer.sh sample.assembly sample.mnd.txt

Note

if chimeric corrected, please use groups.corrected.agp and generate a new corrected.pairs.gz by cphasing-rs pairs-break

  • 调整完后生成agp和fasta文件
    ## convert assembly to agp
    cphasing utils assembly2agp groups.review.assembly -n 8:4 
    ## or haploid or a homologous group
    cphasing utils assembly2agp groups.review.assembly -n 8
    ## extract contigs from agp 
    cphasing agp2fasta groups.review.agp draft.asm.fasta --contigs > contigs.fasta
    ## extract chromosome-level fasta from agp
    cphasing agp2fasta groups.review.agp draft.asm.fasta > groups.review.asm.fasta
    

根据参考基因组重新命名和调整整条染色体的方向#

我们内置了cphasing rename命令,该命令可以根据一套单倍型或者近缘物种的染色体水平基因组去调整多倍体分型组装的染色体编号和整条染色体的方向方向

cphasing rename -r mono.fasta -f draft.asm.fasta -a groups.review.agp -t 20

Note

为了减少时间消耗,我们只对每套同源染色体组内的第一条进行比对,然后根据此比对结果,对整个同源组进行重命名和调整方向。这是因为我们在scaffolding步骤的时候已经把同源染色体的方向调整为一致了。如果你需要对所用同源组内的染色体进行比对,可以设置--unphased参数实现。