现代栽培甘蔗组装(Hi-C)#
非整倍 (2n=114), 预估基因组大小 ~ 10 Gb
Hi-C数据处理#
由于Hi-C数据量大,我们将每个cell的Hi-C数据分别提交到不同的节点上进行比对,然后再合并成一个文件。
Note
因为hic mapper
里面有一步索引构建,用户需要先提交一个任务,等到索引创建完成再提交剩余的任务。
cphasing hic mapper -f sh_hifi.bp.p_utg.fasta -hic1 hic-1_R1.fastq.gz -hic1 hic-1_R1.fastq.gz -t 40 -k 27 -w 14
cphasing hic mapper -f sh_hifi.bp.p_utg.fasta -hic1 hic-2_R1.fastq.gz -hic1 hic-2_R1.fastq.gz -t 40 -k 27 -w 14
cphasing hic mapper -f sh_hifi.bp.p_utg.fasta -hic1 hic-3_R1.fastq.gz -hic1 hic-3_R1.fastq.gz -t 40 -k 27 -w 14
cphasing hic mapper -f sh_hifi.bp.p_utg.fasta -hic1 hic-4_R1.fastq.gz -hic1 hic-4_R1.fastq.gz -t 40 -k 27 -w 14
组装流程#
现代栽培甘蔗属于非整倍体,不同同源染色体组内的染色体数量不同,因此我们倾向于先让程序自行分组看看(-n 0:0
)。