Methalign#
为了提升比对的精度,特别是高度同源区域的互作数量,我们开发了一个模块Methalign
。尝试使用甲基化信息(5mCG),对模糊的比对进行二次分配。这个模块主要针对超复杂多倍体,它们存在大量的高度同源区域,这些区域,即使使用长度长的互作数据也难以区分。普通多倍体请使用Mapper
处理Pore-C数据Mapper。
Info
如果你不需要使用甲基化信息,请使用 Mapper
Note
输入的bam文件应该包含MM/ML
tags
激活 methalign环境#
Info
第一次激活,请在有网络的情况下运行该命令
计算contig水平基因组的5mCG信息#
Align the HiFi reads by pbmm2
pbmm2 index --preset CCS contigs.fasta index.mmi
pbmm2 align --preset CCS index.mmi HiFi_reads.bam | samtools view - -b -o HiFi.align.bam
samtools sort HiFi.align.bam -o HiFi.align.sorted.bam
samtools index HiFi.align.sorted.bam
Calculate the 5mC sites by pb-cpg-tools
将Pore-C或者HiFi-C比对到contig水平基因组上#
Note
Replace --secondary=yes
to --mm2-opts "--secondary=yes"
when using dorado >= 0.8.0
二次分配比对片段#
- 将bam文件分割成多份以加快处理速度
- 二次分配比对片段
Note
这步会生成两个文件porec.align.refined.paf.gz
和porec.align.refined.porec.gz
。
- 之后使用
cphasing pipeline
完成分型组装