跳转至

Methalign#

为了提升比对的精度,特别是高度同源区域的互作数量,我们开发了一个模块Methalign。尝试使用甲基化信息(5mCG),对模糊的比对进行二次分配。这个模块主要针对超复杂多倍体,它们存在大量的高度同源区域,这些区域,即使使用长度长的互作数据也难以区分。普通多倍体请使用Mapper处理Pore-C数据Mapper

Info

如果你不需要使用甲基化信息,请使用 Mapper

Note

输入的bam文件应该包含MM/MLtags

激活 methalign环境#

source activate_cphasing methalign

Info

第一次激活,请在有网络的情况下运行该命令

计算contig水平基因组的5mCG信息#

Align the HiFi reads by pbmm2

pbmm2 index --preset CCS contigs.fasta index.mmi 
pbmm2 align --preset CCS index.mmi HiFi_reads.bam | samtools view - -b -o HiFi.align.bam
samtools sort HiFi.align.bam -o HiFi.align.sorted.bam
samtools index HiFi.align.sorted.bam

Calculate the 5mC sites by pb-cpg-tools

aligned_bam_to_cpg_scores --bam HiFi.align.sorted.bam --ref contigs.fasta --model pileup_calling_model.v1.tflite --modsites-mode reference
awk '{print $1,$2,$3,$9}' OFS='\t' HiFi_align_sorted_bam_to_cpg_scores.combined.bed > output.methyl.bg

Align the ONT reads by dorado

dorado aligner contigs.fasta ont_reads.bam -t 20 | samtools view -q 1 -@ 10 -b | samtools sort -@ 10 > ont.align.sorted.bam 
samtools index ont.align.sorted.bam 

Calculate the 5mC sites by modkit

modkit pileup ont.align.sorted.bam output.methyl.bed --log-filepath pileup.log --cpg --ref contigs.fasta -t 60 --combine-strands
awk '{print $1,$2,$3,$11}' OFS='\t' output.methyl.bed > output.methyl.bg

将Pore-C或者HiFi-C比对到contig水平基因组上#

dorado aligner contigs.fasta porec_reads.bam --secondary=yes > porec.align.bam

Note

Replace --secondary=yes to --mm2-opts "--secondary=yes" when using dorado >= 0.8.0

二次分配比对片段#

  • 将bam文件分割成多份以加快处理速度
    cphasing-rs split-bam porec.align.bam -o split_outdir/output.split
    cd split_outdir
    
  • 二次分配比对片段
    methalign refine -t 20 contigs.fasta output.methyl.bg output.split_*.bam -o porec.align.refined.paf.gz
    

Note

这步会生成两个文件porec.align.refined.paf.gzporec.align.refined.porec.gz

  • 之后使用cphasing pipeline完成分型组装
cphasing pipeline -f contigs.fasta -pct porec.align.refined.porec.gz -t 10 -n 8:4 -hcr -p AAGCTT