菜单

海洋生物协会形成分析软件meerkatbway883必威官网

2019年4月9日 - bway883必威官网

一、 运行meerkat

    后边早已依序安装了meerkat
的条件和meerkat,运营了预处理一步,在相呼应的bam文件目录下生成了巨额文本,因而,当要用meerkat处理有些bam文件时,应先将该bam文件移动到专有的二个文书夹,manual中也提议如此用。

     预处理生成的文书包含:

     黑名单文件.gz

     isinfo文件:包蕴插入大小新闻

     pdf文件:插入大小的分布图,unmapped reads长度的遍布图,softclip
reads长度分布图

    
pre.log文件:日志文件,包蕴输入的参数,输入输出消息,reads数,unallign
reads数等

     softclips.fq.gz: softlip reads文件,完整的read

     softclips.rdist:softclip 的reads长度分布新闻记录

     unmapped.fq.gz:unmapped的reads 文件,完整的read

     unmapped.rdist: unmapped的reads长度的分布音信

     sr一.fq.gz : 从softclip read 恐怕 unmaped read 切下来的内定bp
的reads

     sr2.fq.gz :  与sr1.fq配对的reads

     多少个文件夹包括壹_1fq.gz,1_二fq.gz , 
里面有分化长度的reads。每一个read group 人工的reads 对

   

    

bway883必威官网,   1.1  meerkat.pl

          perl ./scripts/meerkat.pl [options]

         -b  FIle    已经sort过的bam文件

         -k  int    [0/1]是不是利用预处理发生的黑名单文件,私下认可一

         -d  FLT    call discordant mate pairs
的标准差阈值,私下认可叁.以此选项控制什么寻找discordant
read对,等同于定义最大的concordant
fragment(配对的reads定位到的部分),总结方式是:中位插入大小+d x
sd,如若插入大小分布图狭窄并对称,就动用暗中同意参数,例如上面1二图。若是分布图偏宽,或许带着长尾,3四图,参数应设为5,对于高深度(>30x),固然分布图狭窄,不过利用伍会轻微好一点。假设峰窄,可是还是带着一个尾巴(图伍),好像大部分TCGA数据那样,在meekat.pl这一步使用伍比三越来越好

bway883必威官网 1

 

 

 bway883必威官网 2

 bway883必威官网 3

 

 

         -c  FLT    集簇discordant mate
pair标准差阈值,私下认可和-d相同。控制什么集簇,创设断点的置信区间。等同于定义覆盖断点的最大学一年级部分(中位插入大小+c
x sd)。假如-d 选项是伍要么小于5,使用用-c相同的参数,要是-d
非常的大,比如10,那么使用越来越小的-c,比如五。倘使数额有很高的测序深度,或许有广大的正片的变迁,那么使用伍而不是三来制止不可能营造断点的置信区间。

         -p  FLT    call多少个风云补助的配对数阈值,私下认可贰

         -o  INT   
供给帮衬全长reads对的数额,暗中同意是0,设定这一个选项会下跌小复杂事件的敏感度。假诺选择-a
1 -l 一推荐使用-o 一 来制止双重体系导致的重重人工业生产物

         -q  INT    call3个轩然大波匡助的split reads数,默许是一

         -z  INT    事件数的最大值,暗中认可一,000,000,000

         -s  INT    从unmapped reads
初始和前边切下来的bp数,必须和与处理的-s 参数设置1样

         -m  INT    [0/1],假如设定为一,使用meerkat
去去除duplicates,要是设为0,使用Picard 的 flag ‘d‘ marked
,恐怕别的工具去除duplicates.bwa mem 的多少必须用picard mark duplicate
,所以要设为0.

          -a  INT   
[0/1],处理非单一比对,暗中认可壹。假如测序品质不佳,大概测序深度不够,将参数设为0,那样壹切成对的reads都被当做单壹比对使用。那依赖bwa
mapping 时生成的XT标签。借使未有XT标签,使用采取Q.

          -u  INT   
[0/1],使用bam文件的全方位比对,假若BAM文件不是由BWA发生的,只怕由bwa产生可是尚未XT标签,那么开那么些选项,开了这么些选项会强制关闭-a选项。暗中同意是0。开了这些选项之后应利用-Q
参数过滤低mapping
reads,推荐-Q设置10,对于bwa比对过的bam,也能够继承过滤。

          -Q  INT    被应用的reads的微乎其微mapping quality,暗中认可是0

          -g  INT    
在重点的bam文件使用的备择mapping数,默许使用一切。备择mapping
数之前经过bwa -N 参数输出到XA标签中。bwa mem 私下认可 输出备择mapping。

          -f  INT    在clipped
比对初级中学完成学业生升学考试虑的备择mapping数,默许使用全体。

          -l  INT    [0/1],是或不是思考clipped
比对,暗中认可1.和预处理1样,对于bwa mem 出来的基因组,不须要重新mapping.

          -t  INT    在bwa比对中用到的核数,私下认可一

          -R  STR    包罗黑名单read group的文件,每壹行一个read
group ID

          -F  STR    fasta文件夹路径

          -S  STR    samtools路径,假若samtools不在环境变量中的话

          -W  STR    bwa路径,假若bwa不在环境变量中的话

          -B   STR    blastall 和 formatdb
的路径,固然不在环境变量的话

          -P  STR   
钦赐运转顺序,dc|cl|mpd|alg|srd|rf|all,暗中认可all,每一步运维都亟需上一步的结果

                            dc:  extract discordant read
pairs,提取discordant read对

                            cl:  construct clusters of discordant read
pairs,将discordant read对建簇

                            mpd: call events based on read
pairs,基于read 对call 事件

                            alg: align split reads to candidate break
point regions,比对split read
到候选的断点区域。假诺你有十陆宗旨的话,可以将alg步骤切为两步,alg一和alg二,alg一运作二十四线程,alg二运作单线程。

                            srd:  confirm events based on split reads
and filter results,基于split reads和过滤的结果对事件实行验证

                            rf: refine break points by local
alignments,通过区域比对定义断点

                            all: run all above steps ,运转总体步骤

           -h    帮助

    manual 中的举例:

    50bp reads,<10x 的TCGA 基因组    使用-s 1八 -d 伍 -a 0 -l 0 -q
1,估量:reads 长度较小,所以取1/三 read 尺寸,-s 取1八, TCGA
基因组,插入分布狭窄带尾,所以-d 设为5, 测序深度较低,reads
长度较短,所以尽可能保存数据,-a 设为0, -l 设为0,-q 设的较低,一。

    75-101bp reads, 30-40x TCGA 基因组    使用-s 20 -d 五 -p 三 -o 壹-a 0 -u 1 -Q 十,估量:reads长度较长,取1/5read尺寸,-s 取20,TCGA
基因组,插入分布狭窄带尾,所以-d
设为5,长度较长,深度较深,因而下落敏感度,扩大特异度,所以-p 设为三,-o
设为1,由于尚未XT tag和XA tag ,由此-a 一 选项不能运维,因而设为-u 1 -a 0
-Q 十 。要是那是bwa mem的多寡来说,参数应设为-s 20 -d 伍 -p 叁 -o 1 -m 0
-l 0,bwa mem 数据不必要再一次比对softclips -l
0,必须用picard去除duplicate,-m设为0,猜想那么些是早版本的bwa,因而比对时方可生成XT标签,-a
私下认可为一。

    101bp reads, 60-80x TCGA 基因组    使用-s 20 -d 5 -p 5 -o
三,75-拾1bp 使用-s 20,TCGA基因组使用-d 5,测序深度深,-o 设置更加高三。

   
若是肿瘤基因组60x,相呼应的例行基因组30x,那么使用60x的参数,平日用配对的平日组织中的black.list.gz
重命名并放到肿瘤bam文件处理的公文夹,替换cancer的blacklist.gz文件。

       

     1.2 mechanism.pl

       perl
./scripts/mechanism.pl [options]

        -b  FILE    sort过的bam文件

        -o  INT    [0/1]在TE包括rmsk类型 \”Other\”,默认1

        -t  INT    TE的最大值,暗中同意100000

        -z  INT    被处理的SV的多寡限制,暗中同意一千000000

        -R  STR    repeat注释路径,能够从UCSC下载

        -h  help

 

二、参照

   
manual中提交的数据,HapMap个体NA18507(4二x深度,100bp读长,500bp插入大小),用十核bwa比对费用1.三日和拾GB的内部存款和储蓄器。30x深度的瘤子数据,要多于两日并且超越30G的内存,如果测序质量不太好,比如很多的嵌合比对和重重非单一mapped的reads,就会开销越多的时刻和内部存款和储蓄器。、

 

三、结果

   
运营完预处理和meerkat.pl后,能够收获八个文件.intra.refined.typ.sorted和inter.refined.typ.sorted,运维完mechanism.pl后,会赢得.variants文件,不然,就该回去看一下设置是不是出现难题。

    
运转的瘤子基因组文件的时候,一定要把平常组织的blacklist文件替换肿瘤基因组的blacklist文件,blacklist文件能够在预处理中变化。就算在预处理中冒出错误音信“differing
read lengths“,未有涉及,仅仅是告诉你在部分read group中长度不雷同。

 

 4、包罗的任何程序

    4.1
转换variant 文件到vcf格式**
   **

perl ./scripts/meerkat2vcf.pl -i variantfile -o vcffile -H headerfile -F /db/hg18/hg18_fasta/

    -F选项能够生出三个头文件

    四.二  融合基因注释

 

perl ./scripts/fusions.pl -i variantfile -G /db/hg18/refGene_hg18_sorted.txt

 

    4.3  为形成位点设计引物

        使用primer.pl

        -i  FILE    输入文件,fusion.pl产生的万众一心文件

        -o  FILE    输出文件

        -p  STSportage    引物固定种类

         -c  INT   
列数补偿,暗中同意0,假如第二列存在怎么着事件的样品名称,那么设为一

         -f  INT    侧翼区域,私下认可500,设计引物所在的区域

         -s  STOdyssey    被“,”分隔的引物大小,暗中同意20,二三,2五,贰7

         -m  ST奥迪Q5    引物最小,最优,最大Tm值,”,”分隔,暗中认可50,60,陆五

         -n  INT    对每三个引物片段,设计的音物个数,暗中同意5

          -r  INT    掩盖repeat,默认0

          -q  INT    输出设计引物的侧翼类别

          -F  ST卡宴    fasta文件文件夹路径

          -P  STR    primer_core程序文件夹路径

          -L  STR    bla文件夹t路径

          -V  STXC60    blat服务器,例如fServer start 10.11.240.76
17777/reference/hg18/hg1八.二bit -stepSize=伍,服务器路径应该为10.1一.240.76

          -T  ST本田UR-V    blat端口,下边例子中的17777

          -h  help

   
全部音物都以由Primer叁生成,对于每一个轩然大波,挑出.壹和.二,区别的自由化认为是例外的轩然大波,所以取引物的时候一直拷贝出来,不要求格外的反向互补,假设系列是小写字母,那么表明引物在重复体系。理论上,你应该用
1 blat hit 挑出小写的引物。要是blat hit
是0,意味着由太多hit了,所以不要挑选那种引物。有时候,纵然引物是在重复体系上(小写字母),不过在基因组上还是是纯粹比对的,(1blat
hit),因为是重复元件的形成,挑选那种引物是能够的。假设由局地引物PCRAV4未有结果,你能够选用2个正向引物,五个反向引物来还要开始展览伍个PCPAJERO 反应。引物设计的宽广规则如故要动用,比如,你应当选拔TM
值相差相当的小并且GC含量不太极端的。

    四.肆  总计等位基因频率

        使用discon.pl,这些脚本会告诉您全数断点的discordant 和
concordant的read对.

        -i  FILE    输入variants 文件,必须

       -o  FILE    输入文件,必须

       -D  INT    从bam文件中总结discordant
pair的数据,暗许0,基因分型的时候打开这么些选项

       -B  FILE    bam文件,必须

       -C  FILE    由Meerkat 产生的cluster文件,必须

       -I  FILE    Meerkat 运行时发出的isinfo文件

       -K  FILE    包括要不经意的read group的文件名,三个read ID 一行,和
meerkat.pl的奥迪Q5参数1样

       -S  FILE    samtools文件夹路径,若是samtools不再环境变量中

       -d  FLT    call discordant read 对的正统差阈值,默许3

       -Q  INT    使用的reads 最小的mapping quality,默认0

       -h  help

      

perl ./scripts/discon.pl -d 5 -Q 10 -i $somaticg -o $somaticg_rp -B $cancer_bam -C
$cancer_cluster -I $cancer_isinfo -K $cancer_blacklistrg -S /home/ly55/opt/samtools/

    结果文件之中每一个风浪有3个 本田UR-VP tag ,A_B_C_D格式

    A:全长的discordant read 对数

    B:从局地比对的reads中discordant的reads数

    C:第一断点的concordant reads 数

    D:第贰断点的concordant reads数

    A+B应该等与Meerkat得到的总的reads数

       

 

 以上内容仅作个人笔记使用,仅供参考

 

参考资料

meerkat manual
:http://gensoft.pasteur.fr/docs/Meerkat/0.189/Manual\_0.189.pdf**
**

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图