linux上的并行软件ParaFly怎么用
这篇文章将为大家详细讲解有关linux上的并行软件ParaFly怎么用,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
很多时候生信工作者处理多个文件,对每个文件做的操作都是一样的,这个时候,写一个for循环串行处理可能就行了。但有时候串行操作耗时较久,例如做个bwa mem比对,如果一个一个文件处理,时间就是累加的。
一般我们都是在服务器上跑任务,服务器都是多核心多线程的,再不济也是自己的多核多线程笔记本,其实可以让任务并行的跑起来。
例如使用htop查看,下面是40核的服务器,空闲的核需要的时候利用起来比较好,省时省力:
首先使用anconda3安装ParaFly,
$ conda install -c bioconda parafly
查看一下怎么用:
$ ParaFly -h
##########################################################
#
# Usage: ParaFly (opts)
#
# Required:
# -c <str> :filename containing list of bash-style commands to execute.
# -CPU <int> :number_of_threads
#
# Optional:
# -shuffle :randomly shuffles the command order.
# -failed_cmds <str> :filename to capture failed commands. default("FailedCommands")
# -v :simple progress monitoring.
# -vv :increased verbosity in progress monitoring.
#
##########################################################
Note: This process creates a file named based >with a .completed extension.
This enables a resume functionality, where if rerun, only those commands not completed successfully will be reprocessed.
可以看出必须参数(Required)只有2个,说明这个工具使用起来非常简单。事实上,只需要把需要操作的命令写在一个文件里面,使用-c指定这个文件,-CPU指定并行的总核数(需要同时执行几条命令)即可。
默认成功执行的命令,对应的命令行会输出到文件名加.completed后缀的文件,没有成功执行的命令会输出到FailedCommands文件。
ParaFly: Simple parallel unix command processing using OpenMPParaFly provides a simple mechanism for running a predefined list of unix commands in parallel using multithreading. Failed processes are captured and reported. Successfully executed processes are noted. If the process is rerun, >or failed processes will be executed.
简单举个例子:
fastq-dump拆分三个SRA文件,可以把这三条命令写到fastq_dump.txt文件里面:
$ cat fastq_dump.txtfastq-dump --split-3 SRR1510125.1fastq-dump --split-3 SRR1004284.1fastq-dump --split-3 SRR1004285.1
之后使用ParaFly并行化:
$ ParaFly -c fastq_dump.txt -CPU 3
服务器会同时用三个核分别来运行这三条命令,ParaFly结果文件:
$ cat fastq_dump.txt.completedfastq-dump --split-3 SRR1004285.1fastq-dump --split-3 SRR1004284.1fastq-dump --split-3 SRR1510125.1
总体来看ParaFly方便易学,比linux自带的parallel更易上手,大家在linux上做多任务处理时可以考虑加入它的使用,会大大的缩短数据处理时间。
关于linux上的并行软件ParaFly怎么用就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:niceseo99@gmail.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
评论