alphafold

Bell User Guide
Gilbreth User Guide
Weber User Guide
Scholar User Guide
Rossmann User Guide
Hammer User Guide
Negishi User Guide
Geddes User Guide
Anvil User Guide
Gautschi User Guide
Datasets
iGenomes
Software Catalog
Compilers
MPIs
Applications
Utilities
Biocontainers
- abacas
- abismal
- abpoa
- abricate
- abyss
- actc
- adapterremoval
- advntr
- afplot
- afterqc
- agat
- agfusion
- alfred
- alien-hunter
- alignstats
- allpathslg
- alphafold
- amptk
- ananse
- anchorwave
- angsd
- annogesic
- annovar
- antismash
- anvio
- any2fasta
- arcs
- asgal
- assembly-stats
- atac-seq-pipeline
- ataqv
- atram
- atropos
- augur
- augustus
- bactopia
- bali-phy
- bam-readcount
- bamgineer
- bamliquidator
- bamsurgeon
- bamtools
- bamutil
- barrnap
- basenji
- bazam
- bbmap
- bbtools
- bcftools
- bcl2fastq
- beagle
- beast2
- bedops
- bedtools
- bioawk
- biobambam
- bioconvert
- biopython
- bismark
- blasr
- blast
- blobtools
- bmge
- bowtie
- bowtie2
- bracken
- braker2
- brass
- breseq
- busco
- bustools
- bwa
- bwameth
- cactus
- cafe
- canu
- ccs
- cd-hit
- cdbtools
- cegma
- cellbender
- cellphonedb
- cellranger
- cellranger-arc
- cellranger-atac
- cellranger-dna
- cellrank
- cellrank-krylov
- cellsnp-lite
- celltypist
- centrifuge
- cfsan-snp-pipeline
- checkm-genome
- chewbbaca
- chopper
- chromap
- cicero
- circexplorer2
- circlator
- circompara2
- circos
- ciri2
- ciriquant
- clair3
- clairvoyante
- clearcnv
- clever-toolkit
- clonalframeml
- clust
- clustalw
- cnvkit
- cnvnator
- coinfinder
- concoct
- control-freec
- cooler
- coverm
- cramino
- crisprcasfinder
- crispresso2
- crispritz
- cross_match
- crossmap
- csvtk
- cufflinks
- cutadapt
- cuttlefish
- cyvcf2
- das_tool
- dbg2olc
- deconseq
- deepbgc
- deepconsensus
- deepsignal2
- deeptools
- deepvariant
- delly
- dendropy
- diamond
- dnaio
- dragonflye
- drep
- drop-seq
- dropest
- dsuite
- easysfs
- edta
- eggnog-mapper
- emboss
- ensembl-vep
- epic2
- evidencemodeler
- exonerate
- expansionhunter
- fasta3
- fastani
- fastp
- fastq-scan
- fastq_pair
- fastqc
- fastspar
- faststructure
- fasttree
- fastx_toolkit
- filtlong
- flye
- fraggenescan
- fraggenescanrs
- freebayes
- freyja
- fseq
- funannotate
- fwdpy11
- gadma
- gambit
- gamma
- gangstr
- gapfiller
- gatk
- gatk4
- gemma
- gemoma
- genemark
- genemarks-2
- genmap
- genomedata
- genomepy
- genomescope2
- genomicconsensus
- genrich
- gfaffix
- gfastats
- gfatools
- gffcompare
- gffread
- gffutils
- gimmemotifs
- glimmer
- glimmerhmm
- glnexus
- gmap
- goatools
- graphlan
- graphmap
- gridss
- gseapy
- gtdbtk
- gubbins
- guppy
- hail
- hap.py
- helen
- hic-pro
- hicexplorer
- hifiasm
- hisat2
- hmmer
- homer
- how_are_we_stranded_here
- htseq
- htslib
- htstream
- humann
- hyphy
- idba
- igv
- impute2
- infernal
- instrain
- intarna
- interproscan
- iqtree
- isoquant
- isoseq3
- ivar
- jcvi
- kaiju
- kakscalculator2
- kallisto
- khmer
- kissde
- kissplice
- kissplice2refgenome
- kma
- kmc
- kmer-jellyfish
- kmergenie
- kneaddata
- kover
- kraken2
- krakentools
- lambda
- last
- lastz
- ldhat
- ldjump
- ldsc
- liftoff
- liftofftools
- lima
- links
- lofreq
- longphase
- longqc
- lra
- ltr_finder
- ltrpred
- lumpy-sv
- lyveset
- macrel
- macs2
- macs3
- mafft
- mageck
- magicblast
- maker
- manta
- mapcaller
- marginpolish
- mash
- mashmap
- mashtree
- masurca
- mauve
- maxbin2
- maxquant
- mcl
- mcscanx
- medaka
- megadepth
- megahit
- megan
- meme
- memes
- meraculous
- merqury
- meryl
- metabat
- metachip
- metaphlan
- metaseq
- methyldackel
- metilene
- mhm2
- microbedmm
- minialign
- miniasm
- minimap2
- minipolish
- miniprot
- mirdeep2
- mirtop
- mitofinder
- mlst
- mmseqs2
- mob_suite
- modbam2bed
- modeltest-ng
- momi
- mothur
- motus
- mrbayes
- multiqc
- mummer4
- muscle
- mutmap
- mykrobe
- n50
- nanofilt
- nanolyse
- nanoplot
- nanopolish
- ncbi-amrfinderplus
- ncbi-datasets
- ncbi-genome-download
- ncbi-table2asn
- neusomatic
- nextalign
- nextclade
- nextflow
- ngs-bits
- ngsld
- ngsutils
- orthofinder
- paml
- panacota
- panaroo
- pandaseq
- pandora
- pangolin
- panphlan
- parabricks
- parallel-fastq-dump
- parliament2
- parsnp
- pasta
- pbmm2
- pbptyper
- pcangsd
- peakranger
- pepper_deepvariant
- perl-bioperl
- phast
- phd2fasta
- phg
- phipack
- phrap
- phred
- phylosuite
- picard
- picrust2
- pilon
- pindel
- pirate
- piscem
- pixy
- plasmidfinder
- platon
- getorganelle
- platypus
- plink
- plink2
- plotsr
- pomoxis
- poppunk
- popscle
- pplacer
- prinseq
- prodigal
- prokka
- proteinortho
- prothint
- pullseq
- purge_dups
- pvactools
- pyani
- pybedtools
- pybigwig
- pychopper
- pycoqc
- pyensembl
- pyfaidx
- pygenometracks
- pygenomeviz
- pyranges
- pysam
- pyvcf3
- qiime2
- qtlseq
- qualimap
- quast
- quickmirseq
- r
- r-rnaseq
- r-rstudio
- r-scrnaseq
- racon
- ragout
- ragtag
- rapmap
- rasusa
- raven-assembler
- raxml
- raxml-ng
- reapr
- rebaler
- reciprocal_smallest_distance
- recycler
- regtools
- repeatmasker
- repeatmodeler
- repeatscout
- resfinder
- revbayes
- rmats
- rmats2sashimiplot
- rnaindel
- rnapeg
- rnaquast
- roary
- rsem
- rseqc
- run_dbcan
- rush
- sage
- salmon
- sambamba
- samblaster
- samclip
- samplot
- samtools
- scanpy
- scarches
- scgen
- scirpy
- scvelo
- scvi-tools
- segalign
- seidr
- sepp
- seqcode
- seqkit
- seqyclean
- shapeit4
- shapeit5
- shasta
- shigeifinder
- shorah
- shortstack
- shovill
- sicer
- sicer2
- signalp4
- signalp6
- simug
- singlem
- ska
- skewer
- slamdunk
- smoove
- snakemake
- snap
- snap-aligner
- snaptools
- snippy
- snp-dists
- snp-sites
- snpeff
- snpgenie
- snphylo
- snpsift
- soapdenovo2
- sortmerna
- souporcell
- sourmash
- spaceranger
- spades
- sprod
- squeezemeta
- squid
- sra-tools
- srst2
- stacks
- star
- staramr
- starfusion
- stream
- stringdecomposer
- stringtie
- strique
- structure
- subread
- survivor
- svaba
- svtools
- svtyper
- swat
- syri
- t-coffee
- talon
- targetp
- tassel
- taxonkit
- tetranscripts
- tiara
- tigmint
- tobias
- tombo
- tophat
- tpmcalculator
- transabyss
- transdecoder
- transrate
- transvar
- trax
- treetime
- trim-galore
- trimal
- trimmomatic
- trinity
- trinotate
- trnascan-se
- trtools
- trust4
- trycycler
- ucsc_genome_toolkit
- unicycler
- vadr
- usefulaf
- vardict-java
- varlociraptor
- varscan
- vartrix
- vatools
- vcf-kit
- vcf2maf
- vcf2phylip
- vcf2tsvpy
- vcftools
- velocyto.py
- velvet
- veryfasttree
- vg
- viennarna
- weblogo
- vsearch
- whatshap
- wiggletools
- winnowmap
- wtdbg
- bayescan
- aspera-connect
NVIDIA NGC containers
AMD ROCm containers
FAQs
Storage
Data Depot User Guide
Fortress User Guide
REED Folder User Guide
Box Research Lab Folder User Guide
Scratch User Guide
Home Directory User Guide
Services
High-Performance Computing
Services Guides
Slurm
Depot Object User Guide
Rowdy User Guide
Environment Management with the Module Command
Protected Data Filesystem User Guide
Protected Data Archive User Guide
Purdue GenAI Studio
Environment Management with the Module Command
Environment Management with the Module Command
Profilers
Geoscience Foundation Models

alphafold

Link to section 'Introduction' of 'alphafold' Introduction

Alphafold is a protein structure prediction tool developed by DeepMind (Google). It uses a novel machine learning approach to predict 3D protein structures from primary sequences alone. The source code is available on Github. It has been deployed in all RCAC clusters, supporting both CPU and GPU.

It also relies on a huge database. The full database ( 2.2TB) has been downloaded and setup for users.

Protein struction prediction by alphafold is performed in the following steps:

Search the amino acid sequence in uniref90 database by jackhmmer (using CPU)
Search the amino acid sequence in mgnify database by jackhmmer (using CPU)
Search the amino acid sequence in pdb70 database (for monomers) or pdb_seqres database (for multimers) by hhsearch (using CPU)
Search the amino acid sequence in bfd database and uniclust30 (updated to uniref30 since v2.3.0) database by hhblits (using CPU)
Search structure templates in pdb_mmcif database (using CPU)
Search the amino acid sequence in uniprot database (for multimers) by jackhmmer (using CPU)
Predict 3D structure by machine learning (using CPU or GPU)
Structure optimisation with OpenMM (using CPU or GPU)

Link to section 'Versions' of 'alphafold' Versions

2.1.1
2.2.0
2.2.3
2.3.0
2.3.1
2.3.2

Link to section 'Commands' of 'alphafold' Commands

run_alphafold.sh

Link to section 'Module' of 'alphafold' Module

You can load the modules by:

module load biocontainers
module load alphafold

Link to section 'Usage' of 'alphafold' Usage

The usage of Alphafold on our cluster is very straightford, users can create a flagfile containing the database path information:

run_alphafold.sh --flagfile=full_db.ff --fasta_paths=XX --output_dir=XX ...

Users can check its detailed user guide in its Github.

Link to section 'full_db.ff' of 'alphafold' full_db.ff

Example contents of full_db.ff:

--db_preset=full_dbs
--bfd_database_path=/depot/itap/datasets/alphafold/db/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt
--data_dir=/depot/itap/datasets/alphafold/db/
--uniref90_database_path=/depot/itap/datasets/alphafold/db/uniref90/uniref90.fasta
--mgnify_database_path=/depot/itap/datasets/alphafold/db/mgnify/mgy_clusters_2018_12.fa
--uniclust30_database_path=/depot/itap/datasets/alphafold/db/uniclust30/uniclust30_2018_08/uniclust30_2018_08
--pdb70_database_path=/depot/itap/datasets/alphafold/db/pdb70/pdb70
--template_mmcif_dir=/depot/itap/datasets/alphafold/db/pdb_mmcif/mmcif_files
--max_template_date=2022-01-29
--obsolete_pdbs_path=/depot/itap/datasets/alphafold/db/pdb_mmcif/obsolete.dat
--hhblits_binary_path=/usr/bin/hhblits
--hhsearch_binary_path=/usr/bin/hhsearch
--jackhmmer_binary_path=/usr/bin/jackhmmer
--kalign_binary_path=/usr/bin/kalign

Since Version v2.2.0, the AlphaFold-Multimer model parameters has been updated. The updated full database is stored in depot/itap/datasets/alphafold/db_20221014. For ACCESS Anvil, the database is stored in /anvil/datasets/alphafold/db_20221014. Users need to update the flagfile using the updated database:

run_alphafold.sh --flagfile=full_db_20221014.ff --fasta_paths=XX --output_dir=XX ...

Link to section 'full_db_20221014.ff (for alphafold v2)' of 'alphafold' full_db_20221014.ff (for alphafold v2)

Example contents of full_db_20221014.ff (For ACCESS Anvil, please change depot/itap to anvil):

--db_preset=full_dbs
--bfd_database_path=/depot/itap/datasets/alphafold/db_20221014/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt
--data_dir=/depot/itap/datasets/alphafold/db_20221014/
--uniref90_database_path=/depot/itap/datasets/alphafold/db_20221014/uniref90/uniref90.fasta
--mgnify_database_path=/depot/itap/datasets/alphafold/db_20221014/mgnify/mgy_clusters_2018_12.fa
--uniclust30_database_path=/depot/itap/datasets/alphafold/db_20221014/uniclust30/uniclust30_2018_08/uniclust30_2018_08
--pdb_seqres_database_path=/depot/itap/datasets/alphafold/db_20221014/pdb_seqres/pdb_seqres.txt
--uniprot_database_path=/depot/itap/datasets/alphafold/db_20221014/uniprot/uniprot.fasta
--template_mmcif_dir=/depot/itap/datasets/alphafold/db_20221014/pdb_mmcif/mmcif_files
--obsolete_pdbs_path=/depot/itap/datasets/alphafold/db_20221014/pdb_mmcif/obsolete.dat
--hhblits_binary_path=/usr/bin/hhblits
--hhsearch_binary_path=/usr/bin/hhsearch
--jackhmmer_binary_path=/usr/bin/jackhmmer
--kalign_binary_path=/usr/bin/kalign

Since Version v2.3.0, the AlphaFold-Multimer model parameters has been updated. The updated full database is stored in depot/itap/datasets/alphafold/db_20230311. For ACCESS Anvil, the database is stored in /anvil/datasets/alphafold/db_20230311. Users need to update the flagfile using the updated database:

run_alphafold.sh --flagfile=full_db_20230311.ff --fasta_paths=XX --output_dir=XX ...

Since Version v2.3.0, uniclust30_database_path has been changed to uniref30_database_path.

Link to section 'full_db_20230311.ff (for alphafold v3)' of 'alphafold' full_db_20230311.ff (for alphafold v3)

Example contents of full_db_20230311.ff for monomer (For ACCESS Anvil, please change depot/itap to anvil):

--db_preset=full_dbs
--bfd_database_path=/depot/itap/datasets/alphafold/db_20230311/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt
--data_dir=/depot/itap/datasets/alphafold/db_20230311/
--uniref90_database_path=/depot/itap/datasets/alphafold/db_20230311/uniref90/uniref90.fasta
--mgnify_database_path=/depot/itap/datasets/alphafold/db_20230311/mgnify/mgy_clusters_2022_05.fa
--uniref30_database_path=/depot/itap/datasets/alphafold/db_20230311/uniref30/UniRef30_2021_03
--pdb70_database_path=/depot/itap/datasets/alphafold/db_20230311/pdb70/pdb70
--template_mmcif_dir=/depot/itap/datasets/alphafold/db_20230311/pdb_mmcif/mmcif_files
--obsolete_pdbs_path=/depot/itap/datasets/alphafold/db_20230311/pdb_mmcif/obsolete.dat
--hhblits_binary_path=/usr/bin/hhblits
--hhsearch_binary_path=/usr/bin/hhsearch
--jackhmmer_binary_path=/usr/bin/jackhmmer
--kalign_binary_path=/usr/bin/kalign

Example contents of full_db_20230311.ff for multimer (For ACCESS Anvil, please change depot/itap to anvil):

--db_preset=full_dbs
--bfd_database_path=/depot/itap/datasets/alphafold/db_20230311/bfd/bfd_metaclust_clu_complete_id30_c90_final_seq.sorted_opt
--data_dir=/depot/itap/datasets/alphafold/db_20230311/
--uniref90_database_path=/depot/itap/datasets/alphafold/db_20230311/uniref90/uniref90.fasta
--mgnify_database_path=/depot/itap/datasets/alphafold/db_20230311/mgnify/mgy_clusters_2022_05.fa
--uniref30_database_path=/depot/itap/datasets/alphafold/db_20230311/uniref30/UniRef30_2021_03
--pdb_seqres_database_path=/depot/itap/datasets/alphafold/db_20230311/pdb_seqres/pdb_seqres.txt
--uniprot_database_path=/depot/itap/datasets/alphafold/db_20230311/uniprot/uniprot.fasta
--template_mmcif_dir=/depot/itap/datasets/alphafold/db_20230311/pdb_mmcif/mmcif_files
--obsolete_pdbs_path=/depot/itap/datasets/alphafold/db_20230311/pdb_mmcif/obsolete.dat
--hhblits_binary_path=/usr/bin/hhblits
--hhsearch_binary_path=/usr/bin/hhsearch
--jackhmmer_binary_path=/usr/bin/jackhmmer
--kalign_binary_path=/usr/bin/kalign

Link to section 'Example job using CPU' of 'alphafold' Example job using CPU

Using #!/bin/sh -l as shebang in the slurm job script will cause the failure of some biocontainer modules. Please use #!/bin/bash instead.

Notice that since version 2.2.0, the parameter --use_gpu_relax=False is required.

To run alphafold using CPU:

#!/bin/bash
#SBATCH -A myallocation	# Allocation name 
#SBATCH -t 20:00:00
#SBATCH -N 1
#SBATCH -n 24
#SBATCH --job-name=alphafold
#SBATCH --mail-type=FAIL,BEGIN,END
#SBATCH --error=%x-%J-%u.err
#SBATCH --output=%x-%J-%u.out

module --force purge
ml biocontainers alphafold/2.3.1

run_alphafold.sh --flagfile=full_db_20230311.ff  \
    --fasta_paths=sample.fasta --max_template_date=2022-02-01 \
    --output_dir=af2_full_out --model_preset=monomer \
    --use_gpu_relax=False

Link to section 'Example job using GPU' of 'alphafold' Example job using GPU

Using #!/bin/sh -l as shebang in the slurm job script will cause the failure of some biocontainer modules. Please use #!/bin/bash instead.

Notice that since version 2.2.0, the parameter --use_gpu_relax=True is required.

To run alphafold using GPU:

#!/bin/bash
#SBATCH -A myallocation	# Allocation name 
#SBATCH -t 20:00:00
#SBATCH -N 1
#SBATCH -n 11
#SBATCH --gres=gpu:1
#SBATCH --job-name=alphafold
#SBATCH --mail-type=FAIL,BEGIN,END
#SBATCH --error=%x-%J-%u.err
#SBATCH --output=%x-%J-%u.out

module --force purge
ml biocontainers alphafold/2.3.1

run_alphafold.sh --flagfile=full_db_20230311.ff \
    --fasta_paths=sample.fasta --max_template_date=2022-02-01 \
    --output_dir=af2_full_out --model_preset=monomer \
    --use_gpu_relax=True

Helpful?

alphafold

Link to section 'Introduction' of 'alphafold' Introduction

Link to section 'Versions' of 'alphafold' Versions

Link to section 'Commands' of 'alphafold' Commands

Link to section 'Module' of 'alphafold' Module

Link to section 'Usage' of 'alphafold' Usage

Link to section 'full_db.ff' of 'alphafold' full_db.ff

Link to section 'full_db_20221014.ff (for alphafold v2)' of 'alphafold' full_db_20221014.ff (for alphafold v2)

Link to section 'full_db_20230311.ff (for alphafold v3)' of 'alphafold' full_db_20230311.ff (for alphafold v3)

Link to section 'Example job using CPU' of 'alphafold' Example job using CPU

Link to section 'Example job using GPU' of 'alphafold' Example job using GPU

Follow Us