Summary
Next generation sequencing
Debian Med bioinformatics applications usable in Next Generation Sequencing
It aims at gettting packages which specializes in alignment of
sequences produced by next generation sequencing.
The list to the right includes various software projects which are of some interest to the Debian Med Project. Currently, only a few of them are available as Debian packages. It is our goal, however, to include all software in Debian Med which can sensibly add to a high quality Debian Pure Blend.
For a better overview of the project's availability as a Debian package, each head row has a color code according to this scheme:
If you discover a project which looks like a good candidate for Debian Med
to you, or if you have prepared an unofficial Debian package, please do not hesitate to
send a description of that project to the Debian Med mailing list
Links to other tasks
|
Debian Med Next generation sequencing packages
Official Debian packages with high relevance
|
Bedtools
Hilfswerkzeugsammlung zum Vergleich genomischer Merkmale
|
| Versions of package bedtools |
| Release | Version | Architectures |
| wheezy | 2.16.1-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 2.17.0-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 2.17.0-1 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package bedtools: |
| field | biology, biology:bioinformatics |
| interface | commandline |
| role | program |
| scope | suite |
| use | analysing, comparing, converting, filtering |
| works-with | biological-sequence |
|
License: DFSG free
|
|
Mit den Hilfswerkzeugen BEDTools können gewöhnliche genomische Aufgaben
erledigt werden, etwa überlappende Merkmale und Berechnung der Abdeckung.
Die Hilfswerkzeuge basieren großteils auf vier weit verbreiteten
Dateiformaten: BED, GFF/GTF, VCF und SAM/BAM. Mit den BEDTools können
ausgeklügelte Pipelines entwickelt werden, die komplizierte
Forschungsfragen beantworten, indem verschiedene BEDTools zusammenarbeiten.
Das Programm groupBy wird mit dem Paket filo verteilt.
|
|
|
Bowtie
Ultrafast memory-efficient short read aligner
|
| Versions of package bowtie |
| Release | Version | Architectures |
| wheezy | 0.12.7-3 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,powerpc,s390,s390x,sparc |
| jessie | 1.0.0-3 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 1.0.0-5 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package bowtie: |
| biology | nuceleic-acids |
| field | biology:bioinformatics |
| interface | commandline |
| role | program |
| science | calculation |
| scope | utility |
| use | analysing, comparing |
| works-with | biological-sequence |
|
License: DFSG free
|
|
This package addresses the problem to interpret the results from the
latest (2010) DNA sequencing technologies. Those will yield fairly
short stretches and those cannot be interpreted directly. It is the
challenge for tools like Bowtie to give a chromosomal location to the
short stretches of DNA sequenced per run.
Bowtie aligns short DNA sequences (reads) to the human genome at a rate
of over 25 million 35-bp reads per hour. Bowtie indexes the genome with
a Burrows-Wheeler index to keep its memory footprint small: typically
about 2.2 GB for the human genome (2.9 GB for paired-end).
|
|
|
Bwa
|
| Versions of package bwa |
| Release | Version | Architectures |
| squeeze | 0.5.8c-1 | amd64,armel,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,sparc |
| wheezy | 0.6.2-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 0.6.2-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 0.6.2-1 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| upstream | 0.7.5a |
| Debtags of package bwa: |
| biology | nuceleic-acids, peptidic |
| field | biology, biology:bioinformatics |
| interface | commandline, text-mode |
| role | program |
| use | analysing, comparing |
|
License: DFSG free
|
|
Burrows-Wheeler Aligner (BWA) ist ein Alignmentprogramm für relativ kurze
Nukleotidsequenzen gegen eine lange Referenzsequenz wie das menschliche
Genom. Es implementiert die zwei Algorithmen bwa-short und BWA-SW.
Ersterer kann für Testsequenzen die kürzer als 200 bp sind und Letzterer
für längere Sequenzen bis zu rund 100 kbp verwendet werden. Beide
Algorithmen arbeiten mit »gapped alignment«. Diese sind gewöhnlich genauer
und schneller bei Abfragen mit geringer Fehlerrate.
|
|
|
Fastx-toolkit
Vorverarbeitung kurzer FASTQ/A-Nukleotidsequenzen
|
| Versions of package fastx-toolkit |
| Release | Version | Architectures |
| wheezy | 0.0.13.2-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 0.0.13.2-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 0.0.13.2-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package fastx-toolkit: |
| role | program |
|
License: DFSG free
|
|
FASTX-Toolkit ist eine Sammlung an Befehlszeilenwerkzeugen zur
Vorverarbeitung von kurzen Nukleotidsequenzen im FASTA- oder FASTQ-Format,
die üblicherweise von Sequenzierautomaten der nächsten Generation erstellt
werden. Die Hauptverarbeitung solcher FASTA/FASTQ-Dateien ist das
Alignieren der Sequenzen zu Referenzgenomen oder anderen Datenbanken,
mittels spezialisierter Programme wie BWA, Bowtie und vielen anderen.
Jedoch ist es manchmal produktiver die FASTA/FASTQ-Dateien zu
vorverarbeiten, bevor die Sequenzen zum Genom angeordnet werden. Es werden
also Sequenzen manipuliert, um bessere Resultate zu erhalten. Die Werkzeuge
des FASTX-Toolkits führen einige dieser Vorverarbeitungen durch.
|
|
|
Filo
Datei- und Streamfunktionen
|
| Versions of package filo |
| Release | Version | Architectures |
| wheezy | 1.1+2011020401.2 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 1.1+2011020401.2 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 1.1+2011020401.2 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
|
License: DFSG free
|
|
Die folgenden Werkzeuge sind als Teil des Pakets filo (FILe and stream
Operations) verfügbar:
groupBy - imitiert die »groubBy«-Bedingung von Datenbanksystemen
shuffle - ordnet die Zeilen einer Datei zufällig an
stats - berechnet deskriptive Statistiken einer gegebenen Spalte von einer
Tab-begrenzten Datei oder von einem Stream
Weil ihre Namen zu allgemein sind, sind »shuffle« und »stats« unter
/usr/lib/filo zu finden.
|
|
|
Last-align
Vergleich biologischer Sequenzen für Genome
|
| Versions of package last-align |
| Release | Version | Architectures |
| squeeze | 128-1 | amd64,armel,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,sparc |
| wheezy | 199-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 199-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 199-1 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package last-align: |
| field | biology, biology:bioinformatics |
| role | program |
|
License: DFSG free
|
|
LAST ist eine Software für den Vergleich und die Alignierung von Sequenzen,
in der Regel DNA- oder Protein-Sequenzen. LAST ähnelt BLAST, kommt jedoch
besser mit sehr großen Mengen an Sequenzdaten zurecht. Hier sind zwei
Dinge, die LAST gut beherrscht:
- Vergleich großer Genome (z.B. von Säugetieren).
- Kartierung viele Sequenz-Markierungen auf einem Genom.
Die wichtigste technische Neuerung ist, dass LAST erste Übereinstimmungen
auf der Grundlage ihrer Vielfachheit findet, anstatt eine feste Größe zu
verwenden (z.B. verwendet BLAST 10-mere). Dies ermöglicht es, Markierungen
(Tags) ohne wiederholte Maskierung (repeat-masking) auf Genome anzuwenden,
ohne durch wiederholte Treffer überschüttet zu werden. Um diese
Übereinstimmungen variabler Größe zu finden, verwendet es ein von Vmatch
inspiriertes Suffix-Array. Um eine hohe Empfindlichkeit zu erreichen,
verwendet LAST ein nicht zusammenhängendes Suffix-Array, analog zu »spaced
seeds«.
|
|
|
Maq
Kartiert kurze polymorphe DNA-Sequenzen mit fester Länge auf Referenzsequenzen
|
| Versions of package maq |
| Release | Version | Architectures |
| squeeze | 0.7.1-3 | amd64,armel,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,sparc |
| wheezy | 0.7.1-5 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 0.7.1-5 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 0.7.1-5 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package maq: |
| biology | nuceleic-acids |
| field | biology, biology:bioinformatics |
| interface | commandline |
| role | program |
| scope | utility |
| use | analysing, comparing, searching |
| works-with-format | plaintext |
|
License: DFSG free
|
|
Maq (kurz für Mapping and Assembly with Quality) erstellt kartierende
Anordnungen von kurzen DNA-Sequenzen, wie sie von Sequenziergeräten der
nächsten Generation erzeugt werden. Das Programm wurde speziell für den
Illumina-Solexa 1G Genetic Analyzer entwickelt und hat eine erste
Implementierung für den Umgang mit mit ABI-SOLiD-Daten. Maq war zuvor
bekannt als mapass2.
Die Entwicklung von Maq wurde im Jahr 2008 eingestellt. Seine Nachfolger sind
BWA und SAMtools.
|
|
|
Mira-assembler
Assembler von »Whole Genome Shotgun«- und EST-Sequenzierungen
|
| Versions of package mira-assembler |
| Release | Version | Architectures |
| wheezy | 3.4.0.1-3 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 3.4.0.1-3 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 3.4.0.1-3 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| upstream | 3.9.17 |
| Debtags of package mira-assembler: |
| role | program |
|
License: DFSG free
|
|
Der Genomfragment-Assembler MIRA ist ein spezialisierter Assembler für
Sequenzierungsprojekte, die aufgrund ihrer großen Anzahl an Wiederholungen
als »schwer« angesehen werden. Für Transkripte der Expressed Sequence Tags
(ESTs) ist miraEST zuständig. Es ist spezialisiert auf die Rekonstruktion
fehlerfreier mRNA-Transkripte während Single Nucleotide Polymorphisms
(SNPs) erkannt und klassifiziert werden, die in verschiedenen Varianten
vorkommen.
Der Assembler wird routinemäßig für unterschiedliche Aufgaben verwendet wie
Erkennung von Mutationen in verschiedenen Zelltypen, Ähnlichkeitsanalysen
von Transkripten verschiedener Organismen und fehlerfreie Zusammensetzung
von Sequenzen aus diversen Quellen für die Entwicklung von Oligonukleotiden
bei medizinischen Microarray-Experimenten.
Das Paket enthält folgende ausführbaren Dateien:
Enthaltene Programme:
- mira: setzt Genomsequenzen zusammen
- miramem: schätzt den benötigten Speicher, um Projekte zusammenzusetzen.
Realisiert durch eine Verknüpfung zu mira
- convert_project: konvertiert Projekt-Datentypen in andere Typen
- caf2fasta, caf2gbf, caf2text, caf2html, gbf2caf und gbf2fasta sind
einige oft genutzte Programme für Dateikonvertierungen (realisiert
durch Verknüpfungen zu convert_project)
- scftool: Programmsatz zur Arbeit mit SCF-Trace-Dateien
- fastatool: Programmsatz zur Arbeit mit FASTA-Trace-Dateien
Enthaltene Skripte:
- fasta2frag.tcl: fragmentiert Sequenzen in kleinere, überlappende
Untersequenzen. Nützlich bei der Simulation einer
Shotgun-Sequenzierung. Kann Untersequenzen in beiden Richtungen
(/default) und auch Paired-End-Sequenzen erstellen.
- fastaselect.tcl: kann aus einer FASTA-Datei (und eventuell einer »FASTA
quality«-Datei) und einer Datei mit Namen der Reads die Sequenzen aus
der FASTA-Eingabe (und der .qual-Datei) auswählen und diese als FASTA
ausgeben
- fastqselect.tcl: wie fastaselect.tcl, nur für FASTQ
- fixACE4consed.tcl: Consed hat einen Fehler, das das Lesen von
Konsensusmarkierungen in ACE-Dateien verhindert, die vom Assembler
MIRA (und möglicherweise von anderen Programmen) geschrieben wurden.
Dieses Skript ändert eine ACE-Datei so, dass Consed die
Konsensusmarkierungen lesen kann
|
|
|
Mothur
Sequenzanalysen-Suite zur Forschung an Mikrobiota
|
| Versions of package mothur |
| Release | Version | Architectures |
| wheezy | 1.24.1-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 1.24.1-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 1.24.1-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| upstream | 1.31.1 |
| Debtags of package mothur: |
| role | program |
|
License: DFSG free
|
|
Mothur versucht eine quelloffene, erweiterbare Software zu entwickeln, die
den bioinformatischen Anforderungen der Forscher der mikrobiellen Ökologie
genügt. Es vereinigt die Funktionalität von DOTUR, SONS, TreeClimber,
s-libshuff, UniFrac und vielen weiteren. Mothur hat nicht nur die
Flexibilität dieser Algorithmen verbessert, sondern auch eine Anzahl an
neuen Fähigkeiten hinzugefügt, etwa Berechnungs- und Visualisierungswerkzeuge.
Please cite:
Patrick D Schloss, Sarah L Westcott, Thomas Ryabin, Justine R Hall, Martin Hartmann, Emily B Hollister, Ryan A Lesniewski, Brian B Oakley, Donovan H Parks, Courtney J Robinson, Jason W Sahl, Blaz Stres, Gerhard G Thallinger, David J Van Horn and Carolyn F Weber:
Introducing mothur: Open-source, platform-independent, community-supported software for describing and comparing microbial communities.
(PubMed)
Appl Environ Microbiol
75(23):7537-7541
(2009)
|
|
|
Picard-tools
Command line tools to manipulate SAM and BAM files
|
| Versions of package picard-tools |
| Release | Version | Architectures |
| squeeze | 1.27-1 | all |
| wheezy | 1.46-1 | all |
| jessie | 1.82-2 | all |
| sid | 1.90-2 | all |
| upstream | 1.92 |
|
License: DFSG free
|
|
SAM (Sequence Alignment/Map) format is a generic format for storing
large nucleotide sequence alignments. Picard Tools includes these
utilities to manipulate SAM and BAM files:
BamToBfq IlluminaBasecallsToSam
BuildBamIndex MarkDuplicates
CalculateHsMetrics MeanQualityByCycle
CleanSam MergeBamAlignment
CollectAlignmentSummaryMetrics MergeSamFiles
CollectGcBiasMetrics NormalizeFasta
CollectInsertSizeMetrics QualityScoreDistribution
CollectRnaSeqMetrics ReplaceSamHeader
CompareSAMs RevertSam
CreateSequenceDictionary SamFormatConverter
ExtractIlluminaBarcodes SamToFastq
EstimateLibraryComplexity SortSam
FastqToSam ValidateSamFile
FixMateInformation ViewSam
|
|
|
Qiime
Quantitative Insights Into Microbial Ecology
|
| Versions of package qiime |
| Release | Version | Architectures |
| wheezy | 1.4.0-2 | amd64,armel,armhf,i386,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 1.4.0-2 | amd64,armel,armhf,i386,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 1.5.0-2 | amd64,armel,armhf,hurd-i386,i386,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package qiime: |
| role | program |
|
License: DFSG free
|
|
QIIME (canonically pronounced ‘Chime’) is a pipeline for performing
microbial community analysis that integrates many third party tools which
have become standard in the field. A standard QIIME analysis begins with
sequence data from one or more sequencing platforms, including
- Sanger,
- Roche/454, and
-
Illumina GAIIx.
With all the underlying tools installed,
of which not all are yet available in Debian (or any other Linux
distribution), QIIME can perform
-
library de-multiplexing and quality filtering;
- denoising with PyroNoise;
- OTU and representative set picking with uclust, cdhit, mothur, BLAST,
or other tools;
- taxonomy assignment with BLAST or the RDP classifier;
- sequence alignment with PyNAST, muscle, infernal, or other tools;
- phylogeny reconstruction with FastTree, raxml, clearcut, or other tools;
- alpha diversity and rarefaction, including visualization of results,
using over 20 metrics including Phylogenetic Diversity, chao1, and
observed species;
- beta diversity and rarefaction, including visualization of results,
using over 25 metrics including weighted and unweighted UniFrac,
Euclidean distance, and Bray-Curtis;
- summarization and visualization of taxonomic composition of samples
using pie charts and histograms
and many other features.
QIIME includes parallelization capabilities for many of the
computationally intensive steps. By default, these are configured to
utilize a mutli-core environment, and are easily configured to run in
a cluster environment. QIIME is built in Python using the open-source
PyCogent toolkit. It makes extensive use of unit tests, and is highly
modular to facilitate custom analyses.
Please cite:
J Gregory Caporaso, Justin Kuczynski, Stombaugh Jesse, Bittinger Kyle, Bushman Frederic D, Costello Elizabeth K, Fierer Noah, Pena Antonio Gonzalez, Goodrich Julia K, Gordon Jeffrey I, Huttley Gavin A, Kelley Scott T, Knights Dan, Koenig Jeremy E, Ley Ruth E, Lozupone Catherine A, McDonald Daniel, Muegge Brian D, Pirrung Meg, Reeder Jens, Sevinsky Joel R, Turnbaugh Peter J, Walters William A, Widmann Jeremy, Yatsunenko Tanya, Zaneveld Jesse and Knight Rob:
QIIME allows analysis of high-throughput community sequencing data.
(PubMed)
Nature Methods
7:335 - 336
(2010)
|
|
|
R-bioc-edger
Empirische Analyse von digitalen Genexpressionsdaten mit R
|
| Versions of package r-bioc-edger |
| Release | Version | Architectures |
| wheezy | 2.6.1~dfsg-1 | all |
| jessie | 2.6.1~dfsg-1 | all |
| sid | 3.2.3~dfsg-1 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package r-bioc-edger: |
| field | biology |
| interface | commandline |
| role | plugin, program, shared-lib |
| scope | utility |
| use | analysing, calculating, comparing |
|
License: DFSG free
|
|
Bioconductor-Paket zur Differentialexpressionsanalyse eines vollkommen
sequenzierten Transkriptom (RNA-seq) und digitalen Genexpressionsprofilen
mit biologischer Replikation. Es verwendet empirische Bayes-Methoden und
exakte Tests, die auf der negativen Binomialverteilung basieren. Es ist auch
für die Differentialsignalanalyse mit anderen Typen von Zähldaten in der
Größenordnung von Genomen verwendbar.
|
|
|
R-bioc-hilbertvis
GNU-R-Paket zur Visualisierung langer Datenvektoren
|
| Versions of package r-bioc-hilbertvis |
| Release | Version | Architectures |
| squeeze | 1.5.0-2 | amd64,armel,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,sparc |
| wheezy | 1.14.0-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 1.18.0-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 1.18.0-1 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package r-bioc-hilbertvis: |
| biology | nuceleic-acids |
| field | biology, biology:bioinformatics |
| use | analysing |
|
License: DFSG free
|
|
Dieses Werkzeug ermöglicht die Anzeige sehr langer Datenvektoren auf
platzsparende Weise, indem die Daten entlang einer 2D-Hilbert-Kurve
angeordnet werden. Der Benutzer kann dann gleichzeitig visuell sowohl die
großräumige Struktur und die Verteilung der Merkmale als auch die ungefähre
Form und die Intensität der einzelnen Merkmale beurteilen.
In der Bioinformatik ist ein typischer Anwendungsfall ChIP-Chip und
ChIP-Seq, oder grundsätzlich alle Arten von genomischen Daten, die
konventionell als quantitative Spur (»wiggle-Daten«) von Genom-Browsern
angezeigt werden, wie sie von Ensembl oder UCSC bereitgestellt werden.
|
|
|
Samtools
Verarbeitung von Sequenzalignments in den Formaten SAM und BAM
|
| Versions of package samtools |
| Release | Version | Architectures |
| squeeze | 0.1.8-1 | amd64,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390 |
| wheezy | 0.1.18-1 | amd64,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390 |
| jessie | 0.1.19-1 | amd64,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x |
| sid | 0.1.19-1 | amd64,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x |
| Debtags of package samtools: |
| field | biology |
| interface | commandline |
| network | client |
| role | program |
| scope | utility |
| uitoolkit | ncurses |
| use | analysing, calculating, filtering |
| works-with | biological-sequence |
|
License: DFSG free
|
|
Der Werkzeugsatz Samtools verarbeitet Alignments von Nukleotidsequenzen im
binären Format BAM. Er importiert aus und exportiert in das ASCII-Format SAM
(Sequence Alignment/Map), kann sortieren, verbinden und indizieren.
Zusätzlich können mit Samtools »Reads« in jeder Region schnell erfasst
werden. Es ist auf ein Funktionieren via Stream erstellt worden und kann
eine BAM-Datei (jedoch keine SAM-Datei) auf einem entfernten FTP- oder
HTTP-Server öffnen.
|
|
|
Sra-toolkit
utilities for the NCBI Sequence Read Archive
|
| Versions of package sra-toolkit |
| Release | Version | Architectures |
| wheezy | 2.1.7a-1 | amd64,i386,kfreebsd-amd64,kfreebsd-i386 |
| jessie | 2.1.7a-1 | amd64,i386,kfreebsd-amd64,kfreebsd-i386 |
| sid | 2.1.7a-1 | amd64,i386,kfreebsd-amd64,kfreebsd-i386 |
| upstream | 2.3.2-4 |
|
License: DFSG free
|
|
Tools for reading the SRA archive, generally by converting individual runs
into some commonly used format such as fastq.
The textual dumpers "sra-dump" and "vdb-dump" are provided in this
release as an aid in visual inspection. It is likely that their
actual output formatting will be changed in the near future to a
stricter, more formalized representation[s]. PLEASE DO NOT RELY UPON
THE OUTPUT FORMAT SEEN IN THIS RELEASE.
The "help" information will be improved in near future releases, and
the tool options will become standardized across the set. More documentation
will also be provided documentation on the NCBI web site.
Tool options may change in the next release. Version 1 tool options
will remain supported wherever possible in order to preserve
operation of any existing scripts.
Please cite:
Rasko Leinonen, Ruth Akhtar, Ewan Birney, James Bonfield, Lawrence Bower, Matt Corbett, Ying Cheng, Fehmi Demiralp, Nadeem Faruque, Neil Goodgame, Richard Gibson, Gemma Hoad, Christopher Hunter, Mikyung Jang, Steven Leonard, Quan Lin, Rodrigo Lopez, Michael Maguire, Hamish McWilliam, Sheila Plaister, Rajesh Radhakrishnan, Siamak Sobhany, Guy Slater, Petra Ten Hoopen, Franck Valentin, Robert Vaughan, Vadim Zalunin, Daniel Zerbino and Guy Cochrane:
Improvements to services at the European Nucleotide Archive.
(PubMed,eprint)
Nucleic Acids Research
38(Database issue):D39-45
(2010)
|
|
|
Ssake
Genomische Anwendung, die Millionen sehr kurzer DNA-Sequenzen zusammenführt
|
| Versions of package ssake |
| Release | Version | Architectures |
| squeeze | 3.5-1 | all |
| wheezy | 3.8-2 | all |
| jessie | 3.8-2 | all |
| sid | 3.8-2 | all |
| Debtags of package ssake: |
| biology | nuceleic-acids |
| field | biology |
| interface | shell |
| role | program |
| scope | utility |
| use | analysing |
|
License: DFSG free
|
|
Short Sequence Assembly by K-mer search and 3′ read Extension (SSAKE) ist
eine genomische Anwendung, die Millionen kurzer Nukleotidsequenzen auf
aggressive Weise zusammenführt, indem stufenweise nach den perfekten
3'-endigen k-Meren - unter Verwendung eines DNA-Präfix-Baumes - gesucht
wird. SSAKE wurde entwickelt, um die Informationen von Reads aus kurzen
Sequenzen wirksam zu nutzen. Dies geschieht, indem diese durchgängig in
Contigs angehäuft werden, die zur Charakterisierung von neu zu
sequenzierenden Targets verwendet werden.
|
|
|
Tabix
generic indexer for TAB-delimited genome position files
|
| Versions of package tabix |
| Release | Version | Architectures |
| wheezy | 0.2.6-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 0.2.6-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 0.2.6-1 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package tabix: |
| field | biology |
| interface | commandline |
| network | client |
| role | program |
| scope | utility |
| use | compressing, filtering |
| works-with | text |
|
License: DFSG free
|
|
Tabix indexes files where some columns indicate sequence coordinates: name
(usually a chromosme), start and stop. The input data file must be position
sorted and compressed by bgzip (provided in this package), which has a gzip
like interface. After indexing, tabix is able to quickly retrieve data lines by
chromosomal coordinates. Fast data retrieval also works over network if an URI
is given as a file name.
|
|
|
Tophat
fast splice junction mapper for RNA-Seq reads
|
| Versions of package tophat |
| Release | Version | Architectures |
| jessie | 2.0.8-1 | amd64,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x |
| sid | 2.0.8-1 | i386 |
| sid | 2.0.8b-1 | amd64,armhf,hurd-i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x |
|
License: DFSG free
|
|
TopHat aligns RNA-Seq reads to mammalian-sized genomes using the ultra
high-throughput short read aligner Bowtie, and then analyzes the
mapping results to identify splice junctions between exons.
TopHat is a collaborative effort between the University of Maryland
Center for Bioinformatics and Computational Biology and the
University of California, Berkeley Departments of Mathematics and
Molecular and Cell Biology.
The package is enhanced by the following packages:
cufflinks
|
|
|
Uc-echo
error correction algorithm designed for short-reads from NGS
|
| Versions of package uc-echo |
| Release | Version | Architectures |
| jessie | 1.12-1 | amd64,i386,kfreebsd-amd64,powerpc,s390,s390x,sparc |
| sid | 1.12-1 | amd64,i386,kfreebsd-amd64,powerpc,s390,s390x,sparc |
|
License: DFSG free
|
|
ECHO is an error correction algorithm designed for short-reads
from next-generation sequencing platforms such as Illumina's
Genome Analyzer II. The algorithm uses a Bayesian framework to
improve the quality of the reads in a given data set by employing
maximum a posteriori estimation.
|
|
|
Vcftools
Collection of tools to work with VCF files
|
| Versions of package vcftools |
| Release | Version | Architectures |
| wheezy | 0.1.9-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 0.1.10+dfsg-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 0.1.10+dfsg-1 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| Debtags of package vcftools: |
| role | program |
|
License: DFSG free
|
|
VCFtools is a program package designed for working with VCF files, such as
those generated by the 1000 Genomes Project. The aim of VCFtools is to
provide methods for working with VCF files: validating, merging, comparing
and calculate some basic population genetic statistics.
Please cite:
Petr Danecek, Adam Auton, Goncalo Abecasis, Cornelis A. Albers, Eric Banks, Mark A. DePristo, Robert E. Handsaker, Gerton Lunter, Gabor T. Marth, Stephen T. Sherry, Gilean McVean and Richard Durbin:
The variant call format and VCFtools.
(PubMed,eprint)
Bioinformatics
27(15):2156-8
(2011)
|
|
|
Velvet
Assembler für Sequenzen von Nukleinsäuren von sehr kleinen Bruchstücken (»short reads«)
|
| Versions of package velvet |
| Release | Version | Architectures |
| squeeze | 1.0.02~nozlibcopy-1 | amd64,armel,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,sparc |
| wheezy | 1.2.03~nozlibcopy-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| jessie | 1.2.03~nozlibcopy-1 | amd64,armel,armhf,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| sid | 1.2.03~nozlibcopy-1 | amd64,armel,armhf,hurd-i386,i386,ia64,kfreebsd-amd64,kfreebsd-i386,mips,mipsel,powerpc,s390,s390x,sparc |
| upstream | 1.2.09 |
| Debtags of package velvet: |
| biology | nuceleic-acids |
| field | biology, biology:bioinformatics |
| interface | commandline |
| role | program |
| use | analysing |
|
License: DFSG free
|
|
Velvet ist ein genomischer De-Novo-Assembler, der speziell für
Short-Read-Sequenziertechnologien, wie Solexa oder 454, erstellt wurde.
Entwickelt wurde der Assembler von Daniel Zerbino und Ewan Birney am
European Bioinformatics Institute (EMBL-EBI), nahe Cambridge, im
Vereinigten Königreich.
Derzeit liest Velvet Short-Read-Sequenzen ein, entfernt Fehler und erstellt
hochqualitative einzigartige Contigs. Danach werden, falls vorhanden,
Paired-Read-Informationen verwendet, um die repetitiven Bereiche zwischen
Contigs zu erhalten.
|
|
Debian packages in contrib or non-free
|
Cufflinks
Transcript assembly, differential expression and regulation for RNA-Seq
|
| Versions of package cufflinks |
| Release | Version | Architectures |
| wheezy | 1.3.0-2 (non-free) | amd64 |
| jessie | 2.1.1-2 (non-free) | amd64 |
| sid | 2.1.1-2 (non-free) | amd64 |
| Debtags of package cufflinks: |
| field | biology |
| interface | commandline |
| role | program |
| scope | utility |
| use | analysing |
| works-with | biological-sequence |
|
License: non-free
|
|
Cufflinks assembles transcripts, estimates their abundances, and tests for
differential expression and regulation in RNA-Seq samples. It accepts aligned
RNA-Seq reads and assembles the alignments into a parsimonious set of
transcripts. Cufflinks then estimates the relative abundances of these
transcripts based on how many reads support each one.
|
|
Packaging has started and developers might try the packaging code in VCS
|
Mosaik-aligner
reference-guided aligner for next-generation sequencing
|
License: MIT
Debian package not available
Version: 1.1.0021-1
|
|
MosaikBuild converts various sequence formats into Mosaik’s native read
format. MosaikAligner pairwise aligns each read to a specified series of
reference sequences. MosaikSort resolves paired-end reads and sorts the
alignments by the reference sequence coordinates. Finally, MosaikText
converts alignments to different text-based formats.
At this time, the workflow consists of supplying sequences in FASTA,
FASTQ, Illumina Bustard & Gerald, or SRF file formats and producing
results in the BLAT axt, the BAM/SAM, the UCSC Genome Browser bed, or
the Illumina ELAND formats.
|
No known packages available
|
Annovar
annotate genetic variants detected from diverse genomes
|
License: Open Source for non-profit
Debian package not available
|
|
ANNOVAR is an efficient software tool to utilize update-to-date information
to functionally annotate genetic variants detected from diverse genomes
(including human genome hg18, hg19, as well as mouse, worm, fly, yeast and
many others). Given a list of variants with chromosome, start position, end
position, reference nucleotide and observed nucleotides, ANNOVAR can perform:
1. Gene-based annotation: identify whether SNPs or CNVs cause protein coding
changes and the amino acids that are affected. Users can flexibly use RefSeq
genes, UCSC genes, ENSEMBL genes, GENCODE genes, or many other gene definition
systems.
2. Region-based annotations: identify variants in specific genomic regions,
for example, conserved regions among 44 species, predicted transcription
factor binding sites, segmental duplication regions, GWAS hits, database
of genomic variants, DNAse I hypersensitivity sites, ENCODE
H3K4Me1/H3K4Me3/H3K27Ac/CTCF sites, ChIP-Seq peaks, RNA-Seq peaks, or many
other annotations on genomic intervals.
3. Filter-based annotation: identify variants that are reported in dbSNP,
or identify the subset of common SNPs (MAF>1%) in the 1000 Genome Project,
or identify subset of non-synonymous SNPs with SIFT score>0.05, or many
other annotations on specific mutations.
4. Other functionalities: Retrieve the nucleotide sequence in any
user-specific genomic positions in batch, identify a candidate gene list
for Mendelian diseases from exome data, identify a list of SNPs from
1000 Genomes that are in strong LD with a GWAS hit, and many other
creative utilities.
In a modern desktop computer (3GHz Intel Xeon CPU, 8Gb memory), for
4.7 million variants, ANNOVAR requires ~4 minutes to perform
gene-based functional annotation, or ~15 minutes to perform stepwise
"variants reduction" procedure, making it practical to handle hundreds
of human genomes in a day.
|
|
Forge
genome assembler for mixed read types
|
License: Apache 2.0
Debian package not available
|
|
Forge Genome Assembler is a parallel, MPI based genome assembler for
mixed read types.
Forge is a classic "Overlap layout consensus" genome assembler written
by Darren Platt and Dirk Evers. Implemented in C++ and using the
parallel MPI library, it runs on one or more machines in a network and
can scale to very large numbers of reads provided there is enough
collective memory on the machines used. It generates a full consensus
alignment of all reads, can handle mixtures of sanger, 454 and illumina
reads. There is some support for solid color space and it includes built
in tools for vector trimming and contamination screening.
Forge and was originally developed at Exelixis and they have kindly
agreed to place the software which underwent much subsequent development
outside Exelixis, into the public domain. Forge works with most of the
common MPI implementations.
|
|