La bioinformatique a fait son apparition dans les années 1980 avec les premières banques de biomolécules (EMBL et GenBank). Elle propose des méthodes et des logiciels qui permettent de gérer, d'organiser, de comparer, d'analyser, d'explorer l'information génétique et génomique stockée dans les bases de données. Cette discipline permet de produire des connaissances nouvelles et est un fort support à l'élaboration de nouveaux concepts : la formalisation de l'information génétique, l'analyse des séquences (biomolécules) et de leur structure (notamment, structure 3D), l'interprétation biologique de l'information génétique, l'intégration des données (établissement de cartes et de réseaux d'interactions géniques, d'interactions protéiques ...), la prédiction fonctionnelle.
Les anglo-saxons, pour leur part, distinguent deux termes. A côté du terme de bioinformatics, équivalent à notre terme bioinformatique, ils utilisent le terme générique de biocomputing pour désigner le traitement sur ordinateur des données biologiques qui recouvre : instrumentation-robotique et analyse d'images (acquisition des données), archivage des données (bases de données), consultation des données (visualisation des données-interfaces).
[...] Un total de 42,662 séquences protéiques d'éléments non transposables a été utilisé pour classifier des familles de protéines sur la base de l'existence de domaines protéiques. Les séquences protéiques courtes (requete($sql2); #contient la position de départ du gène @stop = $mysql->requete($sql3); #contient la position de fin du gène Connexion à la base de données et création des listes avec les informations des gènes Recensement des gènes Il faut dans un premier temps récupérer les numéros d'accession, les positions physiques de début et de fin sur le chromosome des gènes présents à l'intérieur de la fenêtre courante. [...]
[...] Elle propose des méthodes et des logiciels qui permettent de gérer, d'organiser, de comparer, d'analyser, d'explorer l'information génétique et génomique stockée dans les bases de données. Cette discipline permet de produire des connaissances nouvelles et est un fort support à l'élaboration de nouveaux concepts : la formalisation de l'information génétique, l'analyse des séquences (biomolécules) et de leur structure (notamment, structure l'interprétation biologique de l'information génétique, l'intégration des données (établissement de cartes et de réseaux d'interactions géniques, d'interactions protéiques . la prédiction fonctionnelle. [...]
[...] g$numbertrie[$#numbertrie]/,@cluster; @premier = grep/^Os . g$numbertrie[0]/,@cluster; my foreach $element (@alias) { if ($element eq $premier[0]) {$debut=$start[$i];} if ($element eq $dernier[0]) } @number=(); open OUT,">>/home/OSV4/chr$chr/OSV4V05_30PEPchr$chr.csv"; print OUT "$chr\tCluster_Paralogues\t$debut\t$fin\t$nbcluster\t$nbelements\t@cluster\n close OUT; } } } close IN; } } $debutf=$finf+1; #déplacement de la fenetre de 75kb en 75kb; $finf=$debutf+74998; } exit; Annexe 2 : Script load_gff.pl pour charger les résultats au format gff dans le navigateur de génome #!/usr/bin/perl use lib ' . /blib/lib'; use Bio::DB::GFF; use Getopt::Long; my ($DSN,$ADAPTOR,$CREATE,$USER,$PASSWORD,$FASTA,$UPGRADE); GetOptions 'adaptor:s' \$ADAPTOR, 'user:s' \$USER, 'password:s' \$PASSWORD, 'fasta:s' \$FASTA, 'upgrade' \$UPGRADE, create \$CREATE) or die new(-adaptor=>$ADAPTOR,-dsn $DSN,@auth) or die "Can't open database: ",Bio::DB::GFF->error,"\n"; if ($CREATE) { $db->initialize(1); } elsif ($UPGRADE) { $db->initialize(0); my $dbi = $db->dbh; # get the raw database handle my ($count) = $dbi->selectrow_array('SELECT COUNT(*) FROM fnote'); if (defined($count) $count > { $dbi->do("INSERT INTO fattribute VALUES or die "failed: ",$dbi->errstr; $dbi->do("INSERT INTO fattribute_to_feature (fid,fattribute_id,fattribute_value) SELECT fnote.fid,1,fnote FROM fnote") or die "failed: ",$dbi->errstr; } } for my $file (@ARGV) { my $loaded = $db->load_gff($file); warn "$file: $loaded records loaded\n"; } if ($FASTA) { warn "Loading fasta $FASTA?"directory":"file"), " $FASTA\n"; my $loaded = $db->load_fasta($FASTA); warn "$FASTA: $loaded records loaded\n"; } http://www.cirad.fr/ http://www.inra.fr/ http://www.genoplante.com/ http://www.tigr.org/tdb/e2k1/osa1/ http://www.lirmm.fr/~rivals/RESEARCH/REPEVOL/ http://www.tigr.org/tdb/e2k1/osa1/para.family/index.shtml http://www.incogen.com/public_documents/vibe/details/NcbiBlastp.html http://doc.bioperl.org/releases/bioperl- 1.4 / http://docs.rinet.ru/mysql/ http://www.gmod.org/home http://www.cines.fr/ http://bioinformatics.ubc.ca/resources/tools/index.php?name=blastclust http://www.ncbi.nlm.nih.gov/ http://bioinformatics.ubc.ca/resources/tools/?name=megablast http://www.tigr.org/tdb/e2k1/osa1/batch_download.shtml http://www.geneontology.org/ http://orygenesdb.cirad.fr/ Contact : Manuel Ruiz Laboratoire d'accueil : UMR PIA,UMR BGPI (CIRAD, Montpellier) Chez les eucaryotes animaux, il a été démontré que l'ordre de gènes sur le génome n'est pas complètement aléatoire et l'examen croisé de la structure des génomes et des informations d'expression a pu montrer que l'ordre des gènes a été conservé au cours de l'évolution (voir par exemple Singer et al, Clusters of co-expressed in mammalian génomes are conserved by natural selection. [...]
[...] Il faudra tenir compte d'une certaine flexibilité dans l'association topologique introduite par la divergence des groupes de gènes après duplication. Mais quel est le seuil de similarité considéré comme acceptable pour déclarer que des gènes soient des paralogues ? Un des paramètres du programme devra être la distance maximum entre deux membres pour respecter le fait que l'on veut détecter des gènes colocalisés et non éparpillés à travers le génome. Un cluster sera composé au moins de deux membres et sans limite de taille et d'effectif L'outil devra être générique et s'adapter à n'importe quel génome. [...]
[...] Il met à la disposition des chercheurs de nombreuses ressources génomiques issues du séquençage automatique. La partie consacrée à l'annotation du génome du riz (Rice Genome Annotation Database and Resource[4]) propose de télécharger à partir de son site FTP, des données génomiques du riz ainsi que leur annotation (fonctionnelle entre autre). La version 3.0 datée de Décembre 2004 contient 370,630,783 bp de séquences nucléiques qui correspondent aux 12 chromosomes du riz pour lesquels un total de 57,915 gènes ont été prédits. [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture