Ces dernières années, l'automatisation des techniques de séquençage a entraîné l'accumulation d'un nombre très important de séquences. Ces informations obtenues dans le monde entier sont regroupées dans deux types de bases de données: des banques de données généralistes qui stockent un très grand nombre de séquences mais de manière peu discriminante et relativement brute. La soumission de séquences à ce type de banque de données peut être faite de manière automatique par les chercheurs, il n'y a pas de vérification des séquences et peu de normalisation de nomenclature des gènes.
des bases de données spécialisées qui stockent un nombre moins important de séquences, spécialisées dans un domaine bien particulier (par exemple les gènes d'immunoglobulines pour IMGT (1)). Dans ce cas, les séquences sont vérifiées et annotées d'informations spécifiques au domaine.
Afin de centraliser un maximum d'informations pertinentes, il est donc nécessaire de transférer les données des bases de données spécialisées vers les banques de données généralistes.
Dans le cadre de ce projet, notre but est donc d'intégrer de manière la plus automatisée possible, les annotations de séquences de deux loci précis de la base de données IMGT (THE INTERNATIONAL IMMUNOGENETICS INFORMATION SYSTEM®) dans la base de données UCSC Genome Browser (5), qui centralise les annotations de séquences stockées à travers le monde. Cette dernière permet de parcourir un chromosome entier, un locus spécifique ou de rechercher des informations d' un gène en particulier sur le génome d'un organisme particulier.
Les loci concernés sont ceux des gènes humains des immunoglobulines Kappa (IGK) et des récepteurs T gamma (TRG).
[...] Genome Res. 996-1006 (2002). The UCSC (University of California, Santa Cruz) Genome Browser Database :(http://genome.ucsc.edu) update 2006. Nucl.Acid Res. 34(Database issue), D590-8 (2006). [...]
[...] Nous récupérons ensuite les informations nécessaires au fichier d'annotation : - le numéro des nucléotides de début et de fin d'alignement sur le contig ($hsp->start('hit') et $hsp>end('hit') (blast.pl lignes 53-62). Afin d'obtenir les valeurs correspondantes sur le chromosome, on ajoute aux valeurs précédentes le numéro du nucléotide correspondant au début du contig sur le chromosome. Cette information est disponible dans le champ de nom de la base de donnée : $hit->name, et extraite grâce à une expression régulière (blast.pl ligne 55). [...]
[...] W., Furey, T. S., Roskin, K.M., Pringle, T. H., Zahler, A. M., and Haussler, D. The Human Genome Browser at UCSC. [...]
[...] En effet, les informations obtenues depuis la base de données IMGT, nous indiquent que les gènes IGK sont séparés en deux groupes distants d'environ 800kb. L'alignement du gène IGKC (Figure2 en annexe) nous indique que le gène est présent au nucléotide d'après la distance (472,465 kb (source IMGT)) qui le sépare du dernier du cluster proximal gène IGKV2-40, et le fait que le gène IGKC soit en position télomérique, le cluster proximal devrait se terminer vers le nucléotide D'après les données du fichier liffAll, le contig concerné est le contig 2/NT_022184 qui comporte les nucléotides à Nous constatons donc que le cluster distal ne peut pas être sur ce contig mais sur le suivant, c'est-à-dire le contig 2/NT_032994 qui comporte les nucléotides à Les gènes IGKC, IGKJ et IGKV seront alignés sur le contig 2/NT_022184 et les gènes IGKV distaux (IGKV2D-40 à IGKV3D-7) seront alignés sur le contig 2/NT_032994. [...]
[...] L'ensemble des informations ainsi obtenues est synthétisé dans un fichier fasta contenant toutes les séquences de gènes d'un locus. Ce fichier est ensuite traité par le script blast.pl. 2-2 Alignement des gènes sur les chromosomes ( script blast.pl) Choix des séquences chromosomiques à utiliser pour aligner chaque locus. A partir du fichier fasta contenant les séquences des gènes, nous avons procédé à un alignement blast sur les séquences génomiques obtenues depuis la base de données UCSC Genome Browser (http://genome.ucsc.edu). La taille des fichiers contenant les séquences chromosomiques des chromosomes 2 (locus IGK) et 7 (locus TRG) étant trop importantes nous nous somme limités a des fragments de chromosomes (ou contig). [...]
Source aux normes APA
Pour votre bibliographieLecture en ligne
avec notre liseuse dédiée !Contenu vérifié
par notre comité de lecture