Créé(e) 26/11/2018
11 déc
2018
13h30
Station Biologique de Roscoff - Salle de conférence
Des lectures aux transcrits : méthodes de novo pour l’analyse du séquençage des transcriptomes de deuxième et troisième génération

Je présenterai mes travaux de thèse. Le but principal est de permettre le traitement de données issues du séquençage de transcriptomes, qui reflètent l’expression des gènes.

Conférencier

Camille Marchet

Je présenterai mes travaux de thèse. Le but principal est de permettre le traitement de données issues du séquençage de transcriptomes, qui reflètent l’expression des gènes. Plus précisément, il s’agit mettre à profit les caractéristiques des données produites par les nouvelles technologies de séquençage, dites de troisième génération  (TGS). Ces technologies produisent des séquences de grande taille, qui couvrent la longueur totale des gènes. Ceci présente l’avantage d’éviter  la phase d’assemblage des séquences, ce qui était nécessaire avec les données générées par les précédentes technologies de séquençage appelées NGS. En revanche, les données TGS sont bruitées (jusqu’à 15% d’erreurs de séquençage), nécessitant le développement de nouveaux algorithmes pour analyser ces données. Les travaux de cette thèse ont consisté au développement méthodologique et à l’implémentation de nouveaux algorithmes permettant le regroupement des séquences TGS par gène, puis à leur correction et enfin à la détection des différents isoformes de chaque gène.

The purpose of this work is to allow the processing of transcriptome sequencing data, which reflect gene expression. More precisely, it is a question of taking advantage of the characteristics of the data produced by the new sequencing technologies, known as third generation (TGS). These technologies produce large sequences, which cover the total length of genes. This has the advantage of avoiding the sequence assembly phase, which was necessary with the data generated by previous sequencing technologies called NGS. On the other hand, TGS data are noisy (up to 15% sequencing errors), requiring the development of new algorithms to analyze these data. The work of this thesis consisted in the methodological development and implementation of new algorithms allowing the grouping of TGS sequences by gene, then their correction and finally the detection of the different isoforms of each gene.