Unix - Gestion de grandes données bioinformatiques

Apr 27, 2016 3 min read

Unix - Gestion de grandes données bioinformatiques

Apr 27, 2016 3 min read

MOTS-CLEFS : Omics, NGS, données, analyse, gestion, manipulation, UNIX, cluster.

PRÉREQUIS : Aucun.

OBJECTIFS :

Depuis l’avènement des approches Omics et NGS, le changement de volumes des données et les méthodes d’analyses imposent aux biologistes d’utiliser de plus en plus d’outils informatiques sur des clusters d’analyse. L’objectif de cette formation est de fournir les connaissances et pratiques nécessaires pour réaliser indépendamment ces,analyses sur ces cluster (ou autres serveurs fonctionnant sous UNIX).

Cette formation, destinée aux biologistes, apporte l’ensemble des connaissances pour être capable ensuite de gérer et manipuler de gros volumes de données. Dans les domaines Omics, la plupart des analyses sont conduites sur des clusters de calcul, eux-mêmes fonctionnant sous UNIX. L’objectif principal de cette formation est de fournir l’ensemble des informations et connaissances sur l’utilisation de ces outils (cluster et systèmes UNIX) pour exposer la puissance de ces outils et surtout éviter les écueils auxquels sont confrontés les débutants.

Le premier chapitre détaille les principaux outils UNIX pour gérer des fichiers (copie, visionnage, extraction de lignes ou colonnes, etc.) ainsi que le principe de chaînage des opérations. Ensuite, le 2ème chapitre est consacré à l’utilisation d’un cluster de calcul (SLURM). Enfin, en dernier point, le dernier chapitre initie les apprenant(e)s à l’automatisation des tâches sous un environnement UNIX avec la réalisation de script pour effectuer des tâches automatiquement. A l’issue de la formation, les apprenant(e)s sont opérationnels pour travailler sous un environnement UNIX, connaissent le fonctionnement et l’utilisation d’un cluster de calcul, ont été initiés au développement de script d’automatisation (en BASH et AWK).

Un de points forts de cette formation est tout d’abord l’utilisation de serveurs identiques à ceux utilisés en production dans les génopôles (par exemple). Ainsi, l’ensemble des connaissances de la formation sont applicables sur n’importe quelle infrastructure de calcul. Dans le cas où des éléments peuvent être sujets à des différences, le formation apporte les clefs pour gérer ces situations afin de pouvoir être opérationnel une fois dans sa structure d’accueil. L’autre points fort de cette formation est qu’il n’est absolument nécessaire d’avoir des connaissances en informatique. La formation est dispensée par un formateur aussi biologiste de formation, connaissant ainsi les écueils de « biologistes débutants » sur ces systèmes.

PUBLIC CIBLÉ :

Toute personne souhaitant faire ses premiers pas dans le domaine ici abordé.

DATE ET LIEU :

25 et 26 novembre 2025 ; 9h00-17h30 ; pause déjeuner 13h00-14h00.

L’Institut Agro, 65 rue de Saint-Brieuc, Rennes.

PÉDAGOGIE :

L’ensemble de la formation est réalisé directement sur les serveurs d’enseignement et de formation avec un cluster privé de calcul.

FORMATEUR : Frédéric Lecerf.

TARIF ET INSCRIPTION :

Cliquez ici pour connaître les tarifs et vous inscrire.

Tarifs préférentiels par rapport aux tarifs affichés selon convention (certaines Ecoles doctorales et centres INRA).

PROGRAMME :

1. Initiation au système UNIX et aux principales commandes :

Le choix d’UNIX et ses particularités,
Principe de gestion de données,
Commandes essentielles à UNIX,
Traitements de fichiers :
- Savoir extraire ou supprimer des lignes ou des colonnes,
- Changer le format d’un fichier,
- Fusionner des données,
- Chercher des données dans un fichier,
- Rapide introduction à AWK.

2. Analyse sur un cluster de calcul :

Topologie d’un cluster,
Commandes essentielles,
Modes direct ou batch ?

3. Notions avancées d’UNIX :

Qu’est-ce qu’un SHELL ?
Notion de variables d’environnement,
Gestion des processus.

4. Automatisation :

Introduction aux scripts UNIX,
Les boucles de traitements,
Analyse massive sur un cluster.

Unix - Gestion de grandes données bioinformatiques

Unix - Gestion de grandes données bioinformatiques

Related