Production et analyse de données scientifiques
Licence Sciences de la vieParcours Biologie moléculaire et cellulaire (BMC)
Description
L’objectif de cette UE est de permettre à chaque étudiant de mettre en œuvre une démarche d’analyse de données scientifiques pour répondre aux questions qu'il se pose, que ce soit en biologie ou dans tout autre domaine. Pour cela, cette UE propose d’une part un enseignement sur la notion de données informatiques et sur les outils permettant de les produire, de les stocker et de les analyser. Cette partie théorique est complétée par un enseignement pratique en salle informatique. Chaque étudiant exploitera des données biologiques au moyen de trois approches complémentaires : (i) l’utilisation et la combinaison de commandes disponibles sur le système Linux (ii) la création d’une nouvelle commande avec le langage Python et (iii) l’exploration interactive des données produite par cette commande avec l’outil Jupyter.
Les cours magistraux aborderont notamment les concepts suivants :
- les données, leurs formats et les dépôts de données
- le Big Data et la Science des données
- les trois grandes étapes dans l’exploitation des données : récupération, transformation et analyse
- la visualisation des données
- transformer et explorer les données textuelles avec les expressions régulières
- la ligne de commande et la combinaison de commandes
- les langages de programmation (Python, R, Julia,…) et leurs idiomes (variables, collections, boucles, conditions, fonctions, librairies, classes et objets,…)
- les bases du langage Python
- les «carnets de notes interactif» et l’outil Jupyter
Compétences requises
Aucune pré-requis n’est nécessaire. Les notions nécessaires à la compréhension des données biologiques manipulées (structures 3D, génomes,...) feront partie de cet enseignement.
Compétences visées
- Comprendre les problématiques et les enjeux de la gigantesque masse de données informatiques générées par nos sociétés en général et en sciences de la vie en particulier.
- Savoir utiliser un ordinateur en ligne de commande.
- Apprendre les bases du langage Python et l’utiliser pour écrire un petit outil de récupération de données depuis une grande base de données biologiques.
- Savoir utiliser l’outil Jupyter. Très populaire, Jupyter propose un environnement dans lequel il est possible de combiner librement le code informatique et le texte en langage naturel. Il permet de très facilement tester ses outils, ses idées ainsi que ses hypothèses.
Disciplines
- Informatique
- Biochimie et biologie moléculaire