Tribunes

Florange Telecom

L'approche radicaliste de l'architecture du Web : l'assembleur

Big Dataxe

Le Big Data individuel

La comptine du cloud

Toute les tribunes

La vidéo du moment
Actualité marchés verticaux

Les notaires adoptent la lettre recommandée électronique de Maileva

par arnaud
le 13/09/2017 à 11:28

Captivea ouvre le premier club utilisateur SugarCRM francophone

par Celia Jay
le 21/08/2017 à 10:35

Captivea ouvre le premier club utilisateur SugarCRM francophone

par Francois PAPON
le 11/08/2017 à 11:59

Capgemini améliore sa marge

par lecteur-itrnews
le 10/08/2017 à 03:51

Avast rachète Piriform (Ccleaner)

par MichelWer
le 08/08/2017 à 05:15

Rechercher
Services
Logo_abonn Job Les derniers communiqués de presse Proposer un communiqué de presse
Fils RSS : Top 10 quotidien

Du nouveau pour l’analyse big data dans le secteur pharmaceutique,
Par Ted Slater, Life Sciences Solutions Architect chez Cray Inc.

mardi 12 juillet 2016

On parle beaucoup du big data en ce moment dans l’univers de la santé et des sciences de la vie et ce n’est pas près de s’arrêter car l’information est le moteur de tout ce secteur.

Sur le vaste marché qu’est celui de l’industrie pharmaceutique, chacun sait que les indications qui figurent sur la boîte d’un médicament comptent autant que le produit lui-même. Or ces indications sont juste un assemblage d’informations spécifiques, distillées soigneusement à partir de plusieurs téraoctets de données collectées et analysées pendant des années par un grand nombre de scientifiques. Pour rester dans la course, les laboratoires pharmaceutiques doivent avoir une excellente capacité à convertir les données en information et l’information en connaissances. Et les enjeux sont énormes car chaque jour des millions de patients font confiance à la qualité de ces données et à la fiabilité des analyses effectuées par les chercheurs.

L’analyse big data n’est pas une tâche facile. Les données sont très diverses, les volumes colossaux et il en provient de partout dans tous les formats imaginables, depuis les énormes fichiers texte, les feuilles de calcul, les bases de données en forme de fichiers plats jusqu’aux très gros fichiers d’images biomédicales. On sait de mieux en mieux et de plus en plus vite collecter toutes ces données, parfois parce qu’on y est obligés (en raison de la réglementation), parfois parce que la technologie le permet (les objets connectés par exemple). Tous ces paramètres font de l’analyse big data une tâche extrêmement difficile. Et pour couronner le tout, les spécialistes des données auxquels les entreprises font appel pour effectuer cette analyse doivent avoir à la fois des compétences IT et une bonne connaissance du domaine concerné. C’est peu dire qu’ils sont difficiles à trouver et que leur temps est très précieux.

Compliquant encore un peu plus les choses, l’environnement de calcul haute performance (HPC) dans le secteur de la santé et des sciences de la vie est loin d’être figé. Alors que le big data ne cesse d’enfler et que les technologies comme Spark, Hadoop et les bases de données graphe gagnent de plus en plus de terrain, l’HPC n’est plus réservé uniquement aux chercheurs. Chacun dans l’entreprise doit pouvoir y accéder facilement et tirer parti des puissants outils comme l’apprentissage profond, même si pour cela l’entreprise doit se doter d’une puissance de traitement supérieure à celle offerte par les architectures de calcul traditionnelles.

Ces problèmes sont exacerbés par le fait que le rythme de l’innovation dans le secteur de la santé et des sciences de la vie est plus rapide que celui de l’actualisation des infrastructures et des meilleures pratiques par l’IT. Bon nombre de ces innovations ont des incidences significatives sur les systèmes d’information. Aujourd’hui, les workflows de séquençage nouvelle génération (NGS) relèvent autant de l’informatique que de la biologie. Les départements IT sont censés créer des solutions efficaces pour le NGS et toute autre application qui durera des années, pour des chercheurs, qui, sans que ce soit de leur faute, ne parviennent généralement pas à formuler leurs besoins au-delà de quelques mois. La tâche des équipes informatiques est donc très difficile, alors que les volumes de données enflent un peu plus chaque jour et que le terrain est constamment en mouvement.

Pour les professionnels et les chercheurs IT, l’HPC est la solution pour gérer les problèmes posés par le big data dans un environnement dont la taille, la portée et la complexité évoluent en permanence.

Outre une architecture HPC et de solides compétences dans ce domaine, ces professionnels ont également besoin d’une solution analytique. Le duo architecture HPC et logiciel d’analyse semble être la solution idéale pour un secteur pharmaceutique en pleine évolution.

Actuellement les bases de données graphe ont le vent en poupe et progressent plus rapidement sur le marché que tout autre type de base de données. Cette popularité croissante s’explique, entre autres nombreuses raisons, par le fait que de plus en plus d’utilisateurs réalisent que les bases de données graphe sont bien plus performantes que les bases de données relationnelles pour représenter les relations entre des entités. Elles permettent de représenter de façon très naturelle tout ce que vous savez sur n’importe quel sujet, comme la biologie du cancer, par exemple, mais aussi de déceler les schémas relationnels ou d’interaction entre des entités ; autant d’éléments qu’il est très difficile voire impossible d’obtenir avec les bases de données relationnelles.

Les chercheurs doivent avoir la possibilité de créer des graphes contenant des dizaines de milliards de relations, intégrées depuis toutes sortes de sources, et d’interroger ces graphes de manière souple et rapide pour enrichir leurs connaissances. Les graphes sont utilisés depuis des décennies dans le domaine des sciences de la vie pour représenter les mécanismes biochimiques et biologiques au niveau moléculaire et cellulaire. Aujourd’hui ils servent aussi bien pour la génomique du cancer et l’étude de la morphologie des cellules que pour l’analyse des dossiers médicaux électroniques des patients ou encore la cybersécurité, et le nombre d’applications ne fait qu’augmenter un peu plus chaque jour. Avec les architectures traditionnelles, la vitesse de calcul diminue considérablement à mesure que les graphes grandissent, même si des nœuds sont ajoutés au cluster, ce qui ralentit d’autant la production des résultats.

SQ 250-300

Les 10 derniers articles mis en ligne