Tribunes

Florange Telecom

L'approche radicaliste de l'architecture du Web : l'assembleur

Big Dataxe

Le Big Data individuel

La comptine du cloud

Toute les tribunes

La vidéo du moment
Actualité marchés verticaux

Les notaires adoptent la lettre recommandée électronique de Maileva

par arnaud
le 13/09/2017 à 11:28

Captivea ouvre le premier club utilisateur SugarCRM francophone

par Celia Jay
le 21/08/2017 à 10:35

Captivea ouvre le premier club utilisateur SugarCRM francophone

par Francois PAPON
le 11/08/2017 à 11:59

Capgemini améliore sa marge

par lecteur-itrnews
le 10/08/2017 à 03:51

Avast rachète Piriform (Ccleaner)

par MichelWer
le 08/08/2017 à 05:15

Rechercher
Services
Logo_abonn Job Les derniers communiqués de presse Proposer un communiqué de presse
Fils RSS : Top 10 quotidien

Déduplication : comment faire le bon choix ?

jeudi 31 août 2017

La déduplication a d'abord été introduite par les fournisseurs de sauvegarde puis embarquée dans les baies All-Flash pour les rendre économiquement rentables ailleurs que sur les applications critiques nécessitant de la performance et bénéficiant de budget illimité. En l’absence de mécanisme de réduction de données (déduplication/compression/thin) le stockage en mémoire (Flash/SSD) n'est pas accessible pour la plupart des clients (environ $10/GB). Pour la petite histoire, sur le stockage primaire ce sont les environnements VDI (Virtual Desktop Infrastructure) qui sont à l'origine du décollage de l'adoption du Flash dans l'IT.

Mike Uzan, Évangéliste du stockage @ Kaminario, partage ici un certain nombre de postulats à ce sujet et délivre sa vision "terrain". Il s’adresse notamment aux architectes IT, aux chefs de projets et aux personnes en quête de flexibilité, d'agilité, d'optimisation des coûts qui préparent l'acquisition d'un système de stockage embarquant de la déduplication.

La dédup n'est pas une fin, c'est un moyen
La déduplication (au même titre que la compression) n'est pas une fin, les clients n'achètent pas la déduplication, elle rend simplement l'équation économiquement viable car la capacité réellement nécessaire pour héberger les données est réduite par l'élimination des données redondantes. La déduplication permet d'en mettre plus dans moins, elle influe directement sur
- la densité (GB/U) : la latence (car dans la chaîne de liaison IO)
- la charge back-end en écriture (car un IO dédupliqué ne descend pas sur disque mais est pointé dans une table) : la capacité à délivrer des IO (car effectuée par les CPU qui traitent les IO)
Lorsqu'on développe un mécanisme de déduplication il faut composer avec 3 contraintes: 
- le type et le poids des algorithmes qui va peser sur les CPU des contrôleurs : plus la signature d'unicité (hash) est importante plus elle pèsera sur les contrôleurs au détriment des IO.
- la gestion des métadonnées (MD) : La déduplication à taille variable limite l'empreinte des MD. Le stockage des MD influe directement sur les latences.

La déduplication au quotidien
Les taux de déduplication sont toujours bas au début et augmentent au fur et à mesure de l’ajout/du déplacement des données sur/dans la baie choisie.
Cas d'usage qui empêchent ou limitent la déduplication, les 3 principales causes :
1. L'encryption des données : L'encryption/chiffrage des données en amont (côté base par exemple) limite le nombre de répétition à cause de l'obfuscation générée
2. Les données compressées : Comme l'encryption/chiffrage, la compression en amont (côté base par exemple) limite également les répétitions. Il est conseillé de compresser côté baie, cela n'altère pas la déduplication et permet en plus d’économiser des CPU côté serveurs (voir des licences)
3. La granularité du système de déduplication embarqué dans la baie : Un système de déduplication à taille fixe empêchera notamment la déduplication des bases de données (entête/signature des blocs de 8KB).

Il convient aussi de prendre en considération les données générées par les ordinateurs (photo/vidéo/audio...) comme non déduplicables alors que les données générées par l'homme le seront beaucoup plus (documents office/logs/enregistrement de base...). Il est donc préférable de désactiver la dédup sur les bases de données pour économiser des ressources côté contrôleur de baie qui ont des ressources CPU limités. La finalité étant de délivrer des IOPS (input/output operations per second en anglais, opérations d'entrée-sortie par seconde).

En résumé
Une déduplication efficace sera INLINE, à taille de block variable, débrayable (ON/OFF) pour la désactiver côté base et activer côté bureautique/VDI/VSI.
L'efficacité de la déduplication est dépendante de la nature des données actuelles et futures ; d’autre part une garantie de la capacité dite "effective" (après dedup) s'avère indispensable pour ne pas se retrouver 6 mois après l'achat bloqué avec une baie pleine faute de déduplication suffisamment efficace.
 

SQ 250-300

Les 10 derniers articles mis en ligne