Si
vous suivez un peu l’actualité de la Gestion de l’Information, vous
n’avez pas pu passer à côté du phénomène Big Data. Et comme pour
beaucoup il n’est encore pas évident de bien comprendre ce que désigne
ce terme anglo-saxon que l’on a bien du mal à traduire (grosses données,
c’est pas terrible …), je passe beaucoup de temps à me documenter et à
échanger avec les experts autour de moi pour arriver à construire une
présentation la plus pertinente possible.
Pour définir ce qu’est Big Data, au-delà des aspects logiciels, organisationnels et architecturaux, il suffit de s’intéresser aux 3V :
Des données dont les formats sont hétérogènes, de natures diverses et variées, structurées comme non structurées, sont des données variées.
Si les données que vous manipulez vous arrivent à grande vitesse, que vous devez gérer des flux au fil de l’eau, que vous devez pouvoir les prendre en compte et les traiter tout aussi rapidement, alors vous avez une problématique de vélocité.
Si vous êtes confronté à une problématique de gestion de données correspondant à ces trois critères, alors vous avez à gérer une problématique de type Big Data. Ce qui signifie accessoirement que Big Data n’adresse pas uniquement les quelques entreprises en France qui manipulent beaucoup de données, mais bien toutes celles qui ont une problématique 3V.
J’ai pour habitude de dire que le terme Big dans Big Data est mal approprié car beaucoup pensent qu’il faut énormément de données pour être plongé dans une problématique Big Data. Je ne pense pas. La notion de volume est à rapporter à votre activité : si pour un besoin donné, le volume à prendre en compte est supérieur à la moyenne de ce que vous savez déjà gérer, et en passe de croitre encore, si vous ne savez pas gérer ces données avec les architectures traditionnelles, alors vous avez un volume de type Big Data.
Il semble que ces gens là finissent par revenir sur leurs positions, et je préfère m’attacher à ce que proposent les analystes (Forrester, Gartner) qui positionnent Big Data comme une des dix problématiques clés des entreprises pour l’année 2012 (c’est maintenant).
Pour lire ce que dit le Gartner, je vous renvoie vers cet article Gartner, the top 10 strategic technology trends for 2012. Pour Forrester, c’est Brian Hopkins qui présente sa vision Big Data Will Help Shape Your Market’s Next Big Winners.
Sur Twitter, suivez le tag #bigdata (et abonnez-vous à mon compte, j’en parle régulièrement).
Et n’oubliez pas le 14 février pour la conférence 01 Big Data.
Vous avez des compléments, des exemples, des cas d’usages ? Laissez un commentaire.
L’ordinateur Watson utilise des solutions analytiques et des composants de type Big Data
Je profite de ce travail personnel pour commencer une première
approche écrite, et je vous livre ici ma compréhension de ce qu’est Big
Data. Ce n’est ni exhaustif ni intangible, mais il faut bien commencer
par quelque chose. Je vous invite au passage, si le sujet vous
intéresse, à venir me retrouver le mardi 14 février dans le cadre de la conférence 01 Big Data.
Ce sera l’occasion d’écouter les experts, de comprendre les
problématiques, d’aborder les cas d’usages et d’avoir des échanges
enrichissants.Big Data, les 3 V
Pour définir ce qu’est Big Data, au-delà des aspects logiciels, organisationnels et architecturaux, il suffit de s’intéresser aux 3V :
- volume,
- variété,
- vélocité.
Des données dont les formats sont hétérogènes, de natures diverses et variées, structurées comme non structurées, sont des données variées.
Si les données que vous manipulez vous arrivent à grande vitesse, que vous devez gérer des flux au fil de l’eau, que vous devez pouvoir les prendre en compte et les traiter tout aussi rapidement, alors vous avez une problématique de vélocité.
Si vous êtes confronté à une problématique de gestion de données correspondant à ces trois critères, alors vous avez à gérer une problématique de type Big Data. Ce qui signifie accessoirement que Big Data n’adresse pas uniquement les quelques entreprises en France qui manipulent beaucoup de données, mais bien toutes celles qui ont une problématique 3V.
Big Data, c’est pas pour moi
J’ai pour habitude de dire que le terme Big dans Big Data est mal approprié car beaucoup pensent qu’il faut énormément de données pour être plongé dans une problématique Big Data. Je ne pense pas. La notion de volume est à rapporter à votre activité : si pour un besoin donné, le volume à prendre en compte est supérieur à la moyenne de ce que vous savez déjà gérer, et en passe de croitre encore, si vous ne savez pas gérer ces données avec les architectures traditionnelles, alors vous avez un volume de type Big Data.
Big Data, c’est juste un concept
J’ai pu lire plusieurs articles ces derniers mois dont les auteurs décrivaient Big Data comme un simple concept (de plus) poussé par les éditeurs pour mettre sur le marché des offres qui au final n’étaient qu’un habile réhabillage d’offres existantes.Il semble que ces gens là finissent par revenir sur leurs positions, et je préfère m’attacher à ce que proposent les analystes (Forrester, Gartner) qui positionnent Big Data comme une des dix problématiques clés des entreprises pour l’année 2012 (c’est maintenant).
Pour lire ce que dit le Gartner, je vous renvoie vers cet article Gartner, the top 10 strategic technology trends for 2012. Pour Forrester, c’est Brian Hopkins qui présente sa vision Big Data Will Help Shape Your Market’s Next Big Winners.
Big Data, architecture ou logiciels ?
Les deux. Si la mise en œuvre de Big Data fait appel à une architecture spécifique, il existe des offres logicielles dédiées qui viennent offrir leurs services. Big Data s’appuie sur le filesystem Hadoop dont une définition nous est donnée par Wikipedia :
Hadoop est un framework Java libre destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Hadoop a été inspiré par les publications MapReduce, GoogleFS et BigTable de Google.
Pour ce qui est des logiciels, chaque éditeur a ses propres outils.
Chez IBM c’est dans la gamme Infosphere que l’on trouve les deux offres
Stream et Big Insight. Ces deux solutions sont spécifiquement conçues
pour répondre aux problématiques d’analyse de flux de données, de
qualification, traitement, référencement. Vous pouvez trouver un
descriptif plus précis et des ressources documentaires ici Bringing Big Data to the Enterprise. Ces offres sont complétées des appliances analytiques de seconde génération Netezza.Big Data, ce n’est que du stockage et de l’archivage
C’est ce que tendent à faire croire ceux qui ne disposent que d’une offre d’archivage (petite pique gentille à certains de mes confrères). Mais Big Data demande d’autres capacités, comme celle de savoir analyser les flux de données, les interpréter en temps réel, en extraire les données essentielles à destination des utilisateurs métiers, etc.Pour aller plus loin …
Si le sujet Big Data vous intéresse, je vous invite à visiter les sites précédemment cités. Vous pouvez aussi parcourir l’ebook « Understanding Big Data » gratuit après enregistrement.Sur Twitter, suivez le tag #bigdata (et abonnez-vous à mon compte, j’en parle régulièrement).
Et n’oubliez pas le 14 février pour la conférence 01 Big Data.
Vous avez des compléments, des exemples, des cas d’usages ? Laissez un commentaire.
Lire la suite :
- Big Data version 1956 : à quoi ressemblaient 5Mb de données
- Information Management: gérer, intégrer, analyser et gouverner les données
- Qu’est-ce que ? : l’Enterprise Report Management – COLD
- Qu’est-ce que le Cloud Computing et le SaaS ?
- Le carré magique Gartner MDM 2011 – gestion des données clients
- Gouvernance de l’Information : suivez le guide – Perspectives Innovation 2012
- Quelle évolution pour la Gestion de l’Information, vers de nouvelles formes d’Intelligence
- Retour sur le Forum Intégration et Gouvernance de l’Information
- Conférence IBM Information On Demand EMEA 2010 – Rome 19 au 21 Mai
- Qu’est-ce que le Content Analytics ?
Aucun commentaire:
Enregistrer un commentaire