Vous êtes ici  :   Accueil > SE FORMER > Formations disciplinaires > JECO > 2015
Connectez-vous

Accueil

S'INFORMER ENSEIGNER ÉVALUER SE FORMER ORIENTER

2015

Publié le 22 oct. 2015

Écrire à l'auteur

Le  jeudi 22 octobre 2015

Jeco 2015, "big data"

Compte rendu, L. Auffant

  • Jéco 2015

    Journées de l’économie à Lyon

     

    Mercredi 14 octobre 15h00 - 16h30 Exploitation de la « Big data »


    Compte rendu de L. Auffant

     

    Intervenants :

    Marc Chemin, Global Insights & Data Consulting Leader Capgemini Consulting

    Pauline Givord, Chef de la division Méthodes appliquées de l'économétrie et de l'évaluation à l'Insee

    Caroline Lancelot-Miltgen, Professeure Associée en Marketing (Audencia Nantes Ecole de Management)

    Arnaud Simon, Maître de conférences, HDR, en finance à l’université Paris-Dauphine ; Directeur scientifique pour la société Meilleurs Agents

    Cédric Vandervynckt, Directeur Général France et Europe du Sud chez Criteo

     

    Modérateur : Philippe Escande, Le Monde

     

     

    Présentation de la conférence (plaquette des Jéco) :

     

    « Big data » est un mot qui se prête aux fantasmes. Il se retrouve pris entre les craintes d’une surveillance à la « Big brother » et des visions parfois naïves laissant entendre que les bases de données sont des gisements où il n’y a qu’à se baisser pour récolter. Mais comment se fait concrètement la mise en exploitation, et la profitabilité est-elle assurée ? Quels sont les fonctions, les enjeux et les obstacles au stockage, au raffinage et à la modélisation de ces données ? Vaut-il mieux internaliser ou externaliser cette question pour une entreprise ? Déception, jugements d’inutilité, créations d’usines à gaz, phénomènes de néo-administration, les écueils sont nombreux. Comment la transformation des métiers classiques s’opère-elle, notamment en termes de connaissance-client ? Et quels en sont les enjeux éthiques ?

    Trois références évoquées lors de la conférence :

    -          Dominique CARDON, À quoi rêvent les algorithmes ? Nos vies à l’heure des « Big data », éditions du Seuil, La République des idées, 2015. (http://www.seuil.com/livre-9782021279962.htm)

    -          Jean-Baptiste RUDELLE, On m’avait dit que c’était impossible, Le manifeste du fondateur de Criteo, éditions Stock, 2015 (http://www.editions-stock.fr/mavait-dit-que-cetait-impossible-9782234078956)

    -          Sandrine CASSINI, Philippe ESCANDE, Bienvenue dans le capitalisme 3.0, Albin Michel, 2015 (http://www.albin-michel.fr/Bienvenue-dans-le-capitalisme-3.0-EAN=9782226319142)

     

    Référence complémentaire proposée par Lucile Auffant :

    « Les promesses très commerciales du « Big data », Alternatives économiques n° 350, Octobre 2015 (pages 70 à 73)

     

    Liens entre cette conférence et les SES et l’EMC :

    -          Le « Big data »[1], une façon de s’approcher de la discrimination par les prix de premier degré décrite par Pigou ? (faire payer à chaque consommateur son prix de réserve) : thème 2.1 d’économie approfondie.

    -          Le « Big data » et la fin de la mutualisation des risques (santé) ? (en guise d’ouverture du thème 1.2 d’économie approfondie)

    -          Le « Big data » et la vie privée : thème 2 d’EMC en 1ère (enjeux moraux et civiques de la société de l’information)

     

     

    Compte-rendu de la conférence

     

    Arnaud Simon : présentation de trois points clés à rattacher au monde des développeurs (informaticiens) et à l’entreprise (business) :

    1)      « la vérité est dans le code » : une phrase qui rappelle Matrix. (Un code est un programme alors qu’un algorithme est une séquence logique ordonnée, s’apparente à une démonstration mathématique.)  En fait la vérité n’est pas dans le code. Les théories mathématiques montrent que la réalité existe ailleurs. Et d’un point de vue empirique un code n’est pas intangible, il vieillit. Le code vieillit puisqu’il a été pensé pour répondre à une demande, à un environnement donné. Or l’environnement évolue.

    2)      Derrière l’expression « Big Brother », on a une éthique, un enjeu individuel mais aussi un enjeu pour l’entreprise (enjeu commercial).

    3)      Un modèle n’est pas tout à fait un algorithme mais il ne faut pas opposer hommes et ordinateurs. Un modèle renvoie à une science, à un modélisateur. Derrière un algorithme on a ceux qui les écrivent.

     

    Quelles sont les conséquences pour les entreprises ?

    1)      On a un choc des cultures : développeur (à 98% des hommes) / marketing (davantage équilibré en termes hommes/femmes). Les développeurs peuvent dire « la spécification (les directives pour écrire un code)  était mal écrite. » Les développeurs dans le monde du code ont du mal à se confronter à la demande du marché. Ou encore les personnes du marketing considèrent que le développeur n’est qu’un exécutant. Or il faut que les deux cultures se rencontrent (cette rencontre est genrée).

    2)      Avoir stocké une base de données ne signifie pas l’exploiter. Dans les entreprises, le travail d’exploitation des données stockées ne doit pas être sous estimé.

    3)      On a un risque d’usine à gaz. Exemple du CRM (customer relationship management) : le programme doit nous donner la meilleure suggestion, cependant quand on a trop de stéréotypes cela débouche sur des échecs industriels.

     

    En conclusion, beaucoup de problématiques liées à la « Big data »  ne sont pas nouvelles.

    -          Une corrélation n’est pas une causalité.

    -          Trop d’informations peut poser problème.

    -          Risque de surveillance des citoyens

     

    L’économie numérique ne prend pas la place de l’économie, elle réinterprète l’économie. Quand on ne réfléchit pas correctement à une question cela pose problème quelle que soit l’économie.

     

    Question : la « Big data » renforce-t-telle les comportements des consommateurs ? Si on lui propose les produits, a-t-il moins de chances de diversifier sa consommation ? Va-t-on vers l’uniformité ?

    On ne peut pas tout prévoir, loin de là même si on essaie de minimiser les erreurs. Le risque de conformisme repose sur une hypothèse de stationnarité : je vais être ce que j’ai été. Mais ce n’est pas toujours le cas, avec ou sans « Big data » cette question se pose. Cette question qui a émergé montre que justement la diversité n’est pas menacée ni le changement puisque de la diversité naît le changement.

     

    Caroline Lancelot-Miltgen : le fait de vouloir en savoir le plus possible sur son client pour faire la bonne offre au bon moment et au bon prix (data mailing) n’est pas nouveau. La nouveauté de la « Big data » réside dans la vitesse à la quelle on l’effectue (quasiment instantanément) et dans le volume des données accessibles pour les entreprises. La CRM ou GRC en français (gestion de la relation client) montre que cela coûte plus cher de chercher un nouveau client plutôt que de garder un client que l’entreprise a déjà et de le fidéliser (on peut savoir quels sont ses goûts, s’il aime être contacté. Un exemple d’entreprise utilisant un algorithme d’identification : Amazone).

     

    Marc Chemin : Les secteurs qui utilisent le « Big data » concernent le consommateur final : grande distribution, biens de consommation. Le « Big data » a été inventé par Google il y a une quinzaine d’années. On attend une révolution plus importante dans l’industrie (automobile, industrie lourde, électricité) : on attend de nouveaux usages générés par un simple capteur. Quels sont les trois grands types de valeurs créées ?

    1)      améliorer le coût d’une activité

    Exemple : maintenance des avions : demain on aura une maintenance prédictive grâce aux données récupérées par les capteurs. Autre exemple : les pare-chocs moulés : de plus en plus de capteurs seront présents dans les presses afin d’augmenter le rendement des machines et d’améliorer la rentabilité des entreprises. Cela aura un impact sur les opérateurs (récupération des données…) : les métiers évoluent.

    2)      améliorer le chiffre d’affaires

    Exemple de l’automobile : vente par des succursales, des concessionnaires. L’objectif est de mieux prévoir les ventes, l’adaptation aux goûts locaux.

    3)      modification du modèle d’activité des entreprises

    Exemple : Michelin a racheté le Brésilien Sascar (flotte de camions) afin d’apprendre un nouveau mode d’activité et d’adapter les pneus à un certain usage. La valeur ne réside pas dans les données (informations) stockées mais dans leur utilisation.

     

    Cédric Vandervynckt : Qui est Criteo ? Une entreprise née en 2005 dont le CA est en 2014 de 745 millions d’euros qui emploie un peu moins de 2000 salariés et dont l’activité est la publicité sur Internet liée au « Big data ». Criteo a été introduite en Bourse sur le Nasdaq en 2013.

    L’objectif de Criteo est de délivrer la publicité la plus ciblée, la plus personnalisée, la plus utile, à la bonne personne au bon moment. Les trois fondateurs de cette société avaient pour idée de créer un moteur de recommandation des produits, par exemple de pouvoir recommander des produits associés, de donner des conseils sur des films.

    L’association des développeurs et du marketing a permis de tester des modèles de recommandation des produits. Entre 2005 et 2008, le modèle de Criteo a changé quatre fois.

    La « Big data » est associée à la publicité. Ce métier consiste à créer pour une marque un maximum de valeur en 100 millisecondes. Comment cela se déroule-t-il ?

    Exemple : un internaute ouvre une page du Monde, une information (cookie) est envoyée chez Criteo. Criteo essaie de comprendre qui est le consommateur, elle recherche la meilleure opportunité, le meilleur produit répondant aux besoins de cet internaute, elle crée la publicité et la déploie, et ce en 100 millisecondes.

    C’est un vrai chalenge : cela requiert 20 téraoctets de stockage, un temps réel court, il faut prendre la meilleure décision en peu de temps et étudier le passé pour prévoir l’avenir. Criteo touche un pourcentage quand l’internaute clique sur la publicité[2]. Parfois une même publicité est envoyée à la même personne car elle n’utilise pas le même support (ordinateur, tablette, téléphone). L’internaute peut choisir de désactiver la publicité : cf. symbole « i » qui apparaît pour avoir des informations.

     

    Question : avec ce système de désactivation et les ad-bloqueurs ne risque-t-on pas de tuer la poule aux d’or ?

    La présence sur Internet de Criteo est liée à l’accès à des contenus de qualité et de libre accès financés par la publicité. Criteo protège les données personnelles, Critéo a un identifiant de l’Internaute mais aucune donnée nominative. Criteo sait que certains formats sont trop intrusifs (pop up) ce qui peut avoir un effet négatif pour la marque. Donc on utilise des formats qui ne gênent pas la navigation, on mesure le taux de clic pour savoir ce qui fonctionne le mieux. Critéo fait aussi un choix sur le contenu de la publicité : ainsi sur le site du Monde vous n’aurez pas de publicité à caractère pornographique. Les sites de contenu vivent de la publicité, l’intérêt commun est que ces sites continuent d’exister donc qu’il y ait des publicités. Si tout le monde a un ad-bloqueur le contenu disparaît. On peut aussi choisir de faire payer celui qui utilise un ad-bloqueur.

     

    Pauline Givord : le raisonnement à l’INSEE est macroéconomique : on raisonne à l’échelle d’un pays. Nous avons de plus en plus de personnes qui produisent des statistiques. La spécificité de l’INSEE est son public : la société civile, les citoyens, les décideurs (politique économique) et non pas les consommateurs. L’INSEE produit des indicateurs importants économiquement. Exemple : l’indice des prix à la consommation. Une partie des prix est récupérée par des enquêteurs. L’INSEE expérimente la récupération auprès des distributeurs des données des caisses enregistreuses. A priori cette récupération des données devrait être moins coûteuse et plus rapide. L’enjeu pour l’INSEE est sa crédibilité, il est de son devoir d’avoir des indicateurs pérennes, stables et fiables. 

    De plus en plus d’indicateurs sont produits par Google en utilisant le passé (exemple : la prédiction des épidémies de grippe). La question de la fiabilité des prévisions se pose. Pour les prévisions économiques les outils où l’on se fonde sur le passé ne sont pas pertinents car l’environnement n’est pas stable. Par exemple la prévision des épidémies par Google a été un échec, l’indicateur a divergé après deux ans. Comment peut-on l’expliquer ?

    -          On risque de confondre corrélation et causalité. (exemple : il y a davantage d’incendies là où il y a le plus de pompiers, faut-il en conclure que pour diminuer le nombre d’incendies on doit diminuer le nombre de pompiers ?)

    -          On a de nombreuses variables et de nombreuses corrélations possibles mais parmi elles, certaines sont fallacieuses (ex : corrélation parfaite entre la consommation de margarine et le nombre de divorces dans le Maine)

    -          Les comportements des individus changent. Ainsi avec Google flu (flu = grippe en anglais) les internautes ont effectué de plus en plus de requêtes mais cela ne signifiait pas que l’épidémie s’étendait.

     

    Caroline Lancelot-Miltgen : se pose la question des traces sur Internet (visites de sites et informations déposées sur les réseaux sociaux). Est-ce la fin de l’intimité ? Nous ne sommes pas en train de vivre la fin de l’intimité mais la façon d’appréhender la vie intime change. Qu’est-ce que l’intime, le public ? Auparavant on avait un avis partagé par tous dans une société (et variable selon les pays), une norme culturelle. De nos jours, cette norme varie : on a une définition beaucoup plus individuelle : chacun choisit ce qu’il a envie de partager avec un réseau et ce qu’il veut garder pour lui. Le rapport à la vie privée change. On a une ambivalence : les gens n’ont pas envie d’être tracés mais ils laissent de nombreuses traces en n’utilisant pas les outils protégeant leur vie privée.

    Le problème vient aussi du calcul coûts/avantages. Pour créer du lien avec autrui, je donne des informations sur moi : je vois le gain : mes liens avec autrui. Mais je ne vois pas le risque qui a lieu plus tard et qui est associé à l’information donnée (marque, employeur, État…). Les acteurs numériques ont un comportement souvent binaire : on ne va pas sur le Net et la protection est totale, on accepte d’être sur le Net avec des bienfaits mais aussi des risques potentiels. Pourtant en France la loi Informatique et libertés (1978) est assez stricte. Le problème vient du décalage entre le droit et la technologie qui elle a un temps d’avance. Le droit en France précise que l’on doit avoir un consentement libre et éclairé, que l’on doit pouvoir s’opposer à l’utilisation de la donnée. Le problème réside également dans l’exercice de ce droit : il faut aller sur le site de la CNIL ou alors contacter le site en question.

    Mais parfois on a un manque de transparence dans l’information : par exemple la charte de Facebook comporte 80 pages et les conditions générales d’utilisation changent au cours du temps. La Cour européenne de Justice a interdit de rapatrier des données aux États-Unis suite à l’affaire Snowden[3].

     

    Marc Chemin : le problème de la loi française est qu’elle s’applique à des entreprises françaises : les entreprises européennes doivent faire face à davantage de contraintes que les firmes américaines. On devrait avoir fin 2015- début 2016 une nouvelle loi européenne complétant la loi de 1978 et desserrant le champ de contraintes liées à la « Big data »  tout en respectant la vie privée pour que les entreprises européennes et américaines aient les mêmes chances.

     

    Caroline Lancelot-Miltgen : en effet pour le droit, la filiale Facebook France n’est pas une entreprise française stricto sensu il est donc difficile de lui appliquer la loi de 1978. Le pouvoir des GAFA (Google, Amazone, Facebook, Apple) inquiète mais rappelons que Google et Facebook ont été condamnées au niveau européen pour des publicités ou des systèmes qui n’étaient pas en correspondance avec la loi européenne.


    [1] Big data : base de données, mégadonnées numériques.
    [2] Taux de clic : pourcentage d’e-mails ouverts.
    [3] Pour en savoir plus : voir le film documentaire Citizenfour