header_018.jpg

L’Hyposphère

par Pierre Mercklé le 7 juin 2011 · 1 commentaire

dans Humanités numériques,Réseaux

Il y a quelques jours, j’avais été invité par Marin Dacos et Pierre Mounier à parler de la « sociologie des réseaux sociaux », dans le cadre de leur séminaire « Digital Humanities », à l’EHESS. Leur commande était double : d’une part, ils souhaitaient un éclairage théorique et méthodologique sur l’analyse des réseaux, à partir du livre qui vient de reparaître dans la collection « Repères » des Editions de la Découverte (Mercklé, 2011) ; et d’autre part, ils voulaient que je prolonge mon propos par la démonstration de quelques outils de visualisation et d’analyse de données relationnelles.

Pour remplir la première partie de la commande, je me suis efforcé de montrer qu’avant même l’explosion du web social, de Facebook, Twitter et compagnie, en réalité la notion de « réseau » connaissait déjà en sciences sociales une vogue grandissante depuis quelques décennies, où elle tendait de plus en plus à supplanter celle de « classe sociale », y compris très récemment dans les programmes de sciences économiques et sociales au lycée. J’ai essayé aussi de montrer que le caractère scientifiquement discutable de « l’idéologie réticulaire » ainsi promue ne devait pas toutefois masquer les apports des développements méthodologiques et théoriques dont la notion de réseau a permis l’élaboration : les méthodes et les concepts fournis aux sciences sociales par « l’analyse structurale » depuis les années soixante, peuvent en effet venir utilement compléter la « boîte à outils » des chercheurs…

Et pour remplir la seconde partie de la commande, et donner un aperçu de ces nouveaux outils à notre disposition, j’ai essayé de montrer leurs usages possibles à partir d’un exemple particulier… En réalité, la commande de Marin et Pierre était même un peu plus précise que cela : ils voulaient que ma démonstration porte sur le réseau des relations entre les carnets de recherche hébergés par la plateforme Hypotheses.org. Cette plateforme, développée par le Cléo et destinée à rejoindre Revues.org et Calenda au sein du portail OpenEdition, a été créée en 2008 pour accueillir des « blogs » de chercheurs, d’équipes et de projets de recherche. Elle en compte désormais plus de 200[1], qui entretiennent des relations les uns avec les autres, dont il s’agissait de représenter et d’analyser la structure.

« Hypothesosphère » des liens ?…

Une première approche de cette représentation avait été développée il y a quelques mois par Josquin Debaz, un historien des sciences qui participe activement au développement du logiciel d’analyse textuelle Prospéro. Elle est présentée dans un billet intitulé « Hypothesosphère », qu’il a publié en décembre 2010, justement dans un carnet de recherche d’Hypotheses.org qui s’appelle « Socio-informatique et argumentation », et que vous pouvez lire à l’adresse suivante :

http://socioargu.hypotheses.org/1921

L’approche de Josquin Debaz visait à décrire les relations que les auteurs des carnets tissent volontairement les uns avec les autres : les carnets de recherche accueillis par la plateforme sont en effet constitués d’articles dans lesquels il peut arriver à leurs auteurs de citer un article d’un autre carnet[2]… Pour dresser la carte de ces liens, Josquin Debaz a programmé un « robot » chargé, à partir des 500 derniers billets parus sur Hypotheses.org, de parcourir tous les liens vers d’autres carnets qu’il rencontrait. Les liens ainsi relevés entre carnets de recherche constituent, ensemble, un bon exemple de « co-citation analysis », un domaine bien connu de l’analyse des réseaux, et depuis longtemps, probablement depuis l’article fondateur de Price sur les « networks of scientific papers » (1965). Dans ce cas précis, voici à quoi ressemblait donc ce que Josquin Debaz appelle « l’Hypothesosphère », à la date du 7 décembre 2010 :

Hypothésosphère

(cliquer pour agrandir)

…ou « Hyposphère » des navigations !

Un réseau de ce type rend en réalité à la fois compte des relations nouées entre des objets intellectuels par leurs auteurs, et des chemins empruntables par leurs lecteurs. Dans ce second sens, la structure mise en évidence par Josquin Debaz figure donc une sorte de réseau des circulations possibles à l’intérieur de la plateforme. C’est ce qu’on pourrait appeler une approche infrastructurelle, permettant de dessiner une sorte de carte routière d’Hypotheses.org. Debaz ajoute du reste  que « cette carte n’indique que des propriétés relationnelles fondées parfois sur des liens faibles ». Comment, alors, mesurer la force des liens ? Pour y parvenir, une autre approche possible consiste à s’intéresser au réseau des usages, des navigations : quelles sont, dans le réseau des liens construit ci-dessus, les liens qui sont beaucoup empruntés et ceux qui ne le sont pas, ou moins ?

Pour répondre à cette question, j’ai utilisé les « logs » du serveur d’Hypotheses.org afin de mesurer le trafic réel (et pas seulement l’absence ou la présence d’un lien) d’un carnet à un autre à partir des informations sur les « referers » des pages de carnets visitées. Kezako ? Les logs sont une sorte de journal, en réalité plusieurs dizaines de fichiers dans lesquels sont enregistrés, pour chaque visite d’une page du serveur, un certain nombre d’informations, parmi lesquelles évidemment l’adresse de la page visitée, mais aussi l’adresse IP du visiteur[3], le moment de la visite, et donc ce précieux « referer », autrement dit l’adresse de la page d’où arrive le visiteur. Disposant des logs journaliers d’Hypotheses.org entre le 1er janvier et le 30 avril 2011, j’ai utilisé SAS (eh oui, on ne se refait pas) pour extraire toutes les lignes se rapportant à une visite d’une page d’un carnet de recherche de la plateforme à partir d’une page d’un autre carnet de recherche[4]. Le résultat se trouve dans le fichier ci-dessous, destiné à être utilisé avec le logiciel d’analyse des réseaux Pajek[5] :

hyposphere.paj

Dans le même temps ou presque, c’est-à-dire à la fin de cette période, entre le 21 et le 27 avril 2011, Josquin Debaz renvoyait son « robot » parcourir « l’Hypothesosphère », cette fois en partant des pages d’accueil de l’ensemble des carnets recensés dans le catalogue d’Hypotheses.org[6]. On pouvait s’attendre à ce que mon graphe soit inclus dans celui de Josquin Debaz, autrement dit à ce que le graphe des navigations, des usages réels, soit inclus ou « inscrit » dans le graphe des liens ; ou dit encore autrement, on pouvait s’attendre à ce que dans l’ensemble des « routes » empruntables dont « l’Hypothesosphère » dessine la carte, certaines ne soient en réalité pas empruntées par les internautes. Or, quand on compare déjà simplement les listes des sommets (autrement dit, des carnets) recensés par l’une et l’autre des deux méthodes, il apparaît tout de suite que la carte comporte moins de carnets que les visiteurs n’en parcourent en circulant d’un carnet à l’autre : l’Hypothésosphère de Josquin Debaz ne comporte que 115 carnets[7], alors que le réseau tissé par les navigations des internautes entre début janvier et fin avril 2011 – et que nous appellerons « l’Hyposphère » (la paternité de cette appellation revient à Marin Dacos) – en comporte 160. Et il y a au total 47 carnets visités dans l’Hyposphère qui n’apparaissent pas dans l’Hypothésosphère, alors qu’il n’y a que 2 carnets présents dans l’Hypothésosphère qui n’apparaissent pas dans l’Hyposphère : autrement dit, seuls deux carnets, doclaios et braises, sont reliés aux autres carnets par un ou des liens trouvés par le robot de Josquin Debaz, mais des liens qui n’ont en réalité empruntés par personne depuis le début de l’année.

Pour essayer de comprendre ce résultat assez contre-intuitif, qui voit les navigations apparemment déborder de tous les côtés la carte des chemins empruntables, j’ai ensuite utilisé Pajek et NetDraw pour représenter graphiquement l’Hyposphère. Voici le résultat, après l’application de l’algorithme de Fruchterman-Reingold, qui répartit les sommets dans l’espace de façon à minimiser l’entrecroisement des liens, en traitant le graphe comme si les sommets se repoussaient les uns les autres tout en étant reliés par des ressorts[8] :

Hyposphère

(cliquer pour agrandir)

Les remarques faites par Josquin Debaz à propos de « l’Hypothesosphère » des liens valent aussi en grande partie pour « l’Hyposphère » des navigations : on peut y repérer les mêmes « affinités structurales » déjà mises en évidence, et nouées autour d’aires culturelles, de périodes, de thématiques ou de proximités institutionnelles.

Mais si on compare ce graphe à celui des liens relevés par Josquin Debaz lors de la seconde version de « l’Hypothesosphère » réalisée à la fin du mois d’avril 2011[9], et correspondant donc exactement au moment où j’ai de mon côté observé « l’Hyposphère », des navigations, alors on retrouve clairement le constat contre-intuitif déjà esquissé plus haut[10] :

Hypothésosphère 2

(cliquer pour agrandir)

A peu de choses près, l’Hypothésosphère semble contenue dans l’Hyposphère, autrement dit la carte ne décrit qu’une petite partie des circulations réelles des internautes. La partie non couverte apparaît ici en bleu : ce sont tous les carnets (47 au total, donc) que les internautes ont pu visiter en arrivant d’un autre carnet entre janvier et avril 2011, mais que le « robot » de Josquin Debaz n’est pas arrivé à atteindre en partant des pages d’accueil des carnets recensés dans le catalogue d’Hypotheses.org à la fin du mois d’avril 2011.

En cherchant bien, on peut trouver des liens sur ce graphe qui ne figurent pas dans le précédent, autrement dit des liens entre carnets qui n’ont pas été empruntés par les internautes : c’est le cas, comme on l’a déjà vu, des liens de « braises » vers « rumor », et de « doclaios » vers « act » ; en cherchant bien, on voit que c’est aussi par exemple le cas des liens de « devam » vers « act » et « zotero » (un peu à au sud-ouest du centre du graphe), qui apparaissent bien dans l’Hypothésosphère, mais n’ont apparemment jamais été empruntés par les visiteurs de devam entre janvier et avril 2011.

Il n’en reste pas moins que de façon très générale, ce sont bien les circulations qui débordent la carte de tous les côtés, au lieu d’y être strictement contenues. Une bonne façon de le montrer peut consister à examiner attentivement certaines parties précises du graphe. Examinons par exemple la « zone » d’Agora, le carnet que nous consacrons, avec Igor Martinache, aux débats en sciences sociales[11] :

la navigation

la carte

Agora navigations

Agora carte

Le graphe des navigations révèle plusieurs chemins que le robot n’avait pas trouvés, comme par exemple entre « pds » et « politbistro », mais aussi de « evaluation » vers Agora.

Au total, là où les logs du serveur d’Hypotheses.org avaient relevé 339 liens (tous empruntés au moins une fois au cours des quatre premiers mois de l’année 2011, et jusqu’à 650 fois pour les liens de EAU&3E à Vertigo), soit une densité de 13 pour 1000, « l’Hypothesosphère » de Josquin Debaz n’en recense que 229, soit une densité de seulement 9 pour 1000…

Comment expliquer que les internautes qui visitent l’Hyposphère, y empruntent des chemins qui en quelque sorte n’apparaissaient pas sur la carte routière ? Une première explication tient peut-être à la méthode employée par Josquin Debaz pour recenser les liens entre carnets : celle-ci consiste à « partir » des pages d’accueil des carnets, puis à suivre tous les liens qui y sont détectés, pour constituer ainsi de proche en proche l’ensemble de la carte, à la manière donc d’un géomètre ou d’un navigateur qui la dessinerait au fur et à mesure qu’il l’arpente. Etant donné le principe général de construction des pages d’accueil des carnets d’Hypotheses.org, qui consiste à y présenter les billets les plus récemment publiés, il se peut alors que le robot ne puisse pas atteindre les billets plus anciens, et ne puisse donc pas emprunter les liens vers d’autres carnets qui pourraient s’y trouver. En quelque sorte, l’Hypothésosphère ne serait pas alors la carte routière d’Hypotheses.org, mais seulement la carte des chemins les plus récemment construits, et ignore des strates plus profondes du graphe, sédimentées sous cette couche la plus fraîche, et toujours très largement parcourues par les internautes.

Au total, il se pourrait bien que l’expérience de « l’Hyponaute », autrement dit de l’internaute naviguant entre les différents carnets de la plateforme Hypotheses.org, ne soit pas limitée, à un moment donné, à une simple actualisation de sa connaissance de l’Hyposphère, autrement dit à une exploration de la dernière strate ajoutée à celle-ci par les billets les plus récents ; au contraire, à tout moment, la somme des navigations de ces « Hyponautes » en explorerait en réalité toute la profondeur, jusqu’aux strates de l’Hyposphère structurées par des liens entre les billets les plus anciens. Cela pourrait s’expliquer du reste assez facilement par le fait que les expériences réelles de navigation ne partent pas exclusivement des pages d’accueil des carnets, mais probablement en part non négligeable de résultats de recherches dans Google.

Cette hypothèse ouvre deux pistes pour prolonger l’analyse :

  • D’une part, il faut la vérifier : cela pourrait être fait par exemple en précisant l’échelle de l’analyse, autrement dit en focalisant le regard non pas sur les carnets mais sur les billets eux-mêmes, et en tenant compte de leurs dates de publications respectives, pour ensuite essayer de représenter graphiquement les circulations entre la surface de l’Hyposphère (les billets les plus récents) et les strates plus profondes ;
  • D’autre part, cette hypothèses invite à tenter une autre approche de l’Hyposphère, qui ne se contenterait pas de mesurer les chemins empruntés directement d’un carnet à l’autre, mais à mesurer les liens établis entre carnets par les internautes eux-mêmes, et non plus seulement par les auteurs des billets et des architectes des carnets : la prochaine étape pourrait donc consister à construire un réseau bipartite (2-mode network, en anglais) permettant de relier deux carnets l’un à l’autre dès lors, par exemple qu’ils auront été visités à partir de la même adresse IP sur une période de temps considérée (par exemple à moins de 24 heures d’intervalle)…

A suivre, donc !

Liens utiles

Hypotheses.org
http://hypotheses.org

Socio-informatique et argumentation
http://socioargu.hypotheses.org

Quanti
http://quanti.hypotheses.org

Pajek
http://pajek.imfm.si

NetDraw
http://www.analytictech.com/Netdraw/netdraw.htm

Références bibliographiques


Beauguitte Laurent et Mercklé Pierre (2011), « Analyse des réseaux : une introduction à Pajek », Quanti, 06/06/2011 [http://quanti.hypotheses.org/512/] (consulté le 06/06/2011)

Debaz Josquin, 2010, « Hypothesosphère », Socio-informatique et argumentation, mis en ligne le 8 décembre 2010, consulté le 25 mai 2011. URL: http://socioargu.hypotheses.org/1921

Mercklé Pierre, 2011 [2004], Sociologie des réseaux sociaux, Paris, La Découverte, coll. « Repères », 3ème éd., 128 p.

Price Derek John De Solla, 1965, « Networks of scientific papers », Science, 149(3683), pp. 510-515. Voir en ligne: http://www.garfield.library.upenn.edu/papers/pricenetworks1965.pdf



[1]Le catalogue des carnets d’Hypotheses.org est disponible ici : http://www.openedition.org/?page=catalogue&pubtype=carnet. Et la liste des carnets est également disponible ici au format CSV : http://www.openedition.org/?page=coverage&pubtype=carnet&format=html.

[2]Dans les utilisations que je fais dans ce billet des données obtenues par Josquin Debaz, j’ai éliminé toutes les boucles, autrement dit les liens des carnets vers eux-mêmes. C’est notamment la raison pour laquelle je trouve dans ces données moins de carnets qu’elles n’en contiennent à l’origine : en ont été retirés en effet tous les carnets qui ne sont cités que… par eux-mêmes !

[3] Les logs transmis par Hypotheses.org avaient été expurgés de cette donnée, pour des raisons évidentes d’anonymat et de confidentialité.

[4] Je n’ai retiré de la liste des carnets traités que ceux dont la fonction principale, sinon exclusive, est justement de faire le lien avec d’autres carnets, et qui ont pour effet de déformer le graphe à leur avantage : leo, maisondescarnets, et les radars (cleoradar, criminocorpusradar, nuevomundoradar…).

[5] J’ai profité de l’invitation au séminaire « Digital Humanities » pour finir d’écrire, avec Laurent Beauguitte, une introduction en français (Beauguitte et Mercklé, 2011) à ce logiciel gratuit et assez puissant d’analyse des réseaux, que nous venons de mettre en ligne sur Quanti, et qui est donc disponible à l’adresse suivante : http://quanti.hypotheses.org/512.

[6] Les logs que j’ai utilisés ont ainsi vu « passer » le robot de Josquin Debaz, mais celui-ci ne laissant pas de renseignement dans le champ « referer », ses visites n’ont pas été prises en compte dans mon graphe, pas plus du reste que celles de tous les autres robots (Google, Yahoo, etc.) qui visitent fréquemment toutes ces pages.

[7] Une fois éliminés les carnets qui ne sont cités que par eux-mêmes.

[8] Sur ce graphe, les diamètres des sommets sont proportionnels à leur fréquentation, mesurée en nombre de visites mensuelles depuis le début de l’année 2011.

[9] Rappelons que le second robot, utilisé fin avril 2011, part des pages d’accueil de l’ensemble des carnets présents dans le catalogue de Hypotheses.org, alors que le premier robot partait des 500 billets les plus récents parus sur la plateforme, pour ensuite suivre leur descendance.

[10] Pour faciliter la comparaison, j’ai conservé, dans ce graphe des liens, les coordonnées des sommets acquises par l’algorithme de Fruchterman-Reingold pour le graphe des navigations.

[11] Dans le graphe de la zone des navigations, l’épaisseur des arcs est proportionnelle à leur fréquentation.

  • email
  • Print
  • Add to favorites
  • RSS
  • Wikio FR
  • del.icio.us
  • Digg
  • Diigo
  • Google Bookmarks
  • Google Buzz

Ajouter un commentaire

{ 1 trackback }

Billet précédént :

Billet suivant :