Le référencement SEO et web sémantique

web-3-0-semantique-incidences-referencement-mozalami

Par Mohammed ALAMI / 04 mars 2010

Dans la série de la trilogie du référencement SEO, nous allons voir l’évolution récente des moteurs et les changements induits par le Web sémantique (Web 3.0).

Pour mettre en pratique nos connaissances en référencement naturel, comme vu dans le billet « référencement en 15 étapes », Google a conçu un jeu test de questions & réponses. Je vous invite également à prendre connaissance du Google SEO Report Card, qui fournit aux équipes de produits de Google des idées sur la façon dont ils peuvent améliorer les pages de leurs produits en utilisant des optimisations simples et acceptées.

Le Web Sémantique n’est pas une expression qui peut se suffire d’une simple définition de dictionnaire. C ‘est une notion complexe en plein développement.

Le Web 3.0, web sémantique :

Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C

Bien que le terme soit aujourd’hui remis à jour et annoncé comme étant le Web 3.0, le concept de web sémantique est présent depuis les origines du web. Le terme est utilisé depuis 1994 par Tim Berners Lee, l’inventeur du web.

« The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in coopération ».

La sémantique définit l’étude du langage et des signes linguistiques (mots, expressions, phrases) du point de vue du sens (du grec “semantikos”, “qui signifie”). Il s’agit de savoir comment un signe tel que “X” se charge de sens, comment il est utilisé par l’énonciateur, puis perçu et interprété par le co-énonciateur. L’objectif premier du balisage hypertextuel depuis le SGML, au HTML, puis au XHTML en passant par le XML a toujours été de structurer le contenu d’un document afin d’en marquer, d’en souligner ou d’en révéler le sens : un titre, un intertitre, un paragraphe, une citation ou un encart, une emphase mise sur un passage, une liste, un tableau de données, etc… (edu.ca.edu, 2004). Le (X)HTML définit de nombreuses balises. Chacune de ces balises est destinée à indiquer la nature du contenu qu’elle encadre. C’est ce qu’on appelle la sémantique XHTML.

Schéma des flux de données dans le cas de l’utilisation d’une ontologie

flux de données dans le cas de l’utilisation d’une ontologie

RDF pour sa part est un modèle conceptuel permettant de décrire des choses, simplement et sans ambigüité. RDF est normalisé par le W3C. Ses applications visent initialement le web sémantique mais elles peuvent s’étendre plus largement à l’ingénierie des connaissances.

Sur la base de RDF se sont ensuite développés des vocabulaires spécifiques destinés à des applications particulières, comme FOAF destiné à décrire les relations entre personnes, puis des langages destinés à structurer ces vocabulaires, comme RDFS et le langage d’ontologie OWL.. L’ontologie constitue en soi un modèle de données représentatif d’un ensemble de concepts dans un domaine, ainsi que les relations entre ces concepts. Elle est employée pour raisonner à propos des objets du domaine concerné. Plusieurs prototypes existent visant à démontrer les possibilités offertes par les technologies du Web sémantique et les données mises à disposition selon les principes du Linked Data.

En 2008 le web sémantique sortait progressivement de l’ombre. Le premier changement est la médiatisation du web sémantique autour de quelques produits et acteurs de référence. On retrouve Twine, Freebase, Powerset, Hakia, OpenCalais, DBPedia le projet DataPortability ou encore l’API «Google Social Graph». Autre évolution majeure : les différentes briques technologiques du web sémantique arrivent à maturité. Équivalent des HTML et HTTP des débuts, les RDFs, SPARQL et autres OWL, trouvent des terrains d’application de plus en plus nombreux. L’URI restant la clé de voute du web. Le Web sémantique, de plus en plus appelé Web of data (Web de données) est passé de l’utopie à la réalité en étant inséré dans des outils de recherche d’informations tels que les moteurs web.

Google, s’est mis au web sémantique en structurant des données non structurées semble-t-il. Microsoft a pour sa part lancé son outil de recherche “Bing” qui consiste en une amélioration du moteur sémantique Powerset acquis en 2008. Yahoo a tenté une autre utilisation du web sémantique avec SearchMonkey. L’idée est d’utiliser des données structures et typées (RFD, RDFa, RSS…) pour améliorer l’affichage des résultats de recherche.

Google propose de plus en plus des résultats personnalisés sur les SERPs. Les résultats sont réordonnés selon la langue, l’historique, la géolocalisation, les contacts réseaux de l’utilisateur… En 2009, Google a mis en ligne SearchWiki en expérimentation. Ce projet consiste à ajouter un système de vote aux SERPs pour que les utilisateurs eux-mêmes puissent collaborer afin d’améliorer la pertinence des résultats de recherches. Cela va changer de manière drastique les techniques de référencement et notre façon d’influer les moteurs.

Par ailleurs, les nouveaux usages, la fragmentation des audiences et le développement des médias sociaux accélèrent la transition vers le web sémantique qui doit faciliter l’accès à une information devenue trop pléthorique. Les outils de veille des médias sociaux actuels présentent un défaut d’analyse sémantique. L’analyse des opinions est pauvre et repose essentiellement sur une analyse des mots et non une analyse des sentiments. L’arrivée de nouveaux médias sociaux, comme Twine, basés sur le web sémantique favorisent le marketing social contrôlé.

La recherche en temps réel et web sémantique:

La recherche web basée sur les fichiers index des moteurs semble dépassée. Bing, le moteur de recherche de Microsoft, a été le premier à annoncer la mise en ligne d’un tel service. Yahoo annonçait se mettre également à la recherche en temps réel en Décembre 2009. Enfin, Google a présenté fin 2009 les améliorations de son moteur de recherche pour apporter des réponses «en temps réel», grâce à des résultats croisés avec les sites de socialisation Facebook, MySpace et Twitter.

Le web temps réel est clairement bien plus que Twitter et Facebook, même si ces deux stars de l’internet en sont les représentants les plus connus. Marshall Kirkpatrick a publié une étude à ce sujet qui fait le point sur l’état de l’art, dans le cadre du salon LeWeb à Paris et qui avait justement pour thème le web temps réel. Le web temps réel fait l’objet d’intérêt qu’il s’agisse d’un projet de startup, de community management ou d’un plan marketing.

Les changements sont considérés par Google et donc réindexés selon plusieurs critères. Il faut aussi considérer son positionnement personnalisé par usager (Google Caféine). Pour vérifier son positionnement de façon proactive, des outils permettent de prédire la position potentielle d’un site sur un terme (eCordia). Pour une indexation en temps réel, des actions supplémentaires sont recquises :

1. Mettre à jour les plans de site XML en en utilisant les champs de priorité.

2. Recourir aux fils RSS et les outils de ping (comme Pingomatic).

3. Ajouter “autodiscovery” dans le fichier robots.txt.

4. Utiliser un gestionnaire d’agents (Firefox ou seo-browser.com..) pour les diagnostiques, et Webmaster tool pour “voir le site comme Google le voit”.

5. Recourir aux outils de SEO Scoring (grader) et se concentrer sur méta title.

6. Les web analytiques en temps réel : etracker propose une soltution alternative à l’évaluation faite par les fichiers journaux.

Google de plus en plus sémantique

En Janvier 2010, le traitement des liens de sites comme Twitter ou Facebook a fait l’objet d’une mise au point de la part de Matt Cutts. Sur Facebook, beaucoup de profils ne sont pas publiques et donc Google ne peut l’explorer. Il ne peut pas assigner un pagerank aux liens sortants. Avec Twitter, la plupart des liens ne sont pas suivis de toute façon. Alors pourquoi cet intérêt pour ces réseaux ?

Le choix de Twitter comme partenaire de Google pour la recherche en temps réel n’est pas fortuit. Les interrelations qui font la force de Twitter (échanges entre les utilisateurs sur un sujet), Intéressent particulièrement Google pour une exploitation future dans ses résultats de recherches. En effet, Google travaille sur la recherche sémantique qui cherche justement à connecter les sujets et rendre la recherche plus pertinente. Le potentiel d’apprentissage machine à partir des micro-messages est énorme.

Une fois que la machine sera capable d’extraire du savoir d’une page web à notre place, une large partie du travail des ‘knowledge worker’ sera déjà réalisé par la machine, donnant aux humains la possibilité d’aller bien plus loin encore, le gain de productivité de tous ceux qui travaillent quotidiennement avec comme matière première de l’information seraient phénoménaux. Voir un Emploi en web.

Ainsi, en mai 2009, Google venait d’annoncer qu’il utilisait les 2 principaux formats de marquage de données structurées (les microformats et le standard RDFa) pour afficher certains résultats de manière enrichie : note moyenne et nombre d’avis par les consommateurs, adresse d’une entreprise, etc. Un petit pas vers le web sémantique… . Google divulguait alors sur son blog une variété de techniques utilisées pour créer des extraits de code afin de donner aux utilisateurs des informations pertinentes sur ce qu’ils vont trouver lorsqu’ils cliquent pour visiter un site. Pour afficher les Rich Snippets (résumés textuels), Google cherche des formats de balisage (microformats, RDFa) dans les pages Web à afficher. Google annonce en outre que cette fonctionnalité sera déployée progressivement et qu’elle allait être étendue à d’autres sites. De même, Google expérimente des balises pour les entreprises et les données de localisation. Chaque entreprise peut avoir un certain nombre de propriétés différentes, telles que son nom, l’adresse, l’URL et le numéro de téléphone. Google propose d’étiqueter ces propriétés grâce au balisage par microformats ou RDFa. Le responsable développement du site web Best Buy témoigne qu’après utilisation des balises RDFa, le classement des pages s’est nettement amélioré et que le trafic a augmenté de 30%. Le RDFa trouve son application également dans l’indexation par Google des images, et aussi pour les vidéos .

Incidences du Web 3.0 sur le référencement SEO

Contrairement aux pratiques usuelles qui consistent à optimiser le site avec une forte densité de mots clés, désormais il faut identifier les synonymes et alternatifs des mots pour enrichir le contenu, les métas et les liens du site web.

Le LSI (Latent Semantic Indexing) est un algorithme utilisé par les moteurs de recherche pour évaluer le contenu d’un site en fonction des mots clés utilisés. Google l’exploite dans son programme d’annonces contextuelles AdSense, pour afficher des annonces liées au contenu d’une page. Google annonce sur son blog que le recours à cette méthode est déterminant et que celle-ci va être de plus en plus utilisée sur ses serveurs. En référencement on parle alors de Keyword Clustering, une technique qui permet d’optimiser le site pour une requête assez concurrentielle au moyen d’une grappe de mots proches sémantiquement et rattachés à l’expression clé. Outre le contenu, les métas et les attributs, les liens textes doivent reprendre les termes du corpus.

L’utilisation par Google des RDFa a des conséquences sur les pratiques de référencement. Les Snippets (extraits) permettent d’afficher des informations liées aux produits recherchés et augmentent du même coup la visibilité de ceux-ci dans les moteurs de recherche Google et Yahoo. Au delà des résumés, les référenceurs des sites de commerce électronique, disposent à présent d’un nouvel outil, utilisé efficacement par Best Buy, et qui est totalement gratuit :

GoodRelations est un vocabulaire normalisé de produit, prix, et données de l’entreprise qui peut (1) soient intégrés dans des pages Web existantes statiques et dynamiques et que (2) peuvent être traitées par d’autres ordinateurs. Cela accroît la visibilité de vos produits et services dans la dernière génération de moteurs de recherche, systèmes de recommandation, et les applications utilisant d’autres nouvelles.

A Short Introduction to Semantic Web-based E-Commerce : The GoodRelations Vocabulary

Un autre défi s’impose au référenceur avec l’avènement du web sémantique : le langage de balisage HTML migre actuellement vers le HTML5f, et le CSS3 est en gestation. Le W3C doit finaliser ses recommandations courant 2010 et continue de réviser ses rapports. Toutefois, il est possible d’utiliser la sémantique HTML5 en production de sites pour en mesurer la portée.Le HTML5 devrait améliorer le référencement. Son code est simplifié et apporte aux conteneurs des pages une valeur sémantique. À retenir les balises article, aside et nav, en plus de l’attribut role, hérité du XHTML2 et qui permet d’ajouter de la sémantique aux éléments, notamment les ARIA. Il est intéressant de noter que Google est derrière cette initiative, ce qui rend le passage au HTML5 obligé.

Pour ma part j’attends de voir la conférence qui a lieu à Montréal et où Mark Pilgrim de Google fera le point sur l’usage du HTML5 :

PHP Québec, Montréal-Python, Ruby Montréal, W3Qc, et OWASP Montréal sont fiers d’annoncer la première édition de la Conférence Confoo.ca. Du 10 au 12 mars 2010, les experts internationaux de Java, .Net, PHP, Python, Ruby et Web Marketing vous présenteront des solutions adaptées pour les développeurs, les chefs de projet, les responsables marketing et les gestionnaires. La conférence se déroulera dans le prestigieux Hilton Bonaventure, situé au centre-ville de Montréal.
Cependant, je mets déjà en pratique les attributs RDFa à utiliser en référencement que ce soit pour Google, le référencement multimédia et le référencement des flux de syndication au format RDFa. Je pense aussi sérieusement à migrer ce site de WordPress vers Drupal qui lui bénéficie des plus grandes attentions de la part de Google. pour mieux étayer mes propos je vous invite à visionner cette présentation de 2011 que j’ai postée sur Slideshare:

Web 3.0 (web semantique) et incidences en référencement SEO/SEM

Tags: Web sémantique

ARTICLE SUIVANT

Mohammed ALAMI

Je m’appelle Mohammed ALAMI. Je suis expert et consultant SEO pour les PMEs et grandes entreprises ayant des besoins en référencement. Je suis basé à Montréal, au Québec – Canada. Vous pouvez aussi connecter via Twitter ou Linkedin.