Tutorial Référencement naturel sur moteurs (Google...)


précédentsommairesuivant

I. Initiation et compréhension

I-A. Un peu d'histoire

I-A-1. La paranoïa en système de conduite d'entreprise

Google est une entreprise US paranoïaque ne donnant aucune ou presque indication sur son fonctionnement technique.

Pourquoi ? Outre la théorie de Andy Groove (le fondateur de Intel) il faut se pencher sur la jeune histoire de la recherche d'informations sur le Net pour comprendre.

Les moteurs (Altavista essentiellement) dominent la recherche d'informations sur la première génération du WEB commercial (jusqu'en 1998)

Ces moteurs donnent des résultats de plus en plus approximatifs avec l'arrivée massive et exponentielle de sites web au fil du temps.

Les annuaires prennent le relais et balaient les moteurs en moins de un an (Yahoo !) en 1998/1999

Les résultats de recherche via annuaires sont plus pertinents, les recherches plus faciles.

Quelques inconvénients, mineurs au début, existent dès le début de la domination de Yahoo !
  • Il faut payer ou être patient pour avoir son site indexé par l'annuaire Yahoo.
  • Un petit site sans intérêt bien référencé peut aisément sortir devant un site réellement pertinent lors de recherches
  • Vous avez de l'argent ? vous serez bien référencé au final. Yahoo empoche et les internautes usagers sont floués.

Bref, les annuaires représentent un progrès mais les quantités impressionnantes de nouveaux sites arrivant chaque jour mettent en exergue les défauts de qualité des recherches via annuaires. 2001/2002 : le moteur Google balaie tout le monde - part de marché > 98% en 2003 !!! Google offre de sérieux avantages sur les annuaires tels que Yahoo !

  • C'est gratuit pour le référencement. Les mots clef sont payants, comme chez tout le monde (les autres moteurs et annuaires). Mais le référencement de qualité et gratuit est accessible à tous. Que le meilleur gagne, car même lors de la présence de loueurs de mots clefs, il reste une zone où afficher les sites pertinents n'ayant rien payé !
  • Il est facile d'avoir son site référencé par Google. Il n'y a pas de politique de filtrage manuel comme chez Yahoo en 2000.
  • Les algorithmes originaux et fort peu documentés de Google assurent de meilleurs résultats (plus pertinents) aux internautes que les autres technologies (à ce jour)

Les internautes aiment la qualité des résultats de recherche de Google : les résultats sont plus pertinents que le résultat de ces même recherches via annuaires. Le basculement se fait très vite. Google règne désormais en maître.

Conséquence : pour ne pas se faire doubler, pour protéger son avance, il n'y a pas de réelles informations publiées sur le fonctionnement des algorithmes par Google. Les référenceurs sont donc obligés de chercher par eux-mêmes, ce qui coûte cher. Donc cela incite chacun d'entre eux à protéger son savoir faire. D'où une rareté importante sur de l'information de qualité pour référencer et surtout positionner efficacement son site.

I-A-2. Bien comprendre l'objectif central de Google

Même si les 2 fondateurs sont "originaux" et priment quelquefois l'idéologie sur le business, globalement Google est une société qui doit générer beaucoup de profit. Elle sera donc impitoyable avec tout obstacle sur ce chemin.

Comment un site WEB (le vôtre) devient-il un obstacle sur le chemin de Google ???

Tout ce qui peut polluer l'index de Google est un ennemi de Google :
  • spam indexing : faire référencer des pages bidons qui renvoient ensuite vers le site principal
  • cloaking : Google lit des pages inaccessibles aux internautes (et vice versa)
  • duplicate content : un même contenu existant dans 2 pages différentes.

Si votre site fait cela volontairement ou non, il sera plus ou moins sanctionné par Google.

Pourquoi autant d'attention sur les contenus et la pollution de l'index ?

Regardez l'histoire de Google et des moteurs sur le net. Les internautes font le moteur prépondérant. Qu'ils soient déçus, par AltaVista puis par Yahoo!, alors massivement les internautes quittent leurs habitudes et investissent un autre outil.

L'objectif premier de Google, objectif qui passe même devant les résultats financiers, est de satisfaire les internautes en leur donnant des résultats pertinents.

Polluer volontairement ou non l'index de Google plombe la crédibilité des résultats et peut potentiellement dégoûter des internautes de Google. Donc pas de quartier pour les pollueurs d'index.

I-B. Pourquoi un référencement ? Le changement de comportement des clients et des prospects

Tout type d'acheteur, entreprise ou particulier, passe désormais par un moteur sur Internet (Google...) pour :

  • Rechercher des offres alternatives à un prestataire en place "des fois qu'il y ait mieux ailleurs"
  • Comparer les prix, les prestations, les produits avant tout achat
  • Consulter le BUZZ sur une entreprise, un produit... avant tout achat

Être invisible sur Google ou autres moteurs c'est perdre des prospects qualifiés et ciblés. Donc du business. Demain, la valorisation d'une entreprise inclura la qualité de son référencement

I-C. Pourquoi référencer son site en mode naturel ?

Image non disponible

I-D. Initiation au référencement en termes simples

I-D-1. Étape #1 - Mots et expressions clefs - La mission du marketeur

  • Identifier les mots clefs du "métier" de l'entreprise (et donc de son site WEB)
  • Les tester, en rechercher d'autres, combiner, analyser
    • Donc aucun trafic qualifié
  • Profil de cette mission clef :
    • Des capacités à analyser un marché, les comportements, les attentes priment sur la technicité (HTML, PHP etc.) du site.
    • Donc perte de prospects

I-D-2. Étape #2 - Accessibilité technique & sémantique du site - Les contenus voulus - Le rôle de la technique et du marketeur

L'accessibilité se divise en deux parties :
  • L'accessibilité technique : le robot doit pouvoir accéder à la page et à son contenu.
  • L'accessibilité sémantique : les bons termes destinés à devenir des expressions clefs à positionner doivent être efficacement mis en valeur.

Répéter, "spammer", un mot dans une page n'est certainement pas efficace. Au contraire. Disperser cette expression clef partout sur le site n'est pas efficace non plus. Une accessibilité sémantique est bien plus subtile et elle sera abordée en détail plus avant dans ce document.

Le site WEB qui accueille les prospects et clients doit :
  • Être accessible aux moteurs (un % important de sites bloquent tout ou partie des robots de Google pour cause de maladresses techniques)
  • Pousser les bons mots et expressions clef au bon endroit
    • Dernier exemple en date : "espace crédit" (l'expression clef référencée en réalité par le site aux yeux de Google) n'a aucun rapport avec "Assurance crédit" (l'expression clef recherchée) sur le site d'un courtier en assurances.
    • Éparpiller un mot clef dans un site peut pénaliser le référencement du site :
      • Il est nécessaire de le faire
      • Mais fait sans comprendre inversera la performance. Google aura une vision brouillée de la maîtrise de ce mot clef par le site et le positionnement en sera pénalisé.
      • Conclusion : il faut savoir équilibrer les contenus et donc avoir une bonne compréhension de Google.
  • Ne pas tricher et faire attention à ce que l'on fait
    • Sanctions Google : de black liste à Sand Box => site WEB invisible ou presque sur Google
Profil type pour cette étape : Webmestre ou développeur comprenant Google
  • Maîtrise, de correcte à excellente, des techniques du WEB (HTML, PHP, Java script, Photoshop...)
  • Comprendre Google en accessibilité demande du temps, du travail, des essais, du temps, de la patience, du temps, de la persévérance, du temps, de l'opiniâtreté, du temps, de la réflexion et puis encore et toujours du temps, du temps, beaucoup de temps...
  • À 90%, comprendre les mécanismes de référencement de Google n'est pas compliqué. Juste long. Comprendre comment bien optimiser voire jusqu'à tricher sans se faire prendre exigent beaucoup de temps et de tests.

I-D-3. Étape #3 - Être bien positionné

Référencer son site en le modifiant techniquement ne suffit pas à avoir un bon positionnement
  • Définition : Être dans les 30 premières réponses à une requête correspond à l'expression "être bien positionné"
  • Référencer son site en le modifiant pour qu'il soit accessible avec les bons mots clefs rend possible d'être bien positionné "un jour" dans le futur. Pas plus ! Il n'y a aucune garantie.
Il faut avoir des 'liens nommés entrants' (backlinks dans le jargon) sur son site
  • Stratégique et indispensable, long, difficile...
  • Techniquement simple quand on comprend Google sinon il est facile d'avoir un travail massacré et même contre productif
Profils types :
  • "Petite main" : pour démarcher les échanges de liens
  • "Traffic manager" nouveau métier en cours d'apparition ; il gère les opérations payantes ou non pour booster le positionnement du site dont la gestion des liens.

Piège(s) : les liens dits "annuaires" - Ex : "350€ HT l'inscription dans 5000 annuaires du net" - Une alternative un zeste "provoc" : prenez 7 billets de 50€ et jetez-les par la fenêtre de votre bureau. Ce type de liens ne participe que fort modestement au référencement efficace d'un site.

I-D-4. Étape #4 - Maintenir son référencement & quelques trucs

  • Sans suivi du référencement, ce dernier se dégrade vite car la pression est grande sur le Net
  • Un nouveau métier va apparaître : positionneur de site
  • Ne pas se décourager - nombre d'expressions clefs ne sont pas bien gérées, mal défendues par les "bien positionnés" actuels - il est tout à fait faisable de bien se placer.
    • Marketing & Réflexions bien menées peuvent faire très fort rapidement en positionnement

I-E. Adwords et autres liens commerciaux versus référencement naturel

  Adword - AdSense Référencement naturel
Prestataire à payer 0€ ou petit budget pour marketing sur mots et expressions clefs. Budget moyen à élevé en € : analyse mots clefs, accessibilité, positionnement de base
Coût de l'exploitation Payer Google ou Yahoo au fil des clics sur les liens commerciaux - de 20 à 1000 €mensuel voire plus Éventuel positionnement payant (louer de vrais et bons backlinks), suivi du référencement - budget largement inférieur à Adword ou AdSense
Escroquerie(s) & fraude(s) Malgré les efforts de Google et Yahoo, sabotage et faux clics entre concurrents ou par escrocs en ligne faussent ces outils Si prestataires incompétent ou arnaquant le client sur la qualité.
Délai Immédiat De quelques jours à quelques semaines ou mois
Conclusion Rapide mais cher si il n'y a que cela pour créer du trafic sur le site.
Les 2 approches se complètent Gare aux arnaques dans les 2 approches
Investissement de départ élevé mais plus d'efficacité dans le temps et moins cher sur la durée

I-F. Rappel d'évidences

I-F-1. Inutile de référencer un site Internet touffu

Comment évaluer si votre site est acceptable ou si il doit être révisé, retouché voire même refondu complètement ? Comparez le à ses concurrents, demandez à des "prospects" réels ou tests leur avis et leurs raisons. Questionnez aussi un spécialiste.

Réfléchir avant d'agir, ne pas hésiter devant un budget "réflexion" et analyse pourra vous faire économiser du temps, de l'argent et gagner en qualité.

I-F-2. Inutile de référencer des mots clefs inutilisés

Personne ne les trouvera ! Donc pas de visiteurs.

Nous verrons comment utiliser les outils gratuits de Google et Yahoo ! pour évaluer approximativement un potentiel de fréquentation.

Un outil de Google payant (une poignée d'euros) permet d'affiner.

I-G. Définitions

I-G-1. Les termes simples

Google référence des pages HTML et non des sites !

Le référencement passif : c'est le travail à réaliser sur le site tant en mot clef qu'en modifications techniques pour référencer le site

Le référencement actif : ce sont les actions menées hors du site pour référencer ledit site.

le Page Rank (PR) : la définition fait l'objet d'un paragraphe dédié plus loin dans le présent document.

Un annuaire Internet fonctionne comme les "Pages Jaunes" de Wanadoo : les sites y sont classés par thèmes ou par ordre alphabétique. Une intervention humaine côté annuaire est généralement nécessaire pour contrôler la qualité de l'inscription. Cela en explique le coût facturé par l'annuaire à l'entreprise qui s'y inscrit.

Un moteur est automatisé. Une flotte de robots logiciels (spider, Google Bot...) parcourent Internet, suivent des liens de sites en sites et ils capturent des pages, qu'ils stockent dans les espaces disques du moteur (15 000 serveurs en 2004 chez Google pour vous donner une idée) et dont ils indexent tous les mots significatifs dans une immense base de données centralisée.

Le positionnement traduit le fait d'être présent ou non dans un résultat de recherche sur mots clefs existants dans une des pages de votre site. Il traduit plus finement votre position dans la réponse par rapport à la 1ère réponse (la meilleure place bien sur). Les places qui comptent sont celles des 3 premières pages de 10 réponses unitaires (10 réponses correspond au format standard de réponse de Google. Ce format est bien sur modifiable par l'internaute mais c'est un autre aspect de Google)

Un cookie est un code de marquage envoyé par un site Internet sur votre disque dur. Ce code est unique. Si vous revenez sur le site Internet auteur du cookie, seul lui peut le lire... et vous identifier. De nombreux sites commerciaux utilisent cette technique pour donner du confort à leurs usagers, contrôler l'accès et... comprendre vos habitudes.

Un jeton de session est un genre de cookie (un code de marquage) utilisé comme code obligatoire d'accès à des pages du site. Cette technique est utilisée pour contrôler l'accès à des contenus sensibles, pour lutter contre les intrusions, pour permettre le cheminement dans des transactions financières en ligne etc.

Critères page ON : ce sont les critères de chaque page qui ont un impact sur l'aspect visuel, au sens large. L'internaute perçoit une modification d'un tel critère. Exemple : gérer les balises <hx></hx> (h1, h2...) pour la mise en page plutôt que du <strong></strong>.

Critères page OFF : ce sont les critères de chaque page qui n'ont AUCUN impact sur l'aspect visuel. La balise meta DESCRIPTION par exemple.

Critères ON et OFF PAGES : il y a environ 1000 critères pris en compte par Google... Tous n'ont pas le même poids bien sur. Les plus importants :

  • En local : Title, Description, URL de la page, nom de fichier de la page HTML, le nombre de mots significatifs
  • En Backlink : le contexte et la thématique, la sémantique du paragraphe, de la page, du site. Le positionnement du lien BL au sein de la page et du texte. La qualité du texte en rédactionnel.

I-G-2. Page Rank

I-G-2-a. Objectif recherché

Google veut satisfaire ses usagers (et les fidéliser par leur contentement)

Comment détecter une page ayant un contenu et une pertinence de bonne qualité par rapport à une autre moins pertinente ?

Une des (multiples) réponses consiste pour Google à se baser sur l'avis des internautes.

Le principe est le suivant : plus les internautes vont sur un site, plus des sites WEB mentionnent un site, alors plus ce site aura de visiteurs et donc il dispose potentiellement de contenus de qualité susceptibles de répondre efficacement à la requête d'un internaute.

Comment faire ? En créant le page rank, unité de mesure basée sur :
  • Le nombre de liens pointant vers une page à indexer
  • La qualité en page rank de chaque page contenant un lien pointant vers la page à indexer

Plus un site populaire a un lien pointant vers la page à indexer, plus elle communiquera un page rank élevé à cette page (principe des vases communicants)

Plus il y a de sites qui ont des pages pointant vers cette page, plus le page rank sera élevé.

Voilà pour la définition simple et l'objectif recherché par Google.

Afin de limiter les échanges de liens non pertinents, Google "facture" les pages qui possèdent des liens sortants vers d'autres pages externes au site. Il retire un % de PR de la page appelante pour le transférer vers la page pointée. (principe des vases communicants)

I-G-2-b. Une définition plus complète

Concrètement : à quoi sert le PR, pourquoi en avoir c'est mieux ?

Un PR élevé est garant des points suivants :
  • La régularité du passage de Google sur le site - vous mettez votre site à jour ? avec un PR élevé les nouveautés seront prises en compte plus vite
  • Le volume de pages prises en compte. Vous avez plusieurs niveaux de profondeurs dans votre arborescence ? plus le PR est élevé, plus Google ira profond.
  • Les pages dynamiques : plus vous avez de PR, plus Google accepte des pages à URL dynamique non "rewrité"
  • Bref, avoir du contenu, de l'accessibilité efficace et du PR conduit à avoir un site plus facile à positionner.

La base du Page Rank, noté PR dans la suite des pages de ce document, est une formule mathématique, d'aspect complexe mais finalement simple à appréhender quand on en comprend les principes fondamentaux.

Comprendre le PR est important pour pouvoir améliorer son positionnement et sa visibilité sur le net via Google et pour limiter au maximum ses propres pertes de PR pour les liens sortants de ses propres pages.

ATTENTION : l'application de cette formule comporte des exceptions non documentées par Google.

Abordons ces exceptions avant même d'étudier la formule, c'est important :
  • Un site n'ayant pas de liens sortants et donc aucune fuite de PR se verra sanctionner par un fort retrait de PR. Vous ne jouez pas le jeu du WEB ni surtout le jeu de Google (si tout le monde fait pareil alors comment ferait Google pour fonctionner correctement ? Crime de lèse majesté !) alors forte sanction.
  • Un site ayant beaucoup de liens sortants devrait voir son PR s'effondrer d'après la formule du PR. Pas du tout, au contraire ! Google ajoute un fort bonus de PR à tout site ayant de la fréquentation et disposant de nombreux liens commentés et donc potentiellement informatifs de qualité pour les usagers.
I-G-2-c. La formule

Nous assumons qu'une page A reçoit des liens (ou "votes") émis par les pages T1. à Tn.

Le paramètre d est un facteur d'amortissement pouvant être ajusté entre 0 et 1. Nous donnons généralement à d la valeur 0.85.

De même, C(A) est défini comme le nombre de liens émis par la page A, (liens sortants). Le PageRank de la page A est défini comme suit :

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Le PageRank peut être calculé en utilisant un simple algorithme itératif et il correspond au vecteur propre principal de la matrice normalisée des liens du Web.

PR(A) Le Page Rank de la page A
PR(Tn) Le Page Rank de la page Tn
C(Tn) Le nombre de liens émis depuis la page Tn
d Tous les "liens entrants" sur la page A sont additionnés, mais pour en limiter l'importance, le total est multiplié par ce coefficient d'amortissement (0.85)
1 - d Un petit peu de "magie mathématique" qui permet de garantir que la moyenne des Page Rank de l'ensemble des pages du Web sera de 1.

L'examen de cette formule permet de voir que le PageRank d'une page n'ayant aucun lien entrant sera de 0.15.

Soit :
Sélectionnez
(1 - 0.85) + 0.85*(0) = 0.15

Plusieurs sites, forums pensent que l'échelle du Page Rank est logarithmique, sans que ceci ne soit officiellement admis par Google. Personnellement j'ai mesuré que oui, l'échelle du PR est logarithmique. La base utilisée est estimée. Il est probable que cette base évolue dans le temps. Plus complexe encore, je soupçonne que la base de log ne soit pas la même tout le long de la courbe. Mais bon, restons sur l'hypothèse que la base de log est stable pour simplifier la compréhension de ce mécanisme.

Prenons une échelle logarithmique de base 10 pour simplifier nos calculs et pour bien illustrer notre propos.

La communauté des référenceurs étudiant Google estime qu'actuellement, la base de log utilisée oscille dans la plage 5 à 8. Notre exemple de 10, rappelons le, permet de simplifier le cours. Il n'est d'ailleurs pas exclus que Google ne passe un jour à la valeur 10 devant l'augmentation continue du nombre de sites et de pages à indexer.

PageRank Affiché (log base 10) PageRank réel (calculé)
PR0 0 <= PR < 1
PR1 1 <= PR < 10
PR2 10 <= PR < 100
PR3 100 <= PR < 1000
PR4 1000 <= PR < 10000

Chaque niveau de Page Rank est 10 fois plus élevé que le niveau précédent. En clair il est 10 fois plus ardu de passer de PR4 à PR5 que de passer de PR3 à PR4.

Une première conséquence de cette formule : si un site n'évolue pas, son PR se dégrade au fil du temps. En effet, le nombre de pages, de sites augmentant continuellement, le nombre de liens C(Tn) augmentent et le PR transféré diminue.

Chaque fois que la base augmente pour faire face à la quantité de pages à indexer, la plage de chaque PR augmente et tend à faire diminuer le PR des pages d'un site non maintenu à jour.

Une autre conséquence de cette formule : elle tend à faire converger le PR moyen d'une page vers UN.

La manière dont Google a présenté cette formule indique qu'il n'est pas nécessaire de disposer de tous les PR des pages. En itérant la formule, le calcul converge vers la valeur finale. Bref, cela ne consomme pas de ressources si importantes.

I-G-3. Important, ne pas confondre PageRank et positionnement !

Un bon page Rank, c'est-à-dire une bonne popularité d'après Google de votre site n'est pas l'assurance d'être bien positionné en résultats de recherche.

Certes un bon page Rank aide à avoir un bon positionnement mais il est très facile d'avoir un site de page Rank 1 ou 2 et d'être mieux positionné sur des mots clefs qu'un site de page Rank 4 ou 5. mal géré sur ces même mots clefs.

Pourquoi ? Parce que Google veut publier des résultats pertinents à ses internautes et les sites à fort pouvoirs financiers sont ainsi limités en efficacité de l'argent face à la qualité. des contenus.

Comment ? en travaillant bien la sémantique puis quelques backlinks, un site à petits moyens financiers pourra être mieux positionné qu'un site disposant d'un budget référencement (et donc des moyens d'obtention d'un bon page rank) mais relativement pauvre en contenu ou mal géré en accessibilité (technique ou sémantique)

Conclusion : le rédactionnel prime sur les astuces techniques. Mais sans une bonne accessibilité, le rédactionnel, le contenu aura beaucoup de mal à émerger.


précédentsommairesuivant

  

Copyright © 2007 Gilles GRÉGOIRE. Aucune reproduction, même partielle, ne peut être faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.