Salut Sylvain,
Je m'intéresse à ton travail sur le spin. Je trouve ton approche très pertinente.
A bientôt.
PS: On a dîné ensemble, il y a quelques temps à Annecy avec d'autres SEOman et girl d'ailleurs
Salut, Stéphane si je ne me trompe ?
Je me souviens bien
Bienvenue, je vois que tu as fais vite après notre conversation
Oui c'est Stéphane
Je profite de vos lumières pour une question spin :
{A1|A2|A3}{B1|B2|B3} ---> Holes rate:100%, Replacements rate:300%
{A1{B1|B2|B3}|A2{B1|B2|B3}|A3{B1|B2|B3}} ----> Holes rate:200%,Replacements rate:450 %
Pour autant, peut-on considérer que ces 2 spins ne vont pas, au final, produire les mêmes textes ?
Oui et non.
Il y a deux volets à la réponse :
A/ ça dépend de comment (algo) est tiré le spin. Certains moteurs de spins vont se vautrer et dans ton cas 2, si B1 est choisi pour A1, il sera aussi choisi pour A2 et A3
(beaucoup de scripts php notamment se plantent là).
Donc dans certains cas, certaines variantes peuvent ou pas apparaitre selon comment le masterspin est encodé, et avec quoi on génère les articles.
Dans d'autres cas, tous les articles peuvent sortir, mais pas forcément avec la même probabilité, le tirage d'un mauvais algo peut favoriser toujours les mêmes variantes.
B/ Les deux mesures que tu indiques sont bien évidemment imparfaites, incomplètes, et ne permettront jamais de déterminer la qualité d'un masterspin.
Si tu as à comparer 2 spins à un seul niveau (pas de { imbriquées) , alors oui, ces métriques peuvent donner un indice (partiel).
Dans le cas contraire, ça ne permet de rien dire.
L'un est juste la factorisation de l'autre.
Ces deux métriques ne s'attachent d'ailleurs qu'à la structure des trous.
Pas à leur nature (combien de trous ou de schémas sont similaires/ se répètent ?)
Pas à la taille des trous ou des zones sans trou.
Bref, seul, aucun intérêt.
C'est pour tout ça qu'avec qualispin (qualispin.fr) , je vais plus loin.
Déjà, une visu graphique de la structure du masterspin, qui permet d'identifier les zones faibles, les zones de complexité "artificielles" etc.
Puis un tirage optimisé et qui peut prendre en compte la structure (tirage des chemins les plus différents en premier)
Et surtout un tirage/filtre sur un grand nombre de textes.
Si tu as besoin de 500 textes, je vais en tirer 30000 de manière aléatoire, puis je vais mesurer, un à un, la distance de chacun de ces textes avec tous les autres,
pour ne garder effectivement que les 500 les plus différents.
Un bon masterspin est tellement complexe qu'on ne peut pas raisonnablement épuiser toutes ses variantes, et qu'il est vain de chercher à mesurer, à priori, via un ou deux métriques simplistes, sa qualité. Il faut faire parler les articles.
Merci Sylvain pour cette réponse détaillée.
A/ Si je comprends bien et indépendamment de tes remarques sur le volet B/, si l'on a un script qui gère bien les 2 exemples, le second spin sera plus efficace que le premier ?
Par "efficace" je veux dire qui générera plus de textes différents.
B/ Je partage ton avis et ta méthode. Je profite aussi de l'occasion pour te féliciter sur ce travail remarquable que tu as accompli. J'utilise une méthode "similaire" pour générer des contenus sur un site d'un millier de pages. Par "similaire" je veux dire que chaque texte généré est comparé aux textes déjà présents dans la bdd. Ma méthode est bien moins professionnelle que la tienne par rapport aux critères de similarité.
Mon problème maintenant c'est de trouver une méthode pour générer des millions de textes relativement différents et à la volée. C'est à dire sans base de données. A priori, mais je suis à l'écoute, j'obtiens de très bons résultats en injectant dans le texte un maximum de variables différentes. Je ne vois pas d'autres moyens pour avoir un taux de similarité faible. Qu'en penses-tu ?
Merci pour cet échange.
A/ si le script est bon, les deux versions du masterspin sont strictement identiques.
B/ Là c'est un cas particulier. Déjà, tu es sur du onsite. on peut plus facilement comparer toutes les pages pour trouver les points communs.
Ensuite, tu peux "perforer" avec des variables comme tu veux, ce sont tes invariants qui vont te trahir. Il n'a a pas de solution 'facile" à priori.
Des milliers ou des millions de page, il est très difficile de faire passer ça pour du texte autre que généré automatiquement.
Dis Stéphane, tu viens au SeoCamp de Villard de Lans ?
Ca serait l'occasion de re-papoter un peu en live
Les confs seopcamp, c'est le vendredi.