[Edito] L'importance relative des benchmarks
Cet édito ne prétend pas inventer la poudre, mais simplement souligner un fait souvent oublié par les lecteurs des articles.
Depuis toujours, la réalisation d’un test ou d’un comparatif ne se conçoit presque jamais sans la présence de benchmarks, des représentations chiffrées (graphiques ou non) de la performance d’un matériel donné pour un test donné. Ces tests varient suivant le matériel, par exemple les jeux ou SPEC Viewperf pour les cartes graphiques, les utilitaires de compression ou de manipulation d’image pour les CPU, CPU Burn + logiciel de mesure de la température pour les systèmes de refroidissement CPU, etc.
Le problème vient du fait que sur la quasi-totalité des comparatifs (du web ou d’ailleurs), les scores mis en avant sur ces tests sont faux ou tout au moins inexacts. Toutefois, cela n’est pas forcément évident pour tout le monde, et il convient de distinguer d’une part les résultats faux, et d’autre part ceux qui sont imprécis.
Les premiers sont plus courants qu’on ne pourrait le penser, mais peuvent être éliminés en comparant les résultats obtenus à ce qu’ils devraient logiquement être (ce qui présuppose une analyse approfondie de l’architecture du matériel). Ils n’ont pas pour origine une erreur volontaire du testeur, mais plutôt une erreur d’inattention, une méconnaissance du matériel testé et des outils composants le protocole de test, etc. Le testeur peut donc s’en rendre compte et les corriger s’il maîtrise son sujet et connaît les sources d’incertitudes de chaque test. Cet article de JF Maquiné met d’ailleurs très bien en évidence ces types d’erreurs, et prouve qu’ils ne sont pas si rares bien que très rarement relevés ou corrigés une fois l’article publié.
Les seconds sont encore plus insidieux et restent quasiment impossibles à éviter, même si les différences sont grandes d’un comparatif à un autre. Il suffit pour s’en convaincre de consulter ces tests qui précisent jusqu’à 5 chiffres significatifs au niveau des benchmarks. Quelque soit l’objet d’un comparatif, les sources d’imprécision sont innombrables, même si certains composants y sont plus sensibles. Prenons l’exemple d’un comparatif de systèmes de refroidissement CPU où il est facile d’énumérer quelques facteurs parmi tant d’autres (contrôle de la température et de l’humidité de l’air arrivant sur l’échangeur à air, contrôle de la quantité et de la répartition de la pâte thermique sur la source de chaleur, contrôle de la pression exercée par le système de fixation sur la source de chaleur, contrôle de la stabilité de la tension délivrée au ventilateur ou à la pompe à l’origine de la convection forcée, contrôle du niveau de charge du processeur et de sa dissipation réelle dans le temps, contrôle de la quantité de chaleur s’échappant via le PCB, contrôle de la dégradation de la surface de contact avec la source de chaleur, contrôle des résidus de pâte thermique restant sur la source de chaleur et améliorant au fil du temps et du comparatif l’échange thermique, etc. etc. - pour plus de précisions sur l’impact de certains de ces facteurs, nous vous recommandons la relecture des trois dernières pages de notre article).
Des exemples similaires sont trouvables dans n’importe quel domaine. Et le pire de tout cela, c’est qu’il est également impossible d’évaluer la précision, la marge d’erreur de ses résultats, vu qu’il n’est même pas possible de quantifier dans quelle mesure chaque facteur amène une imprécision. On est donc loin d’avoir des résultats viables au sens scientifique du terme. Evidemment, l’établissement d’un solide protocole permet de réduire significativement la marge d’erreur, mais sans pouvoir quantifier précisément cette dernière, comment être sûr qu’elle permet effectivement de départager le matériel comparé ?
Or dans le même temps, il semble qu’une proportion non négligeable de lecteurs ne retiennent essentiellement des comparatifs que les benchmarks. Il y a donc là un paradoxe qui est assez dangereux, car suivant le type de matériel concerné, l’écart entre chaque « prétendant » est assez faible voir infime. C’est d’autant plus vrai lorsque l’on considère du matériel haut de gamme où, généralement, les différences de performances aux différents tests pratiques sont anecdotiques, alors que dans le même temps ce sont ces derniers 2 % ou même 0,2 % qui sont le plus recherchés par ceux prêts à investir des sommes considérables dans cette catégorie de matériel.
Si les benchmarks restent et resteront des éléments indispensables à la majorité des comparatifs, il serait bon qu’ils ne soient pas les seuls à être pris en compte, particulièrement dans le cas d’écarts faibles. Les éventuelles remarques du testeur concernant ceux-ci, la synthèse (voir à ce sujet cet edito), l’aspect fonctionnalités (s’il a lieu) ou encore le prix me paraissent tout aussi importants, voir plus. Car indépendamment de l’imprécision ou de l’inexactitude des benchmarks, n’oublions pas non plus que ceux-ci ne valent que pour une configuration matérielle et logicielle bien précise, alors que les conditions d’utilisation finales seront aussi variées qu’il existera d’acheteurs du matériel considéré.
Ainsi, tester une carte graphique sur un CPU très haut de gamme permet d’éviter que celui-ci devienne le facteur limitant, afin de mieux mettre en avant les différences entre chaque GPU. Mais combien d’utilisateurs vont choisir leur carte pour un écart inférieur à 10 %, alors qu’ils disposent d’un CPU qui bridera dans la majorité des cas le framerate (ou d’une insuffisance de RAM, ou d’une configuration logicielle inapte à tirer le meilleur parti de ce matériel, etc. etc.) ?
Notez d’ailleurs que c’est cette même prédominance des benchmarks dans les comparatifs qui pousse certains constructeurs à privilégier (de manière plus ou moins « honnête ») les performances à la qualité, à l’instar des constructeurs de GPU. Mais de ce côté, il est vrai aussi que rares sont les tests à prendre en compte la qualité de l’image lors de chaque bench/jeu.
Au final, s’il est clair que le testeur à sa part de responsabilité dans la prépondérance et l’imprécision des benchmarks, il semble aussi évident que certains lecteurs doivent évoluer et faire preuve de plus de recul et d’esprit critique lors de la lecture des comparatifs. Bienheureux celui qui prétend pouvoir résumer à un chiffre les qualités et défauts intrinsèques d’un composant.
- Les sanctions contre Microsoft suspendues en Europe
- Logiciels de la semaine
- Ground Control en téléchargement gratuit et légal
- Les nouveaux processeurs AMD et Intel débarquent
- Samsung lance des modules de DDR SDRAM de 8 Go
- Comparatif de treize cartes graphiques
- Les nouvelles cartes mères i915 et i925 débarquent
- Drivers, bios et firmwares de la semaine
- Thermaltake BigWater







Pourtant pourla plupart des nerdz de base, y a que ça qui compte : les benchs !
Je peux méme affirmer que certains passent plus de temps à bencher leurs bécans qu' a se servir de leurs PC
Et ça évolue pas dans le bon sens malheuresement..
Pourtant pourla plupart des [g]noobs qui veulent se la péter[/g], y a que ça qui compte : les benchs !
bof, j'en connait qui sont pas des noob mais qui passent leur temps a bencher (et à discuter sur hl2 et doom3 au lieu de jouer aux jeux disponibles ...)
excellent cet edito... bravo a son auteur.
Ba oue, c la vie et la vie est injuste ! Si seulement, le benchmark parfait pour tt le monde existait, tt le monde serait content
!

Faut dire que cette article est destiné + precisement pour le noob, qui se la pete souvent avec le bench ( ex: genre t'as vu j'ai xxx a 3dmark 2003, et toi . . ., nin nin, jai une meilleur cg que toi ) . . .
Alors que ds le fait, tu gagnes ds un jeu 5 à 10 fps de plus selon tes config et le jeu
Ce qui serait bien c'est un magazin qui nous ferait tester les cartes avant d'acheter celle qui convient le mieux à ce qu'on fait.
bof, j'en connait qui sont pas des noob mais qui passent leur temps a bencher (et à discuter sur hl2 et doom3 au lieu de jouer aux jeux disponibles ...)
je les classe dans la categorie noobs/faux-nerdz
moauis c'est bien beau tout ça, mais ca rime à rien c'est beau dire qu'il y a un problème si vous apporter rien pour le resoudre cest chialer pour chialer et ca n'apporte rien.
>gambit : faux geek p-e, faux nerz
>powlin : ce problème existera toujours, il est dû à la méthode de mesure, aux multiples paramètres directes et indirects. il convient de connaître son existence afin de savoir prendre les benchs avec des pincettes géantes et d'arreter de regarder les benchs de manière spécifique mais essayer d'avoir une vue d'essemble te permettant de dire si oui ou non ça vaut le coup. et qd tu en arrive là, tu viens à prendre en compte des facteurs ignorés auparavant ...
J'ai po tout lu , mais j'aime bc la photo des nautilus de B&W
J'ai po tout lu , mais j'aime bc la photo des nautilus de B&W
Feignéant.
je me leve j'ai du mal a voir toutes les pitites lettres !!!
...et non pas [g]à[/g], mais bon, je chipote la, tres bon edito
je me leve j'ai du mal a voir toutes les pitites lettres !!!
Fo pas te bencher au réveil alors, ça fausserait les données
euh c'est moi ,ou cette news est une reedit d'un dossier ppc
http://www.presence-pc.com/article-90.html
Dans toute mesure même au plus haut niveau il y a erreur ne serait que la précision des instruments mais celle ci est connue et evalué. C'est pour ca que la notion d'erreur relative existe et c'est elle qui permet de quantifier une perf ou autre et d'établir des comparatifs. Elle existera toujours et très peu de lecteurs s'en rendent compte par absence/manque de culture technique/physique et prennent tout comme du pain béni ce qu'on leur montrent.
Un des exemples frappants qui revient souvent est celui du classement de Watercoolplanet pour les blocs par exempel où il apparait comme le Saint Grâal du classement mais où leur valeurs à 0.1 K près sont totalement absurdes vu le protocole de merde et l'absence totale (de Jack
Le niveau des articles en France et dans le monde du Web est en général très bas et parsemé d'un tas d'aneries en tout genre. La raison est simple : le rédacteur n'a en général pas les connaissances car c'est pas sa formation et un article technique est + compliqué et rébarbatif à lire pour la majorité mais tellement + instructif. On peut prendre l'exemple de X86 où le rédacteur essaie de décrire en profondeur les choses en terme électronique ou autre que certains jugeront sans intérêt mais au moins il y a matière à apprendre et comprendre.
L'immense majorité des sites c'est on teste vite fait pour dire de remplir son site et faire de la pub, on fait 2-3 tofs et basta on cherche pas à comprendre plus loin que le bout de son nez avec une mesure faite sur le pouce en 15min qu'on ose comparé à d'autre choses dont on controle rien et en faire une conclusion fausse evidemment.
Donc toujours relativiser pour le lecteur et être humble et conscient devant l'erreur pour le rédacteur !!
Faite chier avec vos post de 2 mètres de long, on est dimanche merde.

Il me semble que l'interet du bench est d'avoir une estimation comparative des capacité du materiel avant de l'acheter ... l'interet du bench apres achat ne se justifiant que pour un quelconque overclokage .

Parmis les facteurs d'erreur l'article ne tient pas compte de l'optimisation de certains drivers specifiquement adapté a améliorer la performance du produit sur certains type de bench
Bencher autrement cay de la masturbation informatique
Faite chier avec vos post de 2 mètres de long, on est dimanche merde.

+1
[...] On peut prendre l'exemple de X86 où le rédacteur essaie de décrire en profondeur les choses en terme électronique ou autre que certains jugeront sans intérêt mais au moins il y a matière à apprendre et comprendre. [...]
Rohh, mais tu vas faire rougir notre chère Sam.
Je suis tout à fait d'accord avec Rosco.

Pour moi le plus grand facteur d'erreur des bench est le niveau technique des reviewers qui passent souvent plus de temps à régurgiter dans leur review ce qui est fourni avec le presse kit qu'à essayer de comprendre ce qui se passe réellement, faute d'en avoir la capacité le plus souvent.
Pour les GPU en france les seuls tests qui tiennent la route sont ceux de Hardware.fr, ou en anglais la bible www.beyond3d.com
Le reste c'est à rire ou à pleurer suivant l'humeur
le bench sert a 1chose: a comparer son matos a celui des autres. L'interet et de voir si l'ecart de perfs entre 2matos justifie l'ecart de prix, si il y a un gain a l'overclocking, et enfin a trouver si son matos ne serait pas bridé quelque part.
Je ne vois pas quel interet il y aurait a bencher son matos et je crois que je n'arrive pas a assimiler le concept que certain puissent vbencher "par plaisir"
Pour les GPU en france les seuls tests qui tiennent la route sont ceux de Hardware.fr, ou en anglais la bible www.beyond3d.com
Le reste c'est à rire ou à pleurer suivant l'humeur
carrement pas
Tu confonds soupçon de parti pris et ce dont je parle a savoir la compétence technique.
Et peux tu me citer les sites francais compétents en 3D et qui ne sont pas affiliés/dépendants de revendeurs?
Tu confonds soupçon de parti pris et ce dont je parle a savoir la compétence technique.
Et peux tu me citer les sites francais compétents en 3D et qui ne sont pas affiliés/dépendants de revendeurs?
Euh il me semble qu'on ne se fie jamais aux résultat d'une source mais au recoupement d'information quand on veut acheter du materiel ...
Et ce quelque soit la qualité d'un site et sa compétence technique
moauis c'est bien beau tout ça, mais ca rime à rien c'est beau dire qu'il y a un problème si vous apporter rien pour le resoudre cest chialer pour chialer et ca n'apporte rien.
C'est peut-être que tu n'es pas au courant de notre politique de tests indépendants, comme peut le montrer ceci :
http://www.presence-pc.com/article-133.html