Téléchargez l'application
Tom's Hardware sur l'App Store
Toute l'actu informatique de référence sur votre iPhone
Oui Non

[Edito] L'importance relative des benchmarks

par - source: Présence PC

Cet édito ne prétend pas inventer la poudre, mais simplement souligner un fait souvent oublié par les lecteurs des articles.

Depuis toujours, la réalisation d’un test ou d’un comparatif ne se conçoit presque jamais sans la présence de benchmarks, des représentations chiffrées (graphiques ou non) de la performance d’un matériel donné pour un test donné. Ces tests varient suivant le matériel, par exemple les jeux ou SPEC Viewperf pour les cartes graphiques, les utilitaires de compression ou de manipulation d’image pour les CPU, CPU Burn + logiciel de mesure de la température pour les systèmes de refroidissement CPU, etc.

Le problème vient du fait que sur la quasi-totalité des comparatifs (du web ou d’ailleurs), les scores mis en avant sur ces tests sont faux ou tout au moins inexacts. Toutefois, cela n’est pas forcément évident pour tout le monde, et il convient de distinguer d’une part les résultats faux, et d’autre part ceux qui sont imprécis.

Les premiers sont plus courants qu’on ne pourrait le penser, mais peuvent être éliminés en comparant les résultats obtenus à ce qu’ils devraient logiquement être (ce qui présuppose une analyse approfondie de l’architecture du matériel). Ils n’ont pas pour origine une erreur volontaire du testeur, mais plutôt une erreur d’inattention, une méconnaissance du matériel testé et des outils composants le protocole de test, etc. Le testeur peut donc s’en rendre compte et les corriger s’il maîtrise son sujet et connaît les sources d’incertitudes de chaque test. Cet article de JF Maquiné met d’ailleurs très bien en évidence ces types d’erreurs, et prouve qu’ils ne sont pas si rares bien que très rarement relevés ou corrigés une fois l’article publié.

Les seconds sont encore plus insidieux et restent quasiment impossibles à éviter, même si les différences sont grandes d’un comparatif à un autre. Il suffit pour s’en convaincre de consulter ces tests qui précisent jusqu’à 5 chiffres significatifs au niveau des benchmarks. Quelque soit l’objet d’un comparatif, les sources d’imprécision sont innombrables, même si certains composants y sont plus sensibles. Prenons l’exemple d’un comparatif de systèmes de refroidissement CPU où il est facile d’énumérer quelques facteurs parmi tant d’autres (contrôle de la température et de l’humidité de l’air arrivant sur l’échangeur à air, contrôle de la quantité et de la répartition de la pâte thermique sur la source de chaleur, contrôle de la pression exercée par le système de fixation sur la source de chaleur, contrôle de la stabilité de la tension délivrée au ventilateur ou à la pompe à l’origine de la convection forcée, contrôle du niveau de charge du processeur et de sa dissipation réelle dans le temps, contrôle de la quantité de chaleur s’échappant via le PCB, contrôle de la dégradation de la surface de contact avec la source de chaleur, contrôle des résidus de pâte thermique restant sur la source de chaleur et améliorant au fil du temps et du comparatif l’échange thermique, etc. etc. - pour plus de précisions sur l’impact de certains de ces facteurs, nous vous recommandons la relecture des trois dernières pages de notre article).

Des exemples similaires sont trouvables dans n’importe quel domaine. Et le pire de tout cela, c’est qu’il est également impossible d’évaluer la précision, la marge d’erreur de ses résultats, vu qu’il n’est même pas possible de quantifier dans quelle mesure chaque facteur amène une imprécision. On est donc loin d’avoir des résultats viables au sens scientifique du terme. Evidemment, l’établissement d’un solide protocole permet de réduire significativement la marge d’erreur, mais sans pouvoir quantifier précisément cette dernière, comment être sûr qu’elle permet effectivement de départager le matériel comparé ?

Or dans le même temps, il semble qu’une proportion non négligeable de lecteurs ne retiennent essentiellement des comparatifs que les benchmarks. Il y a donc là un paradoxe qui est assez dangereux, car suivant le type de matériel concerné, l’écart entre chaque « prétendant » est assez faible voir infime. C’est d’autant plus vrai lorsque l’on considère du matériel haut de gamme où, généralement, les différences de performances aux différents tests pratiques sont anecdotiques, alors que dans le même temps ce sont ces derniers 2 % ou même 0,2 % qui sont le plus recherchés par ceux prêts à investir des sommes considérables dans cette catégorie de matériel.

Si les benchmarks restent et resteront des éléments indispensables à la majorité des comparatifs, il serait bon qu’ils ne soient pas les seuls à être pris en compte, particulièrement dans le cas d’écarts faibles. Les éventuelles remarques du testeur concernant ceux-ci, la synthèse (voir à ce sujet cet edito), l’aspect fonctionnalités (s’il a lieu) ou encore le prix me paraissent tout aussi importants, voir plus. Car indépendamment de l’imprécision ou de l’inexactitude des benchmarks, n’oublions pas non plus que ceux-ci ne valent que pour une configuration matérielle et logicielle bien précise, alors que les conditions d’utilisation finales seront aussi variées qu’il existera d’acheteurs du matériel considéré.

Ainsi, tester une carte graphique sur un CPU très haut de gamme permet d’éviter que celui-ci devienne le facteur limitant, afin de mieux mettre en avant les différences entre chaque GPU. Mais combien d’utilisateurs vont choisir leur carte pour un écart inférieur à 10 %, alors qu’ils disposent d’un CPU qui bridera dans la majorité des cas le framerate (ou d’une insuffisance de RAM, ou d’une configuration logicielle inapte à tirer le meilleur parti de ce matériel, etc. etc.) ?

Notez d’ailleurs que c’est cette même prédominance des benchmarks dans les comparatifs qui pousse certains constructeurs à privilégier (de manière plus ou moins « honnête ») les performances à la qualité, à l’instar des constructeurs de GPU. Mais de ce côté, il est vrai aussi que rares sont les tests à prendre en compte la qualité de l’image lors de chaque bench/jeu.

Au final, s’il est clair que le testeur à sa part de responsabilité dans la prépondérance et l’imprécision des benchmarks, il semble aussi évident que certains lecteurs doivent évoluer et faire preuve de plus de recul et d’esprit critique lors de la lecture des comparatifs. Bienheureux celui qui prétend pouvoir résumer à un chiffre les qualités et défauts intrinsèques d’un composant.

Partager:
44
Commentaires
X
Valider

Commentaires
Ajouter un commentaire
arnaudas 27/06/2004 00:58
Masquer
-0+

Pourtant pourla plupart des nerdz de base, y a que ça qui compte : les benchs !
Je peux méme affirmer que certains passent plus de temps à bencher leurs bécans qu' a se servir de leurs PC :sarcastic:

Et ça évolue pas dans le bon sens malheuresement..

Patch 27/06/2004 01:01
Masquer
-0+

arnaudas a écrit :

Pourtant pourla plupart des [g]noobs qui veulent se la péter[/g], y a que ça qui compte : les benchs !


arnaudas 27/06/2004 01:05
Masquer
-0+

Patch a écrit :





:jap:

Atlantis 27/06/2004 02:01
Masquer
-0+

bof, j'en connait qui sont pas des noob mais qui passent leur temps a bencher (et à discuter sur hl2 et doom3 au lieu de jouer aux jeux disponibles ...)

mnemotion 27/06/2004 02:08
Masquer
-0+

excellent cet edito... bravo a son auteur.

amd_style 27/06/2004 02:37
Masquer
-0+

Ba oue, c la vie et la vie est injuste ! Si seulement, le benchmark parfait pour tt le monde existait, tt le monde serait content :jap: !

Faut dire que cette article est destiné + precisement pour le noob, qui se la pete souvent avec le bench ( ex: genre t'as vu j'ai xxx a 3dmark 2003, et toi . . ., nin nin, jai une meilleur cg que toi ) . . .

Alors que ds le fait, tu gagnes ds un jeu 5 à 10 fps de plus selon tes config et le jeu :pfff:

Roro2003 27/06/2004 03:21
Masquer
-0+

Ce qui serait bien c'est un magazin qui nous ferait tester les cartes avant d'acheter celle qui convient le mieux à ce qu'on fait.

gambit 27/06/2004 04:14
Masquer
-0+

Atlantis a écrit :

bof, j'en connait qui sont pas des noob mais qui passent leur temps a bencher (et à discuter sur hl2 et doom3 au lieu de jouer aux jeux disponibles ...)




je les classe dans la categorie noobs/faux-nerdz [:spamafote]

Powlin 27/06/2004 04:53
Masquer
-0+

moauis c'est bien beau tout ça, mais ca rime à rien c'est beau dire qu'il y a un problème si vous apporter rien pour le resoudre cest chialer pour chialer et ca n'apporte rien.

Atlantis 27/06/2004 05:05
Masquer
-0+

>gambit : faux geek p-e, faux nerz :non:
>powlin : ce problème existera toujours, il est dû à la méthode de mesure, aux multiples paramètres directes et indirects. il convient de connaître son existence afin de savoir prendre les benchs avec des pincettes géantes et d'arreter de regarder les benchs de manière spécifique mais essayer d'avoir une vue d'essemble te permettant de dire si oui ou non ça vaut le coup. et qd tu en arrive là, tu viens à prendre en compte des facteurs ignorés auparavant ...

katkar 27/06/2004 09:38
Masquer
-0+

J'ai po tout lu , mais j'aime bc la photo des nautilus de B&W :D

Dagobert_78 27/06/2004 09:49
Masquer
-0+

katkar a écrit :

J'ai po tout lu , mais j'aime bc la photo des nautilus de B&W :D




Feignéant.

katkar 27/06/2004 10:09
Masquer
-0+

je me leve j'ai du mal a voir toutes les pitites lettres !!!

Dagobert_78 27/06/2004 10:11
Masquer
-0+

:lol:

sushifou 27/06/2004 11:06
Masquer
-0+

Citation :Au final, s'il est clair que le testeur [g]a[/g] sa part de responsabilité


...et non pas [g]à[/g], mais bon, je chipote la, tres bon edito ;)

dorian 27/06/2004 11:08
Masquer
-0+

katkar a écrit :

je me leve j'ai du mal a voir toutes les pitites lettres !!!



Fo pas te bencher au réveil alors, ça fausserait les données :lol:

NiahBoumPof is back 27/06/2004 11:12
Masquer
-0+

euh c'est moi ,ou cette news est une reedit d'un dossier ppc :??:

rosco 27/06/2004 11:45
Masquer
-0+

Citation :Evidemment, l’établissement d’un solide protocole permet de réduire significativement la marge d’erreur, mais sans pouvoir quantifier précisément cette dernière, comment être sûr qu’elle permet effectivement de départager le matériel comparé ?


Dans toute mesure même au plus haut niveau il y a erreur ne serait que la précision des instruments mais celle ci est connue et evalué. C'est pour ca que la notion d'erreur relative existe et c'est elle qui permet de quantifier une perf ou autre et d'établir des comparatifs. Elle existera toujours et très peu de lecteurs s'en rendent compte par absence/manque de culture technique/physique et prennent tout comme du pain béni ce qu'on leur montrent.

Un des exemples frappants qui revient souvent est celui du classement de Watercoolplanet pour les blocs par exempel où il apparait comme le Saint Grâal du classement mais où leur valeurs à 0.1 K près sont totalement absurdes vu le protocole de merde et l'absence totale (de Jack :whistle: ) de méthode. Et pourtant tout le monde quasiment ne jure que par çà en taquinant le 0.1K sur des valeurs débiles :sarcastic: . On peut juste dire que les 10 premiers en gros se valent tous car l'erreur est bien plus élevée que 0.1K et atteindra facilement +/-1°C, ce qui dans l'absolu ne change quasiment rien pour le proco.

Le niveau des articles en France et dans le monde du Web est en général très bas et parsemé d'un tas d'aneries en tout genre. La raison est simple : le rédacteur n'a en général pas les connaissances car c'est pas sa formation et un article technique est + compliqué et rébarbatif à lire pour la majorité mais tellement + instructif. On peut prendre l'exemple de X86 où le rédacteur essaie de décrire en profondeur les choses en terme électronique ou autre que certains jugeront sans intérêt mais au moins il y a matière à apprendre et comprendre.

L'immense majorité des sites c'est on teste vite fait pour dire de remplir son site et faire de la pub, on fait 2-3 tofs et basta on cherche pas à comprendre plus loin que le bout de son nez avec une mesure faite sur le pouce en 15min qu'on ose comparé à d'autre choses dont on controle rien et en faire une conclusion fausse evidemment.

Donc toujours relativiser pour le lecteur et être humble et conscient devant l'erreur pour le rédacteur !! :jap:

Dagobert_78 27/06/2004 11:51
Masquer
-0+

Faite chier avec vos post de 2 mètres de long, on est dimanche merde.
:)

NiahBoumPof is back 27/06/2004 11:52
Masquer
-0+

:lol:

Wivern 27/06/2004 11:55
Masquer
-0+

Il me semble que l'interet du bench est d'avoir une estimation comparative des capacité du materiel avant de l'acheter ... l'interet du bench apres achat ne se justifiant que pour un quelconque overclokage .

Bencher autrement cay de la masturbation informatique :o

[:edit] Parmis les facteurs d'erreur l'article ne tient pas compte de l'optimisation de certains drivers specifiquement adapté a améliorer la performance du produit sur certains type de bench :o

redshift 27/06/2004 11:56
Masquer
-0+

Dagobert a écrit :

Faite chier avec vos post de 2 mètres de long, on est dimanche merde.
:)




+1 :o

Dagobert_78 27/06/2004 11:56
Masquer
-0+

rosco a écrit :


[...] On peut prendre l'exemple de X86 où le rédacteur essaie de décrire en profondeur les choses en terme électronique ou autre que certains jugeront sans intérêt mais au moins il y a matière à apprendre et comprendre. [...]




Rohh, mais tu vas faire rougir notre chère Sam. :love:

PatrickL 27/06/2004 11:57
Masquer
-0+

Je suis tout à fait d'accord avec Rosco.

Pour moi le plus grand facteur d'erreur des bench est le niveau technique des reviewers qui passent souvent plus de temps à régurgiter dans leur review ce qui est fourni avec le presse kit qu'à essayer de comprendre ce qui se passe réellement, faute d'en avoir la capacité le plus souvent.

Pour les GPU en france les seuls tests qui tiennent la route sont ceux de Hardware.fr, ou en anglais la bible www.beyond3d.com

Le reste c'est à rire ou à pleurer suivant l'humeur :)

NiahBoumPof is back 27/06/2004 11:58
Masquer
-0+

le bench sert a 1chose: a comparer son matos a celui des autres. L'interet et de voir si l'ecart de perfs entre 2matos justifie l'ecart de prix, si il y a un gain a l'overclocking, et enfin a trouver si son matos ne serait pas bridé quelque part.
Je ne vois pas quel interet il y aurait a bencher son matos et je crois que je n'arrive pas a assimiler le concept que certain puissent vbencher "par plaisir"

NiahBoumPof is back 27/06/2004 12:00
Masquer
-0+

PatrickL a écrit :


Pour les GPU en france les seuls tests qui tiennent la route sont ceux de Hardware.fr, ou en anglais la bible www.beyond3d.com

Le reste c'est à rire ou à pleurer suivant l'humeur :)



carrement pas [:c3po] tu veux ptet qu'on te rappelle que HFR prends ses pieces directement chez les constructeurs et ne les prends pas dans le commerce ? rhalala les drivers optimisé (et le matos aussi) combien de fois ils y ont eu droit. (attention je ne dis pas que 100% de leur tests sont faux, au contraire je les trouve tres bon mazis pour les CG j'ai plus tendance a chercher ailleurs, surtout depuis leur test des GF6 et X8Pro ou tous leurs resultats etaient inverse par rapport a ceux des autres sites.)

PatrickL 27/06/2004 12:10
Masquer
-0+

Tu confonds soupçon de parti pris et ce dont je parle a savoir la compétence technique.

Et peux tu me citer les sites francais compétents en 3D et qui ne sont pas affiliés/dépendants de revendeurs?

Wivern 27/06/2004 12:17
Masquer
-0+

PatrickL a écrit :

Tu confonds soupçon de parti pris et ce dont je parle a savoir la compétence technique.

Et peux tu me citer les sites francais compétents en 3D et qui ne sont pas affiliés/dépendants de revendeurs?




Euh il me semble qu'on ne se fie jamais aux résultat d'une source mais au recoupement d'information quand on veut acheter du materiel ...

Et ce quelque soit la qualité d'un site et sa compétence technique :o

Christophe 27/06/2004 13:26
Masquer
-0+

powlin a écrit :

moauis c'est bien beau tout ça, mais ca rime à rien c'est beau dire qu'il y a un problème si vous apporter rien pour le resoudre cest chialer pour chialer et ca n'apporte rien.



C'est peut-être que tu n'es pas au courant de notre politique de tests indépendants, comme peut le montrer ceci :
http://www.presence-pc.com/article-133.html

Publicité

Les offres du moment

Newsletters


OK