Nature et portée du benchmark
Nature
Globalement, le ‘whitepaper’ de présentation de PCMark04 suit le même plan que celui de 3DMark03, à l’exception d’un passage intitulé ‘Limitations’. Cela est intéressant dans la mesure où il est essentiel que l’éditeur d’un benchmark définisse précisément sa vision du benchmark, ainsi que la réelle portée des chiffres-résultats générés. Ce qui n’a peut-être pas été le cas pour 3DMark, sous-titré d’un ‘The gamer’s benchmark’ assez incompatible avec la (molle) politique de suppression des optimisations d’ATI, nVidia et XGI que Futuremark a ensuite mené.
Première chose, Futuremark définit PCMark04 comme le meilleur compromis entre benchmark synthétique et applicatif. Pour rappel, traditionnellement les benchmarks se distinguent en 2 catégories distinctes. Les benchmarks synthétiques, comme les ‘Feature tests’ de 3DMark03, ne reprennent pas le code d’applications existantes et se donnent pour but d’isoler les performance brut d’une architecture sur des effets spécifiques (ex : Pixel Shader 2.0, fill-rate, etc.). A l’inverse, les benchmarks applicatifs de type ‘SPEC ViewPerf’ regroupent plusieurs applications populaires, et donne la performance moyenne qu’obtient une architecture donnée en situation réelle.
Nous considérons ces deux types de benchmarks indispensables et indissociables : le premier nous permet de saisir les points forts et faibles d’une architecture, de comprendre les résultats des tests applicatifs et de pouvoir émettre des hypothèses sur le comportement d’un composant dans les applications de demain. Le second nous permet de vérifier les performances réelles qu’obtiendra l’acheteur de ce composant sur les applications pour lesquelles il est dédié. L’idée de mélanger ces deux types nous a surprise, et en réalité le score global de PCMark04 peut être considéré comme un indice applicatif.
En effet, l’ensemble des tests à l’origine du score système sont issus d’applications réelles et pour la plupart assez répandu – à l’exception du test de mémoire graphique. Seul des fragments du code de ces applications sont pris en compte, ce qui ne change pas grand-chose à part la taille relativement modeste de PCMark04.
Portée
Si PCMark04 est un benchmark applicatif, il possède donc le défaut intrinsèque de cette catégorie de benchmarks : ne représenter qu’une petite partie des applications « typiques » que les utilisateurs exécutent sur leur configuration. Ce faisant, Futuremark a réalisé des choix portants sur la définition de l’expression ‘utilisation typique d’un PC’. Voici la réponse du développeur à cette question :
Le score global fourni par PCMark04 est donc sensé représenter ces différents aspects à la fois. Les limites de ce principe résident dans le fait que ce score représente plus une moyenne de l’application qui importe le plus pour chaque utilisateur, qu’une plage d’utilisation typique dont la majorité des utilisateurs font usage. Il nous semble en effet que peu d’utilisateurs se ressemblent et accordent autant d’intérêt à la compression de fichiers qu’aux jeux, etc. par exemple. Au contraire, certains seront surtout intéressés par une configuration qui donne de très bonnes performances sous les jeux, quitte à perdre en rapidité sous d’autres applications ; d’autres au contraire auront des choix différents.
Au final, cette moyenne d’utilisation typique ne représente donc que peu de personnes, et met clairement en évidence les difficultés que l’on rencontre lorsque l’on essaye de synthétiser en un seul score les différentes performances qu’une configuration développe sur de multiples applications.
Voilà pourquoi nous pensons que l’idée d’un score global pour synthétiser les performances d’un composant (et plus encore, d’une configuration complète) ne signifie pas grand-chose, et sera avantageusement remplacé par une batterie de tests exhaustifs ainsi qu’une synthèse qui explique quelles performances on peut attendre de ce matériel suivant ses priorités.
Cela dit, même en se plaçant dans le point de vue de l’utilisateur qui accorde aux différents types de tâches les importances choisies par Futuremark, le développeur a été contraint à d’autres choix qui restreignent encore le public concerné : celui des logiciels pour chaque type de tâche.
Ainsi, la catégorie ‘Internet’ se retrouve restreinte à une seule utilisation (le surf), un seul logiciel (IE 6), une tâche (le rendu de pages webs). Plutôt réducteur, même si dans la majorité des cas Futuremark a choisi les logiciels/tâches les plus populaires. Concrètement, l’utilisateur d’Opera, de Kaspersky, qui joue à des jeux OpenGL, n’utilise que Linux et se limite aux vidéos Xvid ne sera pas non plus intéressé par le score PCMark04. On ne peut blâmer Futuremark pour cela, car l’éditeur reste cohérent avec lui-même. C’est encore une fois le principe d’un score unique qui est en cause.