RV530 x 4 = R580 ? (suite)

Tripler le nombre d’ALU est assurément très prometteur mais encore faut il constater si en pratique l’efficacité de l’organisation d’ATI se confirme. Pour le savoir nous avons utilisé un test bien connu du monde GPGPU : le GPUbench qui permet notamment de mesurer le débit maximal d’instructions par seconde.
En théorie le R520 est capable d’exécuter au maximum : 16 * 0.625 = 10 milliards d’instructions arithmétiques par seconde sans tenir compte de la mini ALU. Pour le R580 à la même fréquence on obtient évidemment 30 milliards d’instructions par seconde. Le G70 excelle dans ce genre de shaders procéduraux vu que non seulement il dispose de 24 ALU mais qu’en plus chacune d’elle est dual-issue vu qu’il n’y a pas d’instructions de textures. On obtient donc pour ce chip à sa fréquence standard de 430MHz : 24 *2 * 0.430 = 20.6 milliards d’instructions par seconde. Mais assez de théorie, place à la pratique :

Première constatation, GPUbench offre des résultats très proches des valeurs théoriques et ce pour l’ensemble des chips. Les architectures de ces derniers GPU qu’elles soient signées ATI ou NVIDIA sont donc très efficaces. Deuxième remarque : le GPU NVIDIA se comporte bizarrement avec les instructions SUB et RCP où il dépasse allègrement son maximum théorique d’un facteur 5 ! Il n’y a rien de magique là-dessous si ce n’est la qualité du compilateur de shaders OpenGL de NVIDIA qui détecte des séquences inutiles de code qu’il peut ensuite éliminer.
L’instruction ADD est également exécutée à un débit supérieur au maximum théorique et ce pour toutes les architectures, mais cette fois les résultats sont beaucoup plus raisonnables, on peut donc supposer qu’il s’agit là de l’utilisation de la mini ALU. Si cette supposition est exacte vous noterez que loin de proposer un gain de 100 % sur les additions comme on aurait pu le supposer la mini ALU n’offre en pratique guère plus de 30 %.
Une petite déception sur les chips R5x0 concerne les instructions trigonométriques : SIN/COS/SCS. Lors de la présentation de cette architecture ATI nous a annoncé avoir ajouté une instruction SINCOS (SCS) aux ALU de pixel shaders. Celle-ci est sensée s’exécuter en deux cycles si le résultat des deux fonctions est souhaité ou un cycle si seul le résultat du SIN ou du COS est demandé. En pratique GPUbench donne 6 cycles pour l’instruction SCS et 8 pour les instructions SIN et COS. Concrètement on a ici affaire au même résultat que sur R300/R420 qui utilisait une approximation des fonctions sinus et cosinus par l’intermédiaire de séries de Taylor. La seule explication logique ici est que le compilateur de shaders du driver OpenGL d’ATI n’a pas été mis à jour pour prendre en compte les spécificités de l’architecture R5x0. Cette hypothèse nous a finalement été confirmée par Terry Makedon qui nous a rassuré en nous indiquant que cette situation devrait s’arranger prochainement et que le support de l’instruction SINCOS était d’ores et déjà implémenté au compilateur de shaders du driver DirectX. Rien de grave donc même si l’on peut regretter que le support d’OpenGL soit systématiquement à la traîne chez le Canadien comparativement à DirectX.
Comme prévu le G70 exécute pour sa part les instructions arithmétiques en un seul cycle, mais elles ne peuvent s’exécuter que dans la deuxième unité de shaders. Par conséquent le débit est deux fois plus faible que celui des instructions MUL et MAD.
Repassons à nos tests classiques, et un tout petit peu moins synthétique sur le sujet :

Dès le passage au PS 2.0 long, on constate bien le changement ayant eut lieu. Ceux-ci s’exécutent pour la première fois à la même vitesse que le PS 2.0 simple. Quand au très complexe PS 2.0 d’éclairage par pixel, il s’exécute 160 % plus rapidement sur X1900 XT que sur X1800 XT, et 68 % sur X1900 XTX que sur GeForce 7800 GTX !
Tentons de compléter ces résultats avec d’autres shaders, procéduraux et d’éclairage, tirés de prototypes et d’applications réelles et écrit en HLSL (via RightMark3D) :

Ici aussi, la X1900 XT transforme un retard en une avance conséquente. Si sur les shaders procéduraux le gain n’est pas énorme par rapport à la X1800 XT, les GeForce restant redoutables dans ce domaine, en revanche l’avance de la X1900 XT se dessine très nettement avec les pixels shaders d’éclairage, et tout particulièrement ceux très complexes. Ainsi, avec le modèle de Cook-Torrance on retrouve un niveau de performance environ 2,6 fois plus élevé que sur X1800 XT !
Je suis un peu descu de testé la 1900xt avec une 7800 GTX classic
pq ne pas lavoir testé avec un GTX 512 mo ou en encore la Carte XFX GeForce 7800 GTX 512MB DDR3 XXX Edition
Fréquence du chipset 580 MHz
Nombre de chipsets graphique 1
Taille mémoire vidéo (Mo) 512
Fréquence mémoire vidéo 865 MHz
mais il y a un trés bon rapport qualité/prix même si le prix reste élever il n' atteind pas les 800€ de certainnes gtx
j'atten la reponse de nvidia
Lis l'article.
J'ai envie d'avoir une carte NVIDIA mais ca sera pas possible dommage