À l’intérieur du Sandy Bridge : cores et caches
Le Clarkdale intègre un CPU en 32 nm et un GPU-contrôleur mémoire et PCI-Express sur un autre die gravé en 45 nm, les deux puces se retrouvant dans le même packaging. À première vue, le Sandy Bridge est très différent puisque l’on trouve un die gravé en 32 nm regroupant tous ces composants. Néanmoins, lorsque l’on regarde de plus près, les nombreuses similitudes montrent que le Sandy Bridge est avant tout une évolution.
On retrouve trois versions de l’architecture Sandy Bridge. Le modèle quad core est composé de 995 millions de transistors et dispose d’une surface de 216 mm². Les dual cores utilisent douze unités d’exécution pour le moteur graphique et demandent 624 millions de transistors sur un die de 149 mm². Enfin, les plus petits d’entre eux sont composés de deux cores et six unités d’exécution pour la partie graphique. Cela représente 504 millions de transistors et un die de 131 mm².
| Surface du die (mm²) | Transistors (million) | |
|---|---|---|
| Sandy Bridge (4C) | 216 | 995 |
| Sandy Bridge (2C, HD Graphics 3000) | 149 | 624 |
| Sandy Bridge (2C, HD Graphics 2000) | 131 | 504 |
| Bloomfield (4C) | 263 | 731 |
| Lynnfield (4C) | 296 | 774 |
| Westmere (2C) | 81 | 383 |
| Gulftown (6C) | 248 | 1168 |
Comparativement, le Lynnfield qui donna naissance au Core i7-800 et Core i5-700 mesure 296 mm², malgré la présence de « seulement » 774 millions de transistors. L’architecture du Sandy Bridge est possible grâce au Westmere qui a apporté le 32 nm chez Intel (tick) et qui sert de fondation au lancement d’aujourd’hui (tock).
Les Cores
En l’état actuel des choses, Sandy Bridge est décliné en version quad core (avec et sans HyperThreading) et dual core (ils ont tous l’HyperTheading activé). Comme nous le démontrerons dans nos pages dédiées aux benchmarks, les cores Sandy Bridge sont plus puissants que leurs homologues Nehalem à fréquence égale.
On retrouve le cache L1 de 32 Ko pour les instructions et les données et un cache L2 de 256 Ko par core. Sandy Bridge apporte aussi un cache à instruction L0 contenant 1 500 micro-opérations décodées. Cette fonctionnalité permet non seulement d’économiser de l’énergie, mais aussi d’améliorer le nombre d’instructions qu’il est possible de traiter en un temps donné. En effet, s’il est avéré lors de l’étape de recherche de l’instruction que celle-ci se trouve déjà décodée dans le cache L0, le processeur va éteindre le décodeur pour le rallumer uniquement lorsqu’il en aura besoin. Intel a aussi reconstruit les unités de prédiction de branchement du Sandy Bridge afin d’améliorer leur efficacité.

Ces deux tests synthétiques tournent sur des applications single threads. Les deux quad cores tournent à la même fréquence et le Turbo Boost ainsi que l’EIST sont désactivés. Comme vous pouvez le constater, ces changements architecturaux ont un impact positif important sur les performances du Sandy Bridge.
Les processeurs Sandy Bridge sont les premiers à prendre en charge l’Advanced Vector Extension (AVX), un jeu d’instruction 256 bits qui sert d’extension au SSE (le Bulldozer d’AMD sera aussi compatible AVX). L’AVX tire son origine du monde des supercalculateurs où les applications dépendantes des calculs en virgule flottante demandent toujours plus de puissance. On imagine donc que la portée de l’AVX sur une architecture telle que Sandy Bridge sera très limitée, même si Intel espère que les applications de traitement audio et vidéo en profitent, en plus des applications d’analyses financières et scientifiques qui sont principalement visées. Malheureusement, il n’existe pas pour l’instant de logiciels grand public qui tirent parti de l’AVX pour que nous puissions tester les gains qu’il apporte.
L’activation de l’AVX a demandé un lourd travail d’intégration et les registres architecturaux sont maintenant des registres physiques. Cela permet aux opérandes d’être stockés directement dans le registre au lieu de traverser le moteur out-of-order avec les micro-opérations. Les registres physiques apportent aussi un gain de place et une réduction de la consommation qui a permi à Intel d’accroître la taille du buffer ce qui améliore le rendement du moteur de calcul à virgule flottante.
Le cache
Une des conséquences de l’intégration de tous ces composants dans le processeur porte sur la façon dont l’ensemble de l’architecture accède au cache de dernier niveau (le cache L3 dans Sandy Bridge).
Du temps des Bloomfield, Lynnfield et Westmere, une architecture quad ou hexa core signifiait que chaque core physique disposait de sa propre connexion au cache partagé. Néanmoins, le Xeon 7500 rompt avec cette méthode. Conçu pour être plus facilement extensible et disposant déjà de huit cores par processeur, un cache utilisant des liens directs aurait un nombre exorbitant de trace lines entre chaque core et le cache de dernier niveau. Intel a donc adopté un bus en anneau pour ses puces destinées aux environnements professionnels. Cela lui permet de continuer d’étendre ses architectures sans que cela devienne un casse-tête logistique.
En début d’année, nous nous sommes entretenus avec Sailesh Kottapalli, un ingénieur et haut responsable d'Intel. Il nous a expliqué qu’il avait constaté une bande passante soutenue de près de 300 Go/s avec les Xeon 7500 LLC grâce à l’utilisation d’un bus en anneau. Intel a aussi confirmé au cours de l’IDF que l’ensemble de ses produits en phase de développement utilisait cette structure.
Intel n’était évidemment pas inquiet pour le nombre de cores x86 sur les Sandy Bridge pour ordinateur de bureau, mais le passage à un bus en anneau a été motivé par l’arrivée du circuit graphique sur le die. Ses quatre cores sont en effet reliés au System Agent (nommé uncore auparavant). Les temps de latence sont variables puisque chaque composant prend le chemin le plus court, mais dans l’ensemble ils seront toujours plus faibles que sur un Westmere. Le bus en anneau sera donc principalement bénéfique pour les charges de travail traitées par le circuit graphique.
- Processeur,
- Intel,
- sandy ,
- bridge



Certe pas comparable a la sortie des i7 9xx, c'est un pas en avant et la prochaine génération le seras de même !
Enfin !
Bof... Un peu décevant en encodage H264 avec Mainconcept, le i5 2500K ne parvient pas à faire la différence avec l'i7 950 de fréquence inférieure (mais pas de HT) et l'i7 2600K avec HT ne fait en fait la différence que grâce à sa fréquence plus élevée, dans les jeux il n'y a aucun gain, dans des applications pro comme After Effects, 3DSMAX, Cinema 4D, le gain n'est vraiment pas extraordinaire pas de quoi s'extasier ou même être impressionné.
5 à 10% de performance en plus à fréquence égale, il en faut vraiment peu pour impressionner la presse. Je reste plus impressionné par l'i7 970 et 980X...
Je serais impressionné quand on aura 30 à 50% de peformances en plus à fréquence égale comme par exemple comparer un QX9770 à un i7 960 voir même un i7 950.
Vivement les CPU socket 2011 voir même la vraie nouvelle architecture fin 2012.
les performances du GPU sont à la ramasse comparer à fusion qui devrait offrir des perfs similaire à une HD 5550 1Go gddr3 (d'après une vidéo d'amd).
Mais bon, j'attends plutôt avec impatience Bulldozer qui amène beaucoup plus d'innovation
Merci pour ce test, enfin des benchmarks concrets pour les processeurs dans les jeux afin de savoir si l'on est cpu-limited ou non.
P.S. :
"La consommation des deux Sandy Bridge est plus mesurée, [...]"
-> Une comparaison avec les Core I7 série 8 aurait été la bienvenue. ;-)
Au fait, est-ce qu'il serait possible d'intégrer le Core I7 880 dans vos bench afin de voir ce qu'il vaut face au Core I7 2600k ?
Pour ceux qui sont décu des perfs, il suffit de lire l'intro... "Contrairement au design précédent qui a d’abord pris d’assaut les machines les plus performantes (Core i7-900) avant de peupler le bas de l’affiche, le Sandy Bridge commence par le milieu et l’entrée de gamme. Il devrait atteindre le haut de gamme durant le second semestre de cette année avec des processeurs LGA 2011."
Joli coup...
Conso raisonnable, performances moyennes en hausse par rapport à architecture précédente.
Mais le coup de l'overclocking, bof bof...
Et le changement de plate forme, ça c'est moche...
Les sandy bridge haut de gamme arrive quand? Et sur quelle plate forme?
1365?
2011?
Bof... Un peu décevant en encodage H264 avec Mainconcept, le i5 2500K ne parvient pas à faire la différence avec l'i7 950 de fréquence inférieure (mais pas de HT) et l'i7 2600K avec HT ne fait en fait la différence que grâce à sa fréquence plus élevée, dans les jeux il n'y a aucun gain, dans des applications pro comme After Effects, 3DSMAX, Cinema 4D, le gain n'est vraiment pas extraordinaire pas de quoi s'extasier ou même être impressionné. 5 à 10% de performance en plus à fréquence égale, il en faut vraiment peu pour impressionner la presse. Je reste plus impressionné par l'i7 970 et 980X...Je serais impressionné quand on aura 30 à 50% de peformances en plus à fréquence égale comme par exemple comparer un QX9770 à un i7 960 voir même un i7 950.Vivement les CPU socket 2011 voir même la vraie nouvelle architecture fin 2012.
Tu mélanges un peu tout je trouve. Soit tu compares à toutes choses égales (fréq mais aussi nombre de coeurs physiques ou logiques) soit tu compares à prix identique quelque soit les caractéristiques. Je trouve spécieux de dire que SB est décevant en comparant un 4C avec un 4C/8T ou un 6C. En outre dans les jeux, on est aujourd'hui plus limité par le GPU.
Cela dit, SB n'est pas une révolution (sauf pour la vidéo peut-être), mais elles se font rares les révolutions ces temps-ci.
J'aurais aimé voir un peu plus de jeu utile malheureusement on en trouve que sur anandtech.
Dans Wow le CPU est très important, aussi, on voit clairement la différence.
http://www.anandtech.com/show/4083 [...] -tested/20
Parce que là, franchement, AVP, Metro 2033..
Edit modo : mettre le lien original et complet plutôt qu'un site qui pompe honteusement me paraît plus approprié
Je l'ai vraiment mauvaise, surtout pour l'overcloking
Mais non, l'overclocking, ça va s'arranger, il suffira d'attendre des carte mère qui débloque ceci, ou cela...
Quand les core I7 9** sont sorti, on ne pouvait pas dépasser les 200 de BCLK, je l'ai monté à 215.
Alors c'est juste le temps de trouver le petit truc
pour le truc de l'overclock du new i5 i7 c'est géniale suffit de chercher sur le net j'ai trouver la majorité des oveclockeur arrive simplement a 5 ghz avec un vcore de 1.350 a 1.55 alors tres impressionnant est le plus c'est simplement avec un rad origine
c'est génial ces nouveaux cpu ..... intel a travailler hard pour ce la
vive intel
les performances du GPU sont à la ramasse comparer à fusion qui devrait offrir des perfs similaire à une HD 5550 1Go gddr3 (d'après une vidéo d'amd).Mais bon, j'attends plutôt avec impatience Bulldozer qui amène beaucoup plus d'innovation
+1
En plus les SD sont DRMisés, c'est pas cool vis à vis des consommateurs
Tiens, il est de retour... Encore...
Concernant QuickSync, attention!
Les performances sont élevées, mais la qualité d'encodage n'est pas du tout la même (simple passe, peu d'options, colorimétrie dégradée, ...). De même qu'avec CUDA globalement.
Sans vouloir faire de pub concurrente, il y a aussi un autre dossier complémentaire sur HFR (globalement plus technique).
Concernant QuickSync, attention!Les performances sont élevées, mais la qualité d'encodage n'est pas du tout la même (simple passe, peu d'options, colorimétrie dégradée, ...). De même qu'avec CUDA globalement.Sans vouloir faire de pub concurrente, il y a aussi un autre dossier complémentaire sur HFR (globalement plus technique).
Tout à fait. Cependant Cuda s'est nettement amélioré d'ailleurs en une Passe (AVC H264) avec "Mainconcept Codec Suite 5" pour Premiere Pro CS5, cependant la qualité reste encore bien inférieure (pourtant doté d'un bitrate de plus de 24Mbit/s) à un mode deux passes de l'encodeur d'Adobe en H264 Blu-ray (avec un bitrate variable de 18MBit/s).
Comme tu le soulignes, c'est rapide mais la qualité d'image n'est pas au rendez-vous pour les plus pointilleux, surtout quand on a une source propre et qu'on la retrouve particulièrement dégradée en sortie. On revient encore au fait que 2 passes reste encore indispensable pour avoir une qualité d'image fidèle à la source. Il serait intéressant que le mode 2 passes soit enfin supporté.
Par contre CUDA est bien pratique pour la prise en charge des filtres (couleur, contraste, distortion et effet 3D, luma, transition, scaling, etc) qui soulage fortement le processeur qui n'a plus qu'à se concentrer uniquement sur l'encodage. Rien que ça permet déjà de diviser le temps d'exportation par deux!
Ce qui serait intéressant de savoir est : est-ce que QuickSync de cet IGP pourra permettre d'être aussi efficace que CUDA dans le calcule des filtres en temps réel? Si cet IGP devient un jour aussi efficace, cela risquera de poser de gros problèmes à nVidia.
Suis-je le seul à penser à The big bang theory en lisant cela...
====> []
Effectivement. Il faut comparer ce qui est comparable.

Faire de l'encodage en 'Fast Go', n'importe quelle application est capable de le faire. Proposer de la qualité... Cela devient tout de suite beaucoup plus difficile. Le must restant MeGUI et sa panoplie de filtres justement dosés et utilisés.
De plus, quel intérêt de proposer avec ce fameux QuickSync présenté comme le saint Graal de l'ultra rapide si on se retrouve avec des immondices ??
C'est du même acabit que confondre vitesse et précipitation...
Tant qu'il n'a y aura pas pas un minimum de d'options/paramètres permettant de réellement "jouer" sur la qualité VS le temps d'encodage, QuickSync ne présentera que peu d'intérêt...
Saluons juste le fait qu'Intel se soit intéressé à la "chose". S'il pouvait lui apporter quelques améliorations... cela serait Noël avant l'heure
Cordialement.
Merci pour cet article où effectivement le rapport qualité prix du Core i5 2500K semble imbattable... Je me demande ce qu'apporte décidément les i7 et leurs tri-channels. Et je n'arrive pas à savoir parmi tous ces articles s'il est intéressant d'associer le HD Graphics 3000 au simple fonctionnement de l'application nVidia PhysiX par exemple ?
Pour moi c'était le seul intérêt de ces gpu intégrés, mais peu d'informations ou de tests sur cet usage.
" Au lieu de compresser les mêmes fichiers dans un troisième utilitaire, nous avons profité du benchmark intégré dans 7-Zip "


vive les tests
juste pour info... Winrar a aussi un bench intégré !
Soyons claire, il aurait était plus simple et plus logique de proposer une Intel HD 3000 sur des processeur bas de gamme que sur des haut de gamme, sachant que sur des haut de gamme l'utilisateur aura obligatoirement une carte graphique dédier donc l'utilité de ce chipset intégré est moindre alors que sur un processeur bas de gamme un bon chipset intégré reviendrais à remplacer une carte graphique dédier bas de gamme...