SSE 4.2, consommation
SSE 4.2
Avec son architecture Nehalem Intel n’a pu s’empêcher d’ajouter de nouvelles instructions à la déjà longue liste d’instructions SSE. Le Nehalem supporte donc le SSE4.2 qui reprend toutes les instructions supportées par le Penryn (SSE4.1) et en ajoute 7 de plus. La plupart de ces nouvelles instructions sont dédiées à la manipulation des chaînes de caractère et dont un des buts avoués est notamment d’accélérer le traitement des fichiers XML.
Les deux autres instructions sont orientées vers des applications spécifiques, on retrouve donc l’instruction POCNT apparue avec le Barcelona qui permet de compter le nombre de bits différent de 0 présents dans un registre. D’après Intel cette instruction est particulièrement utile dans le cadre de la reconnaissance vocale ou dans le séquençage d’ADN. La dernière instruction, CRC32, est utilisée pour accélérer le calcul de codes de détections d’erreurs.
Une consommation maîtrisée
Intel le répète inlassablement : pour chaque innovation potentielle destinée à ses nouvelles architectures, les ingénieurs mettent en balance le gain de performance offert avec son impact sur la consommation. La preuve que la firme de Santa Clara a bien retenu la leçon de l’épisode Pentium 4. Avec son architecture Nehalem les ingénieurs ont poussé encore plus loin les techniques permettant de limiter la consommation électrique. Ils ont ainsi intégré un microcontrôleur, la Power Control Unit, qui se charge de surveiller en permanence la température et la consommation des différents cores et, dans les cas où ceux-ci ne sont pas utilisés, qui est capable de les désactiver complètement. Grâce à cette technique la consommation d’un core inutilisé est quasiment nulle, alors qu’auparavant il subsistait des pertes dues aux courants de fuite.
Intel a choisi d’exploiter cette nouveauté de façon originale en introduisant un mode Turbo. Ainsi lorsque le processeur fonctionne en deçà de son TDP standard, parce que notamment certains cores sont désactivés, le mode Turbo permet d’augmenter la fréquence des cores utilisés tout en restant dans la limite du TDP.
Notons également qu’à l’image de l’Atom, les caches L1 et L2 du Nehalem utilisent 8 transistors au lieu des 6 habituels ce qui permet de réduire la consommation au prix d’une surface de die un peu plus importante.

- Processeur,
- Intel,
- Core ,
- i7 ,
- Nehalem ,
- architecture

Et la tu prend un dolipran.
Article très complet qui rejoins bien l'article d'Hardware.fr
Je suis pressé de le voir en fonctionnement
Merci!
Après plus de dix ans à vouloir faire mieux que les autres avec une architecture "innovante", Intel revient aux conclusions des ingénieurs de Digital Equipment Corporation : plutôt amusant...
Et la tu prend un dolipran. Article très complet qui rejoins bien l'article d'Hardware.frJe suis pressé de le voir en fonctionnement Merci!
C'est rare mais personnellement, je suis pressé d'acheter
Grosso merdo, c'est le meme nombre que les bits egaux a 1, quoi
En binaire, oui !!
"tout d’abord le buffer est désormais plus important puisqu’il peut stocker 28 instructions"
Ce ne sont pas des instructions mais des µops. De plus, est-ce vraiment sûr qu'un buffer de 28 *ops soit plus gros qu'un buffer de 18 instructions ?
Je me doute que ça doit dépendre des instructions, mais en moyenne ça donnerait quoi ?
Grosso merdo, c'est le meme nombre que les bits egaux a 1, quoi
Oui dans le cas du binaire, mais disons que POPCNT est une version un peu spécifique du poids de Hamming qui recherche dans une chaîne, le nombre de symboles différents du 0 de l'alphabet utilisé. Donc j'ai gardé la définition générique
"tout d’abord le buffer est désormais plus important puisqu’il peut stocker 28 instructions"Ce ne sont pas des instructions mais des µops. De plus, est-ce vraiment sûr qu'un buffer de 28 *ops soit plus gros qu'un buffer de 18 instructions ?Je me doute que ça doit dépendre des instructions, mais en moyenne ça donnerait quoi ?
Tout à fait c'est une bonne remarque, je le précise un peu plus loin ("Le Loop Stream Detector du Nehalem ne stocke donc plus des instructions x86, mais des µop.") et je voulais souligner qu'effectivement le gain pratique était plus faible que ce qu'il semblait au premier abord mais c'était difficile à évaluer.
La grosse majorité des instructions x86 ne génèrent qu'une seule µop c'est la raison pour laquelle il y a 3 décodeurs simples qui ne peuvent traiter que ces instructions contre un seul pour les instructions générant de 2 à 4µop. Comme tu le notes le rapport instruction x86 / µop dépend fortement de l'application, la moyenne qui circule est de 1.36 µop générées par instruction x86. Dans ce cas le buffer est en fait à peine plus grand que celui du Core 2 duo (~20.6 instructions). Cependant ces chiffres sont assez anciens et datent du Pentium III, depuis il y a eu pas mal de progrès en la matière que ça soit au niveau des instructions SSE qui génèrent moins de µops, ou de la fusion (micro et macro) donc le rapport a du baisser. Je pense qu'on peut considérer que ce buffer est l'équivalent d'un buffer x86 de 22 instructions à la louche mais c'est qu'une grossière estimation.
Et vue qu'en plus on évite l'étape de décodage, c'est effectivement tout benef
Moi, ça me rappelle le P4 cette histoire ...
Plus de puissance, plus de puissance, plus de puissance ... Au détriment de la vitesse.
Désolé