Penryn et SSE4 : dialogue 8 fois plus rapide avec le GPU
Stephen Fischer, architecte en chef du Penryn d’Intel a révélé à nos confrères d’Extreme Tech, qu’une des 47 nouvelles instructions SSE4 embarquées sur la prochaine architecture Intel, pourra accélérer par un facteur 8 la communication entre le CPU et un GPU.
Des tampons spéciaux pour des échanges plus rapides
Grâce à cette instruction, MOVNTDQA, Le CPU peut charger des données en provenance de la mémoire vive par paquets de 64 octets, au lieu de lots de 16 octets. De plus, ces lots ne sont pas stockés dans les classiques caches de niveau 1, 2 ou 3 du CPU, ils sont transférés dans tampons dédiés. Il y a donc économie de transactions, économie de bande passante du FSB et donc augmentation de l’efficacité du transfert.
Lire l’avenir dans le SSE
Une instruction similaire avait déjà été introduite avec le SSE2 pour les échanges inverses, lorsque des données en provenance d’un périphérique doivent être écrites en mémoire centrale. Mais quel rapport avec une carte graphique vous demandez-vous ? Eh bien, ce genre d’écritures et de lectures de nombreuses données consécutives est couramment rencontré dans le cadre des échanges entre CPU et GPU, lorsque chacun traite le frame buffer, c’est-à-dire l’ensemble des données formant une image.
Ce genre d’optimisations n’apportera sans doute pas de résultats tangibles avant de nombreux mois, mais, compte tenu du contexte actuel (Larrabee, AMD Fusion) on ne peut s’empêcher de noter chaque effort d’Intel pour fusionner les CPU et les GPU.
- Processeur,
- SSE4 ,
- GPU ,
- penryn
- Colin Mac Rae Dirt : la demo
- A8Sc : un nouveau portable 14 pouces chez Asus
- Un écran OLED en 16 millions de couleurs chez Sony
- Le nano-PC d'AOpen adopte Santa Rosa
- Un GPS pour l'iPhone de deuxième génération ?
- PVI présente un écran électrophorétique
- Bientôt des HD DVD et Blu-ray réinscriptibles
- Nvidia : le G90 arrivera en 65 nm cet automne
- Une souris pour joueurs à 30 euros chez CyberSnipa





c'est une instruction SSE4 , donc normalement c'est pas specifique à intel non ?
Ok, mais est-ce qu'une communication "dédiée" entre processeur et CG permet un augmentation fulgurante des performances ?
En effet, la carte graphique communique plus vite avec le processeur, c'est ok, mais ça implique quoi ?
Mangeur d'pommes ©
Une telle optimisation est déjà implémenté dans le player Unix MPlayer : il utilise sa propre fonction memcpy qui utilise le fsb du bus AGP et le prefetcher pour accélérer la copie par des blocs de 64 octets contigus.
D'après le site d'http://softwarecommunity.intel.com [...] g/1248.htm, cette fonction permet uniquement de charger des données en provenance d'un périphérique ( ex: GPU ) via la mémoire vive en direction du CPU.
Ce que je ne comprends pas c'est l'intérêt de récupérer des données en provenance d'un GPU, à moins d'utiliser le GPU comme coprocesseur arithmétique, fonction il est vrai à la mode en ce moment.
Ou alors encore un coup marketing ....