Introduction
Le SSE, alias MMX2/KNI, tirant son nom de l'anglicisme «Streaming SIMD Extensions», est un extension d'ensemble d'instructions d'abord proposé pour les Pentium III. Les instructions SSE représentent une extension du modèle d'exécution SIMD introduit avec la technologie MMX. Les instructions SSE ne peuvent être exécutées que sur les processeurs Intel 64 et IA-32 prenant en charge les extensions SSE. La prise en charge de ces instructions peut être détectée avec l'instruction CPUID. Les instructions SSE sont divisées en 4 sous-groupes (notez que le premier sous-groupe a ses propres sous-groupes subordonnés) : les instructions SIMD à virgule flottante simple précision fonctionnant avec les registres XMM, les instructions de gestion de l'état MXCSR, les instructions 64 bits SIMD entières fonctionnant avec les registres MMX et le contrôle de mise en cache, prélecture et instructions de commande des instructions.
Les registres SSE
L'extension d'ensemble d'instructions SSE dispose de 8 registres d'utilisation général de 128 bits, numéroté de xmm0 à xmm7. Voici la liste des registres xmm :
Registre | xmm0 |
---|
xmm1 |
xmm2 |
xmm3 |
xmm4 |
xmm5 |
xmm6 |
xmm7 |
Les instructions SSE
Instruction | Description |
---|---|
ADDPS | Cette instruction permet d'effectuer une addition SIMD de 4 paquets de valeurs réels de simple précision d'une opérande source et d'une opérande destination et entrepose le résultat dans l'opérande de destination sous le format d'un paquet de valeurs réels de simple précision. |
ADDSS | Cette instruction permet d'effectuer une addition de la partie basse d'une valeur réel de simple précision d'une opérande source et destination et entrepose le résultat dans une opérande de destination de valeur réel de simple précision. |
ANDNPS | Cette instruction permet d'effectuer un ET BINAIRE sur les 2 opérandes 128 bits spécifiés et inverse chacun des bits du résultat. |
ANDPS | Cette instruction permet d'effectuer un ET BINAIRE sur les 2 opérandes 128 bits spécifiés. |
CMPPS | Cette instruction permet d'effectuer une comparaison SIMD de 4 paquets de valeurs réels de simple précision d'une opérande source et d'une opérande destination et entrepose le résultat de la comparaison dans l'opérande de destination. |
CMPSS | Cette instruction permet d'effectuer une comparaison de la partie basse de valeurs réels de simple précision d'une opérande source et d'une opérande destination et entrepose le résultat de la comparaison dans l'opérande de destination. |
COMISS | Cette instruction permet de comparer deux valeurs réel de simple-précision dans la partie faible du quadruple mot de deux opérande et fixe les drapeaux de ZF, PF et FC du registre EFLAGS en fonction du résultat (non-ordonnée, supérieur à, inférieur ou égal). |
CVTPI2PS | Cette instruction permet de convertir un entier de format double mot en une valeur réel de simple précision compacté. |
CVTPS2PI | Cette instruction permet de convertir une valeur réel de simple précision compacté en un entier de format double mot. |
CVTSI2SS | Cette instruction permet de convertir un entier de format double mot en une valeur réel de simple précision. |
CVTSS2SI | Cette instruction permet de convertir une valeur réel de simple précision en un entier de format double mot. |
CVTTPS2PI | Cette instruction permet de convertir une valeur réel de simple précision compacté avec tronquage en un entier de format double mot compacté. |
CVTTSS2SI | Cette instruction permet de convertir un entier de format double mot avec tronquage en une valeur réel de simple précision. |
DIVPS | Cette instruction permet d'effectuer une division de valeur réel de simple précision de registre XMM ou d'emplacement mémoire de 128 bits. |
DIVSS | Cette instruction permet d'effectuer une division scalaire de valeur réel de simple précision de registre XMM ou d'emplacement mémoire de 128 bits. |
LDMXCSR | Cette instruction permet d'effectuer le chargement du mot de contrôle et d'état du flux d'extension SIMD d'une opérande mémoire 32 bits. |
MASKMOVQ | Cette instruction permet d'entreposer les octets sélectionner de l'opérande source dans un emplacement mémoire de 64 bits. |
MAXPS | Cette instruction permet de retourner la valeur maximal de chacune des paires de valeur entre l'opérande source et l'opérande de destination. |
MAXSS | Cette instruction permet de retourner la valeur maximal entre l'opérande source et destination. |
MINPS | Cette instruction permet de retourner la valeur minimal de chacune des paires de valeur entre l'opérande source et l'opérande de destination. |
MINSS | Cette instruction permet de retourner la valeur minimal entre l'opérande source et destination. |
MOVAPS | Cette instruction permet de copier le contenu de 4 paquets alignés de valeurs réel de simple précision (4 x 32 bits). |
MOVHLPS | Cette instruction permet de copier le contenu du haut d'un paquet de valeurs réel de simple précision dans sa partie basse. |
MOVHPS | Cette instruction permet de copier le contenu du haut de deux paquets de valeurs réel de simple précision dans une opérande de destination. |
MOVLHPS | Cette instruction permet de copier le contenu du bas d'un paquet de valeurs réel de simple précision dans sa partie haute. |
MOVLPS | Cette instruction permet de copier le contenu du bas de deux paquets de valeurs réel de simple précision dans un opérande de destination. |
MOVMSKPS | Cette instruction permet de copier les bits de signes de quatre paquets de valeurs réels de simple précision d'un registre XMM dans les 4 bits les plus bas d'un registre 32 bits. Les autres bits du registres 32 bits sont fixés à 0. |
MOVNTPS | Cette instruction permet de copier le contenu de 4 paquets alignés de valeurs réel de simple précision sans utiliser la méthode temporel pour minimiser la pollution du cache. |
MOVNTQ | Cette instruction permet de copier une valeur 64 bits sans utiliser la méthode temporel pour minimiser la pollution du cache. |
MOVSS | Cette instruction permet de copier une valeur réel de simple précision d'une opérande source vers une opérande de destination. |
MOVUPS | Cette instruction permet de copier le contenu de 4 paquets désalignés de valeurs réel de simple précision (4 x 32 bits). |
MULPS | Cette instruction permet d'effectuer la multiplication de chacune des paires de valeur de l'opérande source et l'opérande de destination. |
MULSS | Cette instruction permet d'effectuer la multiplication scalaire de l'opérande source et l'opérande de destination. |
ORPS | Cette instruction permet d'effectuer un OU BINAIRE de 128 bits sur les 2 opérandes spécifiés. |
PAVGB | Cette instruction permet d'effectuer le calcul de la moyenne des paquets d'octets spécifiés. |
PAVGW | Cette instruction permet d'effectuer le calcul de la moyenne des paquets des mots spécifiés. |
PEXTRW | Cette instruction permet de copier le mot de l'opérande source spécifié par un compteur d'opérande dans l'opérande de destination. |
PINSRW | Cette instruction permet d'effectuer une copie d'un mot d'un opérande source et de l'insérer dans l'opérande de destination de l'emplacement spécifié par un compteur d'opérande. |
PMAXSW | Cette instruction permet de retourner la valeur maximal de chacun des mots (entier) des paquets contenu dans deux opérandes. |
PMAXUB | Cette instruction permet de retourner la valeur maximal de chacun des octets des paquets contenu dans deux opérandes. |
PMINSW | Cette instruction permet de retourner la valeur minimal de chacun des mots des paquets contenu dans deux opérandes. |
PMINUB | Cette instruction permet de retourner la valeur minimal de chacun des octets des paquets contenu dans deux opérandes. |
PMOVMSKB | Cette instruction permet de copiés les masques de chacun des octets d'un paquet contenu dans une opérande. |
PMULHUW | Cette instruction permet d'effectuer la multiplication de la partie haute de chacun des entiers des 2 paquets d'opérandes. |
PREFETCH0 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T0 du microprocesseur. Alias de PREFETCHT0. |
PREFETCH1 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T1 du microprocesseur. Alias de PREFETCHT1. |
PREFETCH2 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T2 du microprocesseur. Alias de PREFETCHT2. |
PREFETCHNTA | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données NTA du microprocesseur. |
PREFETCHT0 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T0 du microprocesseur. Alias de PREFETCH0. |
PREFETCHT1 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T1 du microprocesseur. Alias de PREFETCH1. |
PREFETCHT2 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T2 du microprocesseur. Alias de PREFETCH2. |
PSADBW | Cette instruction permet d'effectuer le calcul la valeur de absolue de la différence des octets de paquet contenu dans une opérande source et destination. |
PSHUFW | Cette instruction permet de copier une double mots d'un opérande source avec emplacement spécifié par un opérande immédiate dans un opérande de destination. |
RCPPS | Cette instruction permet d'effectuer le calcul de la réciproque d'un paquet de valeurs de réel de simple précision. |
RCPSS | Cette instruction permet d'effectuer le calcul de la réciproque d'une valeur de réel de simple précision. |
RSQRTPS | Cette instruction permet de calculer la réciproque approximative de la racine carré d'un paquet de simple précision. |
RSQRTSS | Cette instruction permet de calculer la réciproque approximative de la racine carré d'un scalaire de simple précision. |
SFENCE | Cette instruction permet d'agir comme une barrière pour forcer une priorité en mémoire (sérialisation) entre les instructions précédant emmagasiner du SFENCE et les instructions suivant le SFENCE. |
SHUFPS | Cette instruction permet de copier 4 paquets de valeurs de format réel de simple précision dans une opérande destinataire dans la partie basse d'un quadruple mot de celle-ci et copie 2 des 4 paquets de valeurs de format réel de simple précision dans l'opérande source dans la partie haute d'un quadruple mot de l'opérande destinataire. |
SQRTPS | Cette instruction permet d'effectuer le calcul de la racine carré d'un paquet de valeur de simple précision réel de l'opérande source et de mettre son résultat dans l'opérande de destination sous forme d'un réel de simple précision. |
SQRTSS | Cette instruction permet d'effectuer le calcul de la racine carré d'une valeur de simple précision réel de l'opérande source et de mettre son résultat dans l'opérande de destination sous forme d'un réel de simple précision. |
STMXCSR | Cette instruction permet de copier le MXCSR dans un emplacement mémoire de 32 bits. |
SUBPS | Cette instruction permet d'effectuer une soustraction de 4 paquets de valeurs réels de simple précision d'une opérande source et d'une opérande destination et entrepose le résultat dans l'opérande de destination sous le format d'un paquet de valeurs réels de simple précision. |
SUBSS | Cette instruction permet d'effectuer une soustraction de la partie basse d'une valeur réel de simple précision d'une opérande source et destination et entrepose le résultat dans une opérande de destination de valeur réel de simple précision. |
UCOMISD | Cette instruction permet d'effectuer une comparaison désordonnée de valeurs réels de double précision dans la partie basse d'un double mot du premier opérande et du deuxième opérande, et fixe les drapeaux ZF, PF et FC dans le registre EFLAGS selon le résultat (non-ordonnée, supérieur à, inférieur ou égal) |
UCOMISS | Cette instruction permet d'effectuer une comparaison désordonnée de valeurs réels de simple précision dans la partie basse d'un double mot du premier opérande et du deuxième opérande, et fixe les drapeaux ZF, PF et FC dans le registre EFLAGS selon le résultat (non-ordonnée, supérieur à, inférieur ou égal) |
UNPCKHPS | Cette instruction permet d'effectuer un dépaquetage de la partie haute d'un réel de simple précision d'un opérande source et destination et met le résultat dans l'opérande de destination. |
UNPCKLPS | Cette instruction permet d'effectuer un dépaquetage de la partie basse d'un réel de simple précision d'une opérande source et destination et met le résultat dans l'opérande de destination. |
XORPS | Cette instruction permet d'effectuer un ou exclusif binaire de 4 paquets de valeurs réel de simple précision dans une opérande source et destination et de mettre le résultat dans l'opérande de destination. |