Introduction
Le SSE3, tirant son nom de l'anglicisme «Streaming SIMD Extensions 3», est un extension d'ensemble d'instructions d'abord proposé pour les Pentium 4. Les extensions SSE3 proposent 13 instructions accélérant les performances de la technologie Streaming SIMD Extensions, de la technologie SSE2 (Streaming SIMD Extensions 2) et des capacités mathématiques x87-FP. Ces instructions peuvent être regroupées dans les catégories suivantes : une instruction x87FPU utilisée dans la conversion d'entiers, une instruction entière SIMD traitant les chargements de données non alignés, deux instructions ADD/SUB à virgule flottante SIMD, quatre instructions ADD/SUB horizontales à virgule flottante SIMD, trois instructions SIMD à virgule flottante LOAD/MOVE/DUPLICATE et deux instructions de synchronisation des processus léger. Les instructions SSE3 ne peuvent être exécutées que sur les processeurs Intel 64 et IA-32 prenant en charge les extensions SSE3. La prise en charge de ces instructions peut être détectée avec l'instruction CPUID.
Les instructions SSE3
Voici la liste d'une partie l'ensemble d'instructions SSE3 :
Instruction | Description |
---|---|
ADDPD | Cette instruction permet d'effectuer une addition de 2 paquets de valeurs réels de double précision d'un opérande source et d'un opérande destination et entrepose le résultat dans l'opérande de destination sous le format d'un paquet de valeurs réels de double précision. |
ADDPS | Cette instruction permet d'effectuer une addition SIMD de 4 paquets de valeurs réels de simple précision d'une opérande source et d'une opérande destination et entrepose le résultat dans l'opérande de destination sous le format d'un paquet de valeurs réels de simple précision. |
ADDSD | Cette instruction permet d'effectuer une addition de la partie basse d'une valeur réel de double précision d'un opérande source et destination et entrepose le résultat dans un opérande de destination de valeur réel de double précision. |
ADDSS | Cette instruction permet d'effectuer une addition de la partie basse d'une valeur réel de simple précision d'une opérande source et destination et entrepose le résultat dans une opérande de destination de valeur réel de simple précision. |
ANDNPD | Cette instruction permet d'effectuer un ET BINAIRE sur les 2 paquets d'opérandes de valeur de format réel de double précision et inverse chacun des bits du résultat. |
ANDNPS | Cette instruction permet d'effectuer un ET BINAIRE sur les 2 opérandes 128 bits spécifiés et inverse chacun des bits du résultat. |
ANDPD | Cette instruction permet d'effectuer un ET BINAIRE sur les 2 paquets d'opérandes de valeur de format réel de double précision. |
ANDPS | Cette instruction permet d'effectuer un ET BINAIRE sur les 2 opérandes 128 bits spécifiés. |
CLFLUSH | Cette instruction permet de vider la ligne de cache d'une adresse linéaire. |
CMPPD | Cette instruction permet d'effectuer une comparaison SIMD de 2 paquets de valeurs réels de double précision d'un opérande source et d'un opérande destination et entrepose le résultat de la comparaison dans l'opérande de destination. |
CMPPS | Cette instruction permet d'effectuer une comparaison SIMD de 4 paquets de valeurs réels de simple précision d'une opérande source et d'une opérande destination et entrepose le résultat de la comparaison dans l'opérande de destination. |
CMPSS | Cette instruction permet d'effectuer une comparaison de la partie basse de valeurs réels de simple précision d'une opérande source et d'une opérande destination et entrepose le résultat de la comparaison dans l'opérande de destination. |
COMISD | Cette instruction permet de comparer deux valeurs réel de double-précision dans la partie faible du quadruple mot de deux opérande et fixe les drapeaux de ZF, PF et FC du registre EFLAGS en fonction du résultat (non-ordonnée, supérieur à, inférieur ou égal). |
COMISS | Cette instruction permet de comparer deux valeurs réel de simple-précision dans la partie faible du quadruple mot de deux opérande et fixe les drapeaux de ZF, PF et FC du registre EFLAGS en fonction du résultat (non-ordonnée, supérieur à, inférieur ou égal). |
CVTDQ2PD | Cette instruction permet d'effectuer la conversion d'un paquet de double mot entier en valeurs réel de double précision. |
CVTDQ2PS | Cette instruction permet d'effectuer la conversion d'un paquet de double mot entier en valeurs réel de simple précision. |
CVTPD2DQ | Cette instruction permet d'effectuer la conversion d'un paquet de valeurs réel de double précision en double mot entier et fixe à 0 le reste du paquet. |
CVTPD2PI | Cette instruction permet d'effectuer la conversion d'un paquet de valeurs réel de double précision en double mot entier. |
CVTPD2PS | Cette instruction permet d'effectuer la conversion d'un paquet de valeurs réel de double précision en valeurs réel de simple précision et fixe à 0 le reste du paquet. |
CVTPI2PD | Cette instruction permet d'effectuer la conversion d'un paquet de double mot entier en valeurs réel de double précision compacté. |
CVTPI2PS | Cette instruction permet de convertir un entier de format double mot en une valeur réel de simple précision compacté. |
CVTPS2DQ | Cette instruction permet d'effectuer la conversion d'un paquet de valeurs réel de simple précision en paquet de doubles mots entiers. |
CVTPS2PD | Cette instruction permet d'effectuer la conversion d'un paquet de valeurs réel de simple précision en paquet de valeurs réel de double précision. |
CVTPS2PI | Cette instruction permet de convertir une valeur réel de simple précision compacté en un entier de format double mot. |
CVTSI2SS | Cette instruction permet de convertir un entier de format double mot en une valeur réel de simple précision. |
CVTSS2SI | Cette instruction permet de convertir une valeur réel de simple précision en un entier de format double mot. |
CVTSD2SI | Cette instruction permet d'effectuer la conversion d'une valeur réel de simple précision en valeur entier de double mots. |
CVTSD2SS | Cette instruction permet d'effectuer la conversion d'une valeur réel de double précision en valeur réel de simple précision. |
CVTSS2SD | Cette instruction permet de convertir une valeur réel de simple précision en une valeur réel de double précision. |
CVTTPD2DQ | Cette instruction permet de convertir un paquet de valeur réel de double précision avec en un paquet d'entier de format double mot tronquer et fixe à 0 le reste du paquet. |
CVTTPD2PI | Cette instruction permet de convertir une valeur réel de double précision compacté avec tronquage en un entier de format double mot compacté. |
CVTTPS2PI | Cette instruction permet de convertir une valeur réel de simple précision compacté avec tronquage en un entier de format double mot compacté. |
CVTTPS2DQ | Cette instruction permet de convertir un paquet de valeur réel de simple précision avec en un paquet d'entier de format double mot tronquer. |
CVTTSD2SI | Cette instruction permet de convertir une valeur réel de double précision avec en un entier de format double mot tronquer. |
CVTTSS2SI | Cette instruction permet de convertir un entier de format double mot avec tronquage en une valeur réel de simple précision. |
DIVPD | Cette instruction permet d'effectuer une division de valeur réel de double précision de registre XMM ou d'emplacement mémoire de 128 bits. |
DIVPS | Cette instruction permet d'effectuer une division de valeur réel de simple précision de registre XMM ou d'emplacement mémoire de 128 bits. |
DIVSD | Cette instruction permet d'effectuer une division scalaire de valeur réel de double précision de registre XMM ou d'emplacement mémoire de 128 bits. |
DIVSS | Cette instruction permet d'effectuer une division scalaire de valeur réel de simple précision de registre XMM ou d'emplacement mémoire de 128 bits. |
LDDQU | Cette instruction permet de copier un quadruple mot d'une opérande source vers une opérande destination. |
LDMXCSR | Cette instruction permet d'effectuer le chargement du mot de contrôle et d'état du flux d'extension SIMD d'une opérande mémoire 32 bits. |
LFENCE | Cette instruction permet d'agir comme une barrière pour forcer une priorité en mémoire (sérialisation) entre les instructions précédant le LFENCE et les instructions de chargement suivant le LFENCE. |
MASKMOVDQU | Cette instruction permet d'entreposer les octets sélectionnés par l'opérande source dans une emplacement mémoire de 128 bits. |
MASKMOVQ | Cette instruction permet d'entreposer les octets sélectionner de l'opérande source dans un emplacement mémoire de 64 bits. |
MAXPD | Cette instruction permet de retourner la valeur maximal de chacune des paires de valeur entre l'opérande source et l'opérande de destination de nombre réel de double précision. |
MAXPS | Cette instruction permet de retourner la valeur maximal de chacune des paires de valeur entre l'opérande source et l'opérande de destination. |
MAXSD | Cette instruction permet de retourner la valeur maximal entre l'opérande source et destination de nombre réel de simple précision. |
MAXSS | Cette instruction permet de retourner la valeur maximal entre l'opérande source et destination. |
MFENCE | Cette instruction permet d'agir comme une barrière pour forcer une priorité en mémoire (sérialisation) entre les instructions précédant le MFENCE et les instructions de chargement et d'entreposage précédent le MFENCE. |
MINPD | Cette instruction permet de retourner la valeur minimal de chacune des paires de valeur entre l'opérande source et l'opérande de destination de nombre réel de double précision. |
MINPS | Cette instruction permet de retourner la valeur minimal de chacune des paires de valeur entre l'opérande source et l'opérande de destination. |
MINSD | Cette instruction permet de retourner la valeur minimal entre l'opérande source et destination de nombre réel de simple précision. |
MINSS | Cette instruction permet de retourner la valeur minimal entre l'opérande source et destination. |
MONITOR | Cette instruction permet d'indiquer au microprocesseur quel rangé d'adresse est à serveiller par l'instruction STORE. |
MOVAPD | Cette instruction permet de copier le contenu de 2 paquets alignés de valeurs réel de double précision. |
MOVAPS | Cette instruction permet de copier le contenu de 4 paquets alignés de valeurs réel de simple précision (4 x 32 bits). |
MOVHPD | Cette instruction permet de copier le contenu du haut de deux paquets de valeurs réel de double précision dans une opérande de destination. |
MOVHLPS | Cette instruction permet de copier le contenu du haut d'un paquet de valeurs réel de simple précision dans sa partie basse. |
MOVHPS | Cette instruction permet de copier le contenu du haut de deux paquets de valeurs réel de simple précision dans une opérande de destination. |
MOVLHPS | Cette instruction permet de copier le contenu du bas d'un paquet de valeurs réel de simple précision dans sa partie haute. |
MOVLPD | Cette instruction permet de copier le contenu du bas de deux paquets de valeurs réel de double précision dans un opérande de destination. |
MOVLPS | Cette instruction permet de copier le contenu du bas de deux paquets de valeurs réel de simple précision dans un opérande de destination. |
MOVMSKPD | Cette instruction permet de copier les bits de signes de deux paquets de valeurs réels de double précision d'un registre XMM dans les 2 bits les plus bas d'un registre 32 bits. Les autres bits du registres 32 bits sont fixés à 0. |
MOVMSKPS | Cette instruction permet de copier les bits de signes de quatre paquets de valeurs réels de simple précision d'un registre XMM dans les 4 bits les plus bas d'un registre 32 bits. Les autres bits du registres 32 bits sont fixés à 0. |
MOVNTI | Cette instruction permet de copier une valeur 32 ou 64 bits dans un emplacement mémoire afin de minimiser la pollution du cache dans un processus léger. |
MOVNTDQ | Cette instruction permet de copier le contenu de double quadruple mots d'un opérande source vers un opérande de destination sans utiliser la méthode temporel pour minimiser la pollution du cache. |
MOVNTPD | Cette instruction permet de copier le contenu de valeur réel de double précision d'un opérande source vers un opérande de destination sans utiliser la méthode temporel pour minimiser la pollution du cache. |
MOVNTPS | Cette instruction permet de copier le contenu de 4 paquets alignés de valeurs réel de simple précision sans utiliser la méthode temporel pour minimiser la pollution du cache. |
MOVNTQ | Cette instruction permet de copier une valeur 64 bits sans utiliser la méthode temporel pour minimiser la pollution du cache. |
MOVSS | Cette instruction permet de copier une valeur réel de simple précision d'une opérande source vers une opérande de destination. |
MOVSD | Cette instruction permet de copier un scalaire de valeur de double précision d'un opérande source vers un opérande destination. |
MOVUPD | Cette instruction permet de copier le contenu de 2 paquets désalignés de valeurs réel de double précision. |
MOVUPS | Cette instruction permet de copier le contenu de 4 paquets désalignés de valeurs réel de simple précision (4 x 32 bits). |
MULPD | Cette instruction permet d'effectuer la multiplication de chacune des paires de valeur de double précision de l'opérande source et l'opérande de destination. |
MULPS | Cette instruction permet d'effectuer la multiplication de chacune des paires de valeur de l'opérande source et l'opérande de destination. |
MULSD | Cette instruction permet d'effectuer la multiplication scalaire de valeurs réel de double précision de l'opérande source et l'opérande de destination. |
MULSS | Cette instruction permet d'effectuer la multiplication scalaire de l'opérande source et l'opérande de destination. |
MWAIT | Cette instruction permet d'indiquer au microprocesseur que l'état de l'alimentation de la ligne de cache est en attente d'écriture dans la plage d'adresse, mettant fin à la plupart des activités dans le noyau en le faisant. |
ORPD | Cette instruction permet d'effectuer un OU BINAIRE de 128 bits sur les 2 opérandes réels de double précisions spécifiés. |
ORPS | Cette instruction permet d'effectuer un OU BINAIRE de 128 bits sur les 2 opérandes spécifiés. |
PAVGB | Cette instruction permet d'effectuer le calcul de la moyenne des paquets d'octets spécifiés. |
PAVGW | Cette instruction permet d'effectuer le calcul de la moyenne des paquets des mots spécifiés. |
PAUSE | Cette instruction permet d'améliorer les performances des boucles de «SPIN», en fournissant une indication pour le microprocesseur que le code courant est dans une boucle en «SPIN». |
PEXTRW | Cette instruction permet de copier le mot de l'opérande source spécifié par un compteur d'opérande dans l'opérande de destination. |
PINSRW | Cette instruction permet d'effectuer une copie d'un mot d'un opérande source et de l'insérer dans l'opérande de destination de l'emplacement spécifié par un compteur d'opérande. |
PMAXSW | Cette instruction permet de retourner la valeur maximal de chacun des mots (entier) des paquets contenu dans deux opérandes. |
PMAXUB | Cette instruction permet de retourner la valeur maximal de chacun des octets des paquets contenu dans deux opérandes. |
PMINSW | Cette instruction permet de retourner la valeur minimal de chacun des mots des paquets contenu dans deux opérandes. |
PMINUB | Cette instruction permet de retourner la valeur minimal de chacun des octets des paquets contenu dans deux opérandes. |
PMOVMSKB | Cette instruction permet de copiés les masques de chacun des octets d'un paquet contenu dans une opérande. |
PMULHUW | Cette instruction permet d'effectuer la multiplication de la partie haute de chacun des entiers des 2 paquets d'opérandes. |
PREFETCH0 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T0 du microprocesseur. Alias de PREFETCHT0. |
PREFETCH1 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T1 du microprocesseur. Alias de PREFETCHT1. |
PREFETCH2 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T2 du microprocesseur. Alias de PREFETCHT2. |
PREFETCHNTA | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données NTA du microprocesseur. |
PREFETCHT0 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T0 du microprocesseur. Alias de PREFETCH0. |
PREFETCHT1 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T1 du microprocesseur. Alias de PREFETCH1. |
PREFETCHT2 | Cette instruction permet d'effectuer le chargement de la ligne de cache de l'adresse mémoire spécifié dans le cache de données T2 du microprocesseur. Alias de PREFETCH2. |
PSADBW | Cette instruction permet d'effectuer le calcul la valeur de absolue de la différence des octets de paquet contenu dans une opérande source et destination. |
PSHUFW | Cette instruction permet de copier une double mots d'un opérande source avec emplacement spécifié par un opérande immédiate dans un opérande de destination. |
RCPPS | Cette instruction permet d'effectuer le calcul de la réciproque d'un paquet de valeurs de réel de simple précision. |
RCPSS | Cette instruction permet d'effectuer le calcul de la réciproque d'une valeur de réel de simple précision. |
RSQRTPS | Cette instruction permet de calculer la réciproque approximative de la racine carré d'un paquet de simple précision. |
RSQRTSS | Cette instruction permet de calculer la réciproque approximative de la racine carré d'un scalaire de simple précision. |
SFENCE | Cette instruction permet d'agir comme une barrière pour forcer une priorité en mémoire (sérialisation) entre les instructions précédant emmagasiner du SFENCE et les instructions suivant le SFENCE. |
SHUFPD | Cette instruction permet de copier 4 paquets de valeurs de format réel de double précision dans un opérande destinataire dans la partie basse d'un quadruple mot de celle-ci et copie 2 des 4 paquets de valeurs de format réel de simple précision dans l'opérande source dans la partie haute d'un quadruple mot de l'opérande destinataire. |
SHUFPS | Cette instruction permet de copier 4 paquets de valeurs de format réel de simple précision dans une opérande destinataire dans la partie basse d'un quadruple mot de celle-ci et copie 2 des 4 paquets de valeurs de format réel de simple précision dans l'opérande source dans la partie haute d'un quadruple mot de l'opérande destinataire. |
SQRTPD | Cette instruction permet d'effectuer le calcul de la racine carré d'un paquet de valeur de double précision réel de l'opérande source et de mettre son résultat dans l'opérande de destination sous forme d'un réel de double précision. |
SQRTPS | Cette instruction permet d'effectuer le calcul de la racine carré d'un paquet de valeur de simple précision réel de l'opérande source et de mettre son résultat dans l'opérande de destination sous forme d'un réel de simple précision. |
SQRTSD | Cette instruction permet d'effectuer le calcul de la racine carré d'une valeur de double précision réel de l'opérande source et de mettre son résultat dans l'opérande de destination sous forme d'un réel de double précision. |
SQRTSS | Cette instruction permet d'effectuer le calcul de la racine carré d'une valeur de simple précision réel de l'opérande source et de mettre son résultat dans l'opérande de destination sous forme d'un réel de simple précision. |
STMXCSR | Cette instruction permet de copier le MXCSR dans un emplacement mémoire de 32 bits. |
SUBPD | Cette instruction permet d'effectuer une soustraction de 2 paquets de valeurs réels de double précision d'un opérande source et d'un opérande destination et entrepose le résultat dans l'opérande de destination sous le format d'un paquet de valeurs réels de double précision. |
SUBPS | Cette instruction permet d'effectuer une soustraction de 4 paquets de valeurs réels de simple précision d'une opérande source et d'une opérande destination et entrepose le résultat dans l'opérande de destination sous le format d'un paquet de valeurs réels de simple précision. |
SUBSD | Cette instruction permet d'effectuer une soustraction de la partie basse d'une valeur réel de double précision d'un opérande source et destination et entrepose le résultat dans un opérande de destination de valeur réel de double précision. |
SUBSS | Cette instruction permet d'effectuer une soustraction de la partie basse d'une valeur réel de simple précision d'une opérande source et destination et entrepose le résultat dans une opérande de destination de valeur réel de simple précision. |
UCOMISD | Cette instruction permet d'effectuer une comparaison désordonnée de valeurs réels de double précision dans la partie basse d'un double mot du premier opérande et du deuxième opérande, et fixe les drapeaux ZF, PF et FC dans le registre EFLAGS selon le résultat (non-ordonnée, supérieur à, inférieur ou égal) |
UCOMISS | Cette instruction permet d'effectuer une comparaison désordonnée de valeurs réels de simple précision dans la partie basse d'un double mot du premier opérande et du deuxième opérande, et fixe les drapeaux ZF, PF et FC dans le registre EFLAGS selon le résultat (non-ordonnée, supérieur à, inférieur ou égal) |
UNPCKHPD | Cette instruction permet d'effectuer un dépaquetage de la partie haute d'un réel de double précision d'un opérande source et destination et met le résultat dans l'opérande de destination. |
UNPCKHPS | Cette instruction permet d'effectuer un dépaquetage de la partie haute d'un réel de simple précision d'un opérande source et destination et met le résultat dans l'opérande de destination. |
UNPCKLPD | Cette instruction permet d'effectuer un dépaquetage de la partie basse d'un réel de double précision d'un opérande source et destination et met le résultat dans l'opérande de destination. |
UNPCKLPS | Cette instruction permet d'effectuer un dépaquetage de la partie basse d'un réel de simple précision d'une opérande source et destination et met le résultat dans l'opérande de destination. |
XORPD | Cette instruction permet d'effectuer un ou exclusif binaire de 2 paquets de valeurs réel de double précision dans un opérande source et destination et de mettre le résultat dans l'opérande de destination. |
XORPS | Cette instruction permet d'effectuer un ou exclusif binaire de 4 paquets de valeurs réel de simple précision dans une opérande source et destination et de mettre le résultat dans l'opérande de destination. |