「ストリーミングSIMD拡張命令」の版間の差分

削除された内容追加された内容

インライン

2020年6月19日 (金) 14:53時点における版

ストリーミングSIMD拡張命令（英: Streaming SIMD Extensions、略称:SSE）は、インテルが開発したCPUのSIMD拡張命令セット、およびその拡張版の総称である。

概要

SSEは、x86 アーキテクチャに8本の128ビットレジスタを新設し、浮動小数点演算のSIMD処理を実現したものである。AMDのK6-2に実装されたSIMD拡張命令3DNow!に対抗する形でPentium IIIから実装された。4個の32ビット単精度浮動小数点データを一本のレジスタに格納し、同一の命令を一括処理することが出来る。拡張命令であるため、その機能を使用するためにはSSEに対応したソースコードを作成し、プログラムをコンパイルする必要がある。

Core Duoまでのインテル製CPU、K8までのAMD製CPUでは、64ビット幅の演算器を用いて128ビット演算命令を2クロックかけて実行するという実装であったため、128ビット演算命令を用いても実質的なスループットはクロックあたり64ビットであった（SIMD整数演算に関してはPentium M、Core DuoやK8では64ビット幅の演算器を2つ持つため、コア全体でのSIMD整数演算のスループットは128ビット/クロックであった）。そのため従来から存在するMMX命令やAMDの3DNow!命令に対する性能面でのアドバンテージは128ビット幅のレジスタを使えるという点以外では小さく、むしろ並列度が上がった分だけ最適化も煩雑になるという欠点が目立った。また当時のRISC系CPUに搭載されているSIMD命令では128ビット演算命令を1クロックで実行できるものがあり、これらに対する性能的なディスアドバンテージは小さくなかった。最終的にはCoreマイクロアーキテクチャ/AMD K10より128ビット演算命令も1クロック処理が可能な形態へと改良され、SSE命令の実用性は大幅に向上した。

元々はインターネット・ストリーミングSIMD拡張命令（英: Internet Streaming SIMD Extensions、ISSE）と呼ばれていたが ^[1]、命令内容そのものはインターネットとは直接関係が無くマーケティング的な要素が強かったため、現在ではインターネットの文言が外され単にSSEと呼ばれるようになっている。

SSEの機能を強化したものにSSE2やSSE3、SSSE3（Supplemental/補足的なSSE3）、SSE4がある。また、SSEは他社製品にも採用されている。

SSE

Pentium IIIにはじめて実装された。追加された命令数は70^[2]。Pentium IIIの開発コードネームがKatmaiであったことから、KNI (Katmai New Instructions) ^[3]やMMX2 ^[4]とも呼ばれていた。廉価製品のCeleronにおいても、その第三世代製品 Coppermine-128k よりSSEに対応している^[5]^[6]。

AMDによるSIMD拡張命令セット3DNow! Professionalは、SSEと互換性がある^[7]^[8]。

SSE2

SSE2は従来のSSEに144個の新たな命令が加えられた^[2]。具体的には64ビットの倍精度浮動小数点演算のサポート及びMMXを128ビット幅に拡張する整数演算命令の追加、キャッシュの制御機能の強化がなされた。

SSE2はPentium 4で初めて実装された^[9]。AMDのAMD64アーキテクチャでは、浮動小数点演算に従来のx87命令ではなくSSE/SSE2のスカラ演算命令を用いることを標準としたため、拡張命令ではなく基本命令としてSSE、SSE2が取り込まれている。

SSE3

SSE3はSSE2に13個の新たな命令が加えられた^[2]。具体的にはメモリアクセス及び複素数計算の高速化、仮想CPUのスレッドの動作制御などの機能が搭載され、主に動画圧縮の処理が向上した。

SSE3の名称が発表される前はPNI (Prescott New Instructions) と呼ばれていた^[2]。Pentium 4のPrescottコアで初めて実装された。

SSSE3

SSSE3 (Supplemental SSE3)はSSE3に32個の新たな命令が加えられた^[2]。 Coreマイクロアーキテクチャベースのマイクロプロセッサで初めて実装された。

SSSE3と名付けられる前はMNI (Merom New Instructions; 旧称Tejas New Instructions) という名称があった^[2]。登場当初はSSE4と呼ばれると一般的には思われていた。

SSE 4

SSE4.1

45nm世代のCore 2のPenrynで搭載。47個の命令が追加になる。

SSE4.2

Nehalemマイクロアーキテクチャの第1世代Intel Core iで初めて実装された。7個の命令を追加。SSE 4.2の追加命令は以下の通り。

String & Text New Instructions (STTNI)
- PCMPESTRI
- PCMPESTRM
- PCMPISTRI
- PCMPISTRM
- PCMPGTQ
Application Targeted Accelerators (ATA)
- CRC-32
- POPCNT - ビットが立っている数を数える

SSE4a

AMD Phenomで搭載。キャッシュ関連や挿入、展開の4命令が追加。インテルのSSE4とは名前は似ているが互換性は無い。

Intel AVX

MMX/SSE後継のSIMD拡張命令セットで、呼称がIntel Advanced Vector Extensionsとなった。Sandy Bridgeマイクロアーキテクチャで初めて搭載された^[10]^[11]。浮動小数点演算の演算幅がSSEの2倍の256ビットとなり、1命令で8つの単精度浮動小数点演算もしくは4つの倍精度浮動小数点演算を実行することができる。また、命令デコード性能向上のため、新しい命令フォーマット（VEXエンコーディング）が採用されている。3 or 4オペランドの非破壊型命令もサポートするため、レジスタ退避・復元処理の記述を省くことができる。この非破壊型の命令フォーマットに関しては従来の128ビット幅のSSE命令にも使うことができるため、AVXに対応したプロセッサでは新規に導入された256ビット命令を使わなくてもSIMD演算の性能が向上する可能性がある。

SSEが導入された際には専用の128ビットレジスタが新設されたが、AVXの256ビットレジスタは下位の128ビットを既存のSSEレジスタと共有している^[11]。そのためSSE命令とAVX命令の間でのデータ交換は容易である。ただし、256ビットのAVX命令と既存のSSE命令を混在させると、SSE命令を実行する際にAVXレジスタの上位128ビットを退避するというペナルティが発生するため、パフォーマンスが落ちる。これを避けるためには、256ビット命令の実行後にVZEROUPPER/VZEROALL命令を実行して明示的にAVXレジスタの上位128ビットをクリアするか、SSE命令をVEXエンコーディングを使ったものに置き換える必要がある。VEXエンコーディングの128ビット命令はAVXレジスタの上位128ビットを保持せずにゼロクリアするという挙動になっており、AVXレジスタの部分的な書き換えが発生しないためである。

Sandy Bridgeでは当初のSSEの実装のように既存の128ビットの演算器を使って2サイクルで実行するようなことはせず、素直に乗算器や加算器などの演算器が256ビット幅に拡張されている^[10]。これによって、実質的なピーク浮動小数点演算性能がNehalem世代の2倍となっている。

AMDはBulldozer世代向けに当初予定していたSSE5拡張命令をキャンセルし、AMD FXではAVXがサポートされることになった^[12]。ただし、256ビット命令に関しては128ビット幅の演算器を2つ使って実行しており^[13]^[14]、スループットは従来のSSE命令と変わらない。

Intel AVX2

インテルはHaswellマイクロアーキテクチャから搭載^[15]。従来のSIMD整数演算命令が128ビットから256ビットに拡張されるのが主な変更点であるが、要素ごとに独立したシフト量を設定できるシフト命令、非連続なデータを並べ替えながらロードが可能なギャザー命令等の新たな命令も実装される。AMDはExcavatorアーキテクチャからAVX2を実装している^[16]。ただし、SIMD演算ユニット自体はZen+まで128bit幅に留まっていたため、AVX2命令を多様する処理はあまり高速化されていなかった。Zen2世代からは256bit幅になり処理速度が改善されている。

Intel AVX-512

512ビット長のZMMレジスタを新設する^[17]。レジスタ数も16から32に増える。Knights LandingのXeon Phiに初めて搭載。

XeonプロセッサはSkylakeマイクロアーキテクチャから一部の命令を搭載^[18]。

FMA (Fused Multiply-Add)

x86プロセッサにおいて積和演算を実現するための拡張命令^[19]がFMAである。2007年にAMDがSSE5命令の一部として、2008年にインテルがAVX命令のサブセットとして採用を発表したが、両者の仕様は異なるものであった^[12]。その後、インテルは2009年初頭にFMA命令の仕様を変更し、4オペランド (FMA4) をやめ3オペランド形式 (FMA3) とした^[12]。2009年5月にはAMDがSSE5命令の採用を取りやめ、AVXのサポートを表明したため、仕様の統一が図られたかと思われたが、FMA命令に関してはインテルが仕様を変更する前の4オペランド版FMAを採用したため、FMA4とFMA3という二系統のFMA命令が混在していた。その後、AMDがZenマイクロアーキテクチャでFMA4の削除及びサポートの打ち切りを表明したことで、FMA命令についても仕様の統一が図られた^[20]。

FMA命令では±(A×B)±Cの形で表現される単精度/倍精度の浮動小数点演算を1命令で実行できる。乗算結果の符号を反転するか、乗算後に加算を行うか減算を行うかによって以下の4つのバリエーションがある。

MADD: A×B＋C
MSUB: A×B－C
NMADD: －(A×B)＋C
NMSUB: －(A×B)－C

いずれの命令も単精度/倍精度、スカラ/ベクタを問わず全てのタイプの演算に適用可能である。他にもベクタ専用のMADDSUB命令が存在し、1,3,5...番目の要素にMADDを、0,2,4...番目の要素にMSUBを行うという命令になっている。

FMA命令に対応した演算器においては、上記の浮動小数点演算を1クロックサイクルのスループットで実行可能で、加算のみ、乗算のみを実行できる演算器と比較すると理論FLOPSを倍にすることができる。また、乗算の結果に対しては丸めを行わず、加算を行った後に一度だけ丸めを行うため、乗算と加算を独立して実行するのと比較して丸め誤差を小さくできるという利点もある。実装としてはAMDではBulldozerマイクロアーキテクチャでサポートされたのが最初で、モジュールあたり2つの128ビットFMA演算器を搭載している。インテルはHaswellマイクロアーキテクチャで初めてサポートしており、コアあたり2つの256ビットFMA演算器を搭載している^[21]。

FMA4

インテルが2008年に発表した時点でのFMA命令セット^[12]。完全な4オペランドを実現しており、3つのソースオペランドとディスティネーションオペランドを独立に指定できる。その後インテルは仕様を変更したために採用を取りやめたが、AMDはBulldozerマイクロアーキテクチャにおいてこの命令セットをサポートし続けていた。その後AMDが発表したZenマイクロアーキテクチャで削除されることとなった^[20]。

FMA3

インテルが2009年に仕様を変更し、現在使われているFMA命令セット。4オペランド方式をやめ、3つのソースオペランドのうち任意の1つを破壊することにより3オペランドでFMAを実現している。インテルはHaswellマイクロアーキテクチャ以降で、AMDはBulldozerマイクロアーキテクチャのPiledriverコア以降でサポートしている。なお、AMDが当初SSE5において採用したFMA命令も同じ3オペランド方式であった^[22]。

FMA4と比べるとレジスタの退避を行う必要がある場合に不利であるが、命令長を1バイト短くすることができるため、デコーダの実装や命令キャッシュのフットプリントでは有利である。インテルのIvy Bridgeマイクロアーキテクチャ以降やAMDのBulldozerマイクロアーキテクチャでは、レジスタ・リネーミングによってレジスタ間のmov命令をゼロレイテンシで実行できるため、これと組み合わせればレジスタ退避のペナルティは軽減できる。

インテルのマイクロプロセッサにおいてはAVX2命令と同時に採用されたため、AVX2命令の一部であると誤解されることがある。しかし、両者のCPUIDフラグは独立に設けられており、必ずしも両者が同時にサポートされているとは限らない（例えば、FMA3をサポートするAMDのPiledriverコアではAVX2命令はサポートしていない）。

歴史

1999年 2月: インテルがSSE搭載のPentium IIIプロセッサを発表。
- 2000年 3月: インテルがSSE搭載のCeleronプロセッサを発表。
2000年 11月: インテルがSSE2搭載のPentium 4プロセッサを発表。
- 2002年 5月: インテルがSSE2搭載のCeleronプロセッサを発表。
- 2003年 3月: インテルがSSE2搭載のPentium Mプロセッサを発表。
- 2004年 1月: インテルがSSE2搭載のCeleron Mプロセッサを発表。
2004年 2月: インテルがSSE3搭載のPentium 4 プロセッサを発表。
- 2004年 6月: インテルがSSE3搭載のCeleron Dプロセッサを発表。
- 2006年 1月: インテルがSSE3搭載のIntel Core プロセッサを発表。
2006年 6月: インテルがSSSE3搭載のXeon 5100プロセッサを発表。
- 2006年 7月: インテルがSSSE3搭載のIntel Core 2プロセッサを発表。
2007年 8月: AMDがSSE5を発表。
2007年 11月: インテルがSSE4.1搭載のIntel Core 2プロセッサを発表。
2007年 11月: AMDがSSE4a搭載のPhenomを発表。
2008年 11月: インテルがSSE4.2搭載の第一世代Intel Core i7プロセッサを発表。
2011年 1月: インテルがAVX搭載の第二世代Intel Core i7プロセッサを発表。
2011年 10月: AMDがFMA搭載のAMD FXプロセッサを発表。
2013年 6月: インテルがAVX2搭載の第四世代Intel Core i7プロセッサを発表。
2016年 6月: インテルがAVX-512搭載のIntel Xeon Phiコプロセッサを発表。

脚注

[脚注の使い方]

出典

^ 元麻布春男 (2005年3月4日). “デュアルコア+HTはゼニが取れる技術か”. PC Watch. 元麻布春男の週刊PCホットライン. 2019年12月22日閲覧。
^ ^a ^b ^c ^d ^e ^f 後藤弘茂 (2006年10月4日). “SSE4命令とアクセラレータから見えるIntel CPUの方向性”. PC Watch. 後藤弘茂のWeekly海外ニュース. 2019年12月22日閲覧。
^ 後藤弘茂 (1998年10月8日). “MPEG-2のエンコードまで実現できるKatmaiの新命令”. PC Watch. 後藤弘茂のWeekly海外ニュース. 2019年12月22日閲覧。
^ 後藤弘茂 (1997年9月8日). “SGIがWintelワークステーションを来年投入?”. PC Watch. 後藤弘茂のWeekly海外ニュース. 2019年12月22日閲覧。
^ “米Intel、Coppermine-128kことCeleron 600/566MHz”. PC Watch (2000年3月29日). 2019年12月22日閲覧。
^ 笠原一輝 (2000年3月31日). “Coppermine-128K 600/533A MHzをベンチマーク”. PC Watch. AKIBA PC Hotline. 2019年12月22日閲覧。
^ 鈴木直美 (2001年8月31日). “第179回：8月20日～8月24日”. PC Watch. 鈴木直美の「PC Watch先週のキーワード」. 2019年12月22日閲覧。
^ 笠原一輝 (2001年10月10日). “Pentium 4キラーとなりうるAMDの強力な新製品 Athlon XPプロセッサの実力を探る”. PC Watch. AKIBA PC Hotline. 2019年12月22日閲覧。
^ 後藤弘茂. “ソフト開発者にはSSE2命令への移行を推奨”. PC Watch. 2019年12月22日閲覧。
^ ^a ^b 後藤弘茂 (2010年9月17日). “なぜSandy Bridgeはそんなにパフォーマンスが高いのか”. PC Watch. 後藤弘茂のWeekly海外ニュース. 2019年12月22日閲覧。
^ ^a ^b 2011-01-03 (米田聡). “Sandy Bridgeがやってきた！～プロセッサの基本性能は順当に向上”. 4Gamer.net. 2019年12月22日閲覧。
^ ^a ^b ^c ^d 後藤弘茂. “AMDのAVXサポートとBulldozerのクラスタ型マイクロアーキテクチャ”. 後藤弘茂のWeekly海外ニュース. 2019年11月18日閲覧。
^ 本間文 (2010年10月12日). “AMD，Bulldozerアーキテクチャ採用の新世代CPU「FX」を正式発表。発売は10月下旬以降に”. 4Gamer.net. 2019年12月22日閲覧。
^ 後藤弘茂 (2011年3月2日). “8コアCPUを低コストに実現したBulldozer”. PC Watch. 後藤弘茂のWeekly海外ニュース. 2019年12月22日閲覧。
^ 大原雄介 (2012年9月24日). “インテルCPU進化論 Haswellで導入されるCPUの改良後編”. ASCII.jp. ロードマップでわかる！当世プロセッサー事情. 2019年11月18日閲覧。
^ “【イベントレポート】AMD、Carrizoを「第6世代AMD Aシリーズプロセッサ」として発表 - PC Watch”. (2015年6月3日) 2015年12月15日閲覧。
^ 後藤弘茂 (2019年2月1日). “Intelの10nm世代CPUコア「Sunny Cove」のカギとなるAVX-512”. PC Watch. 後藤弘茂のWeekly海外ニュース. 2019年12月22日閲覧。
^ “Intel® Architecture Instruction Set Extensions Programming Reference” (pdf) (英語). p. 12(1-2). 2018年4月30日時点のオリジナルよりアーカイブ。2017年11月9日閲覧。 AVX512F, AVX512CDのみ搭載されている旨が判る。
^ 乗算と加算あるいは減算を融合させた命令はAMDのBulldozer以前にも、HPのPA-RISCやIBMのPower、PowerPC、インテルのItaniumにも実装されていた。
^ ^a ^b “［GDC 2017］AMDの技術者が語る，「Ryzenに向けた最適化のコツ」 - 4Gamer.net”. (2017年3月9日)
^ Hisa Ando (2012年10月3日). “HPC性能が大幅に強化されたHaswell(前編) -各コアに256bit長のFMAを2個装備”. マイナビニュース 2019年11月18日閲覧。
^ Junya Suzuki (2007年8月31日). “米AMD、3オペランド命令とFMAをサポートした「SSE5」を発表”. マイナビニュース 2019年11月18日閲覧。

@@ 64行目: / 64行目: @@
 == Intel AVX2 ==
-インテルは[[Haswellマイクロアーキテクチャ]]から搭載<ref>{{Cite web|url=https://ascii.jp/elem/000/000/728/728849/ |title=インテルCPU進化論 Haswellで導入されるCPUの改良 後編 |work=ロードマップでわかる！当世プロセッサー事情 |author=大原雄介 |date=2012-09-24 |website=ASCII.jp |accessdate=2019-11-18}}</ref>。従来のSIMD整数演算命令が128ビットから256ビットに拡張されるのが主な変更点であるが、要素ごとに独立したシフト量を設定できるシフト命令、非連続なデータを並べ替えながらロードが可能なギャザー命令等の新たな命令も実装される。AMDは[[Excavator (マイクロアーキテクチャ)|Excavator]]アーキテクチャからAVX2を実装している<ref>{{Cite news|url=http://pc.watch.impress.co.jp/docs/news/event/20150603_705132.html |title=【イベントレポート】AMD、Carrizoを「第6世代AMD Aシリーズ プロセッサ」として発表 - PC Watch |date=2015-06-03 |accessdate=2015-12-15}}</ref>。
+インテルは[[Haswellマイクロアーキテクチャ]]から搭載<ref>{{Cite web|url=https://ascii.jp/elem/000/000/728/728849/ |title=インテルCPU進化論 Haswellで導入されるCPUの改良 後編 |work=ロードマップでわかる！当世プロセッサー事情 |author=大原雄介 |date=2012-09-24 |website=ASCII.jp |accessdate=2019-11-18}}</ref>。従来のSIMD整数演算命令が128ビットから256ビットに拡張されるのが主な変更点であるが、要素ごとに独立したシフト量を設定できるシフト命令、非連続なデータを並べ替えながらロードが可能なギャザー命令等の新たな命令も実装される。AMDは[[Excavator (マイクロアーキテクチャ)|Excavator]]アーキテクチャからAVX2を実装している<ref>{{Cite news|url=http://pc.watch.impress.co.jp/docs/news/event/20150603_705132.html |title=【イベントレポート】AMD、Carrizoを「第6世代AMD Aシリーズ プロセッサ」として発表 - PC Watch |date=2015-06-03 |accessdate=2015-12-15}}</ref>。ただし、SIMD演算ユニット自体はZen+まで128bit幅に留まっていたため、AVX2命令を多様する処理はあまり高速化されていなかった。Zen2世代からは256bit幅になり処理速度が改善されている。
 == Intel AVX-512 ==