削除された内容 追加された内容
編集の要約なし
 
(8人の利用者による、間の18版が非表示)
1行目:
'''EUC-JP'''('''E'''xtended '''U'''NIX '''C'''ode Packed Format for '''J'''a'''p'''anese、'''日本語EUC''')は[[UNIX]]上で[[日本語]]の文字を扱う場合にもっとも多く利用されているきた[[文字コード]]([[文字符号化方式|符号化方式]])のひとつである。UNIX以外の[[オペレーティングシステム|OS]]上で使われることもある。
 
[[1980年代中頃、当時[[UNIX]]前半のライセンス事業を展開していた[[AT&T]]がUNIXの日本語化に向けて日本のUNIXベンダーをメンバーとする日本語UNIXシステム諮問委員会を設置。ここでUNIXで日本語を扱うための文字コードについて議論われ、議論の結果をもとに[[1985年]]4月に同委員会から報告書が[[AT&T]]に側へ出され、AT&Tにより定められた日本語機能ガイドラインがEUC-JPの起こりである。この時、AT&Tから、''[[Extended Unix Code|EUC]] (''(Extended'EUC''') UNIX Codeの略)として日本語に限らず[[多言語]]に対応できるように定められ、EUCのうち日本語を扱うものを特にEUC-JPなどと呼ぶ。他に、[[EUC-KR]](韓国語)、[[EUC-CN]](簡体中国語)等がある。
 
EUC-JPはEUCの[[文字符号化方式|エンコード方式]]上に[[ASCII]]と[[JIS X 0208]]文字集合を配置したもので、[[半角カナ]] ([[JIS X 0201]]) とJIS補助漢字 ([[JIS X 0212]]) も含むことができる。半角カナと補助漢字を使用しない場合は、JIS X 0208で規定されている符号化方式「国際基準版・漢字用8ビット符号」と同一となる。[[ISO/IEC 2022]]に適合する。
 
日本語文字は[[JIS X 0208]]を[[ISO/IEC_2022|GR領域]]に表現したものを基本としており、2バイトで表現され、1バイト目、2バイト目ともに0x80 - 0xFFの範囲内にある。このため英数字と日本語文字の区別がしやすく、[[プログラム (コンピュータ)|プログラム]]上での扱いが楽である。ただし、半角カナは[[ISO-2022-JP]]や[[Shift_JIS]]と異なり制御文字SS2(シングルシフトツー、0x8E)に続けて現れるので都合2バイト、補助漢字は制御文字SS3(シングルシフトスリー、0x8F)に続けて現れるので都合3バイトを要する。
 
[[JIS X 0213]]:2004に対応するEUCコードは[[EUC-JIS-2004]](2000年初版時はEUC-JISX0213)。
 
UNIX系OSの標準的な文字エンコードとして使用されてきた。かつて、[[Webサーバ]]にUNIX系OSが多く用いられていたことから日本語のウェブサイトではShift_JISと並んでEUC-JPが多く使われていたが、2006年頃から世界的に[[UTF-8]]が普及し始めている<ref>{{Cite web |title=Unicode over 60 percent of the web |url=https://googleblog.blogspot.com/2012/02/unicode-over-60-percent-of-web.html |website=Official Google Blog |access-date=2023-02-05 |language=en |date=2012-02-03 |last=Davis |first=Mark}}</ref>。全言語の主要なウェブサイトに占めるEUC-JPのシェアは、2010年から2019年にかけて0.7%から0.1%に低下している<ref>{{Cite web |title=Historical yearly trends in the usage statistics of character encodings for websites |url=https://w3techs.com/technologies/history_overview/character_encoding/ms/y |website=W3Techs |access-date=2023-02-05 |archive-url=https://archive.today/2021.06.08-122120/https://w3techs.com/technologies/history_overview/character_encoding/ms/y |archive-date=2021-06-08}}</ref>。
UNIX系OSの標準的な文字エンコードとして広く使用されてきたが、近年(いつ?)では[[UTF-8]]を使用したシステムも普及している。
 
== 制定経緯 ==
1984年7月、当時UNIXのライセンスを販売していたAT&Tが東アジア・太平洋地域でライセンス事業を展開するため、子会社のAT&Tインターナショナル・ジャパンにUNIXシステム東京事務所(AT&Tユニックス・パシフィック)を設立。最初に日本で事業を展開するにあたり、UNIXの日本語化に向けて[[石田晴久]]を委員長に、[[日本電信電話公社]]、[[沖電気工業]]、[[東芝]]、[[日本電気]]、[[日立製作所]]、[[富士通]]、[[三菱電機]]といった当時のUNIXベンダーをメンバーとする日本語UNIXシステム諮問委員会を設置した。ここでUNIXで日本語を扱うための文字コードや機能について議論が行われ、その結果をもとに1985年4月30日付けで同委員会から報告書『UNIXシステム日本語機能の提案にあたって』がAT&T側へ提出された<ref>{{Cite journal|和書|author=AT&Tユニックス・パシフィック|year=1985|title=AT&Tおよび日本企業によるUNIXシステムV日本語機能の開発について|journal=情報科学|volume=21|issue=5|pages=46-62|publisher=情報科学研究所|ISSN=0368-3354}}</ref>。日本語EUCとしてのベースはこの報告書で概ね出来上がっていたが、AT&Tはこれを国際的に通用するよう、国際機能と各国語機能に分けて定義した。そして1986年2月に[[アナハイム]]で開催されたUNIXカンファレンス UniForum にて、各国語機能のサポート第1弾として Japanese Application Environment (JAE; 日本語アプリケーション・エンバイロメント) を発表。この中に文字コードの構造 (EUC) と日本語機能で使用される文字セットが定められた<ref>{{Cite journal|和書|author=門田|first=次郎|year=1986|title=日本市場におけるAT&TのUNIX戦略―これからのシステムV日本語機能の展開|journal=コンピュートピア|volume=20|issue=236|pages=72-75|publisher=コンピュータ・エージ社|ISSN=0010-4906}}</ref>。
 
1990年に[[JIS X 0212]]で補助漢字が制定されたことを受けて定義を拡張する必要が生じたため、1991年12月、[[Open Software Foundation]] (OSF) と[[UNIX International]] (UI)、UNIXシステムラボラトリーズ・パシフィック (USLP) はUNIX上の共通日本語文字コードとして'''日本語EUC'''を定義した<ref>{{Cite journal|和書|year=1992|title=UNIXの標準化2団体日本語EUC共通化|journal=標準化ジャーナル|volume=22|issue=3|page=90|publisher=日本規格協会|ISSN=0285-600X}}</ref>。
 
== EUC-JPの亜種 ==
16 ⟶ 21行目:
'''eucJP-ms'''は、[[オープン・グループ]]及び[[日本ベンダ協議会]]が策定した文字符号化方式。実装例は[[MySQL]] v5.0以降等。
 
'''CP51932'''は[[マイクロソフト]]が[[Microsoft Windows|Windows]]で使用している[[Microsoftコードページ932|Windows-31J]]のEUC-JP互換表現。実装例は[[Internet Explorer]]4.0以降、[[EmEditor]]、[[秀丸エディタ]]等。このコードは[[日本電気|NEC]]の[[PC-9800シリーズ]]の漢字コード(9区から12区の特殊文字を除外したもの)を[[GR]]表現したような体裁を持つ。ただし、PC-9800シリーズの漢字コードは[[JIS C 6226]]-1978をベースにするのに対して、CP51932は[[JIS X 0208]]-1990をベースとする点が異なる。
 
{| class="wikitable"
32 ⟶ 37行目:
! 3バイト目
|-----
! JIS X 0208-1990<br />(第一水準漢字ひらがな・カタカナ等)
| 1面1区 - 8区 || 0xA1 - 0xA8 || rowspan="4" | 0xA1 - 0xFE
| 1面1区 - 8区 || 0xA1 - 0xA8
40 ⟶ 45行目:
| 1面13区 || 0xAD || 1面13区 || 0xAD
|-----
! JIS X 0208-1990<br />(第一・第二水準漢字)
| 1面14区 - 84区 || 0xB0 - 0xF4 || 1面14区 - 84区 || 0xB0 - 0xF4
|-----
63 ⟶ 68行目:
| 2面85区 - 94区 || 0xF5 - 0xFE
|}
 
== 脚注 ==
{{Reflist}}
 
== 参考文献 ==
* {{Cite book|和書 |title=UNIX System V 日本語アプリケーション・エンバイロメント リリース 1.0 機能導入説明書 |publisher=AT&Tユニックス・パシフィック |year=1986}}
* 中原康: 日本語処理技術, 電気学会雑誌, 第106巻, 第12号 (1986年12月), pp.1198-1202.
* {{Cite journal|和書|last=中原|first=康|year=1986|title=III. 日本語処理技術|url=https://doi.org/10.11526/ieejjournal1888.106.1198|journal=電氣學會雜誌|volume=106|issue=12|pages=1198-1202|ISSN=0020-2878}}
* 小野芳彦: UNIXの日本語化の実現方法, 情報処理, Vol.27, No.12 (1986年12月), pp.1393-1400.
* 中原康: 日本語EUCの定義と解説, Revision 1.7, UI-OSF-USLP共同技術資料 (1991年12月10日).
71 ⟶ 80行目:
{{文字コード}}
 
{{DEFAULTSORT:い-しえいひい}}
[[Category:日本語用の文字コード]]