「フォルマント」の版間の差分

削除された内容追加された内容

インライン

2014年2月19日 (水) 16:36時点における版

フォルマントまたはホルマント（英: formant）とは、言葉を発している人の音声のスペクトルを観察すると分かる、時間的に移動している複数のピークのこと。周波数の低い順に、第一フォルマント、第二フォルマント…というように数字を当てて呼び、それぞれF1, F2とも表記する（第0フォルマント、F0を数える場合もある）。フォルマントの周波数は声道の形状と関係し、個体差や性差もフォルマントの違いを生む原因となる。発音する音韻が同じであれば、各フォルマント周波数は近い値になる。

音声との関係

母音の識別には、各フォルマントの周波数が重要である。録音した音声から主要フォルマント（主に500～3000Hz近辺に点在する）を除去して再生すると、発音された母音とは認識できなくなる。逆に楽器などの音波にシンセサイザーやイコライザーなどでフォルマントを模したピークを加えると母音が混じったような音声が出来上がる。阻害音では明確なフォルマントは観察できない。母音の弁別は第一フォルマント（約500～1000Hz）と第二フォルマント（約1500～3000Hz）によって大体行うことができる（第一、第二といった数字の当て方は研究者や時代によって異なる）。

音声は、声帯（vocal fold）の振動によって生成された音波（喉頭原音）が声道（vocal tract）で共鳴することで形成される。音声の源となる声帯振動は会話の時は100~200Hz付近で、ゴム風船のブーという振動とあまり変わらない。この音は喉に直接マイクを当てれば聴くことができる。また、声帯を失った人に使用される人工声帯は、ブーという音しか出ない。この声帯音源が、声道つまり咽頭喉頭および唇・舌・歯・顎・頬で構成される口腔、さらに鼻腔、副鼻腔で共鳴することによって特定帯域ごとに倍音が増幅される。この増幅された成分の塊もしくはピークをフォルマントと言う。この音は、さらに口から外部への放射、伝播を経て、我々が普段耳にしている音声へと変わる。

人が言葉を発するということは、音響音声学的には、音声におけるそれぞれの音韻に必要な共鳴や生成方法を制御することで、これを調音または構音という。親子や兄弟で声が似ているのは、骨格などの形態が近いことも理由の一と言われるが、骨格と大きく相関するフォルマントの高低は音声の個性にはあまり影響しない。音色に影響するのはむしろ声帯の微妙な鳴らし方の違い（声種）で、これは習慣的なものである。似た声になるのは、聴き慣れた家族の声を無意識にまねることのほかに、使う発声が親から遺伝していることも理由である（使う発声とはあくまで「発声練習などを何もしていない状態」でのものであり、練習次第で遺伝した発声を変えていくこともできる）。

観察方法

周波数分析器により観察したスペクトルの時間遷移は、サウンドスペクトログラム（Spectrogram）と呼ばれるグラフに記録して観察される。一般に、縦軸に周波数、横軸に時間を配置する。

サウンドスペクトログラムは、観察する信号をディジタル録音（サンプリング）したものに短時間フーリエ変換（STFT）を掛けて作成する。

過去の周波数分析には、ソナグラフ（Sonagraph）や、サウンドスペクトログラフ（Spectrograph）という装置が使われてきた。これらは分析するための音をいったん録音し、再生時に帯域通過フィルタの周波数を変えながら紙に順次記録していくもので、周波数成分の強い箇所が濃く記録される。ソナグラフは1950年ごろに、アメリカのベル研究所で発明された。

発音との関係

母音

概して、F1は狭めの強さに反比例する。つまり高母音のほうが低母音よりもF1は低い。母音、子音両方に言えることであるが、狭めはF1を低くする効果がある。

F2は舌の前後によって影響され、前母音のほうが後母音よりもF2が高い。これは、F2が舌の前の空間で共鳴を起こすためである。また後母音は、唇の丸めが加わることが多く、これによって共鳴空間がさらに長くなり、F2は下がる。

観察のためのソフトウェア及びハードウェア

音声からサウンドスペクトログラムを生成

Audacity（Linux, Macintosh, Windows用）
FRUITY（Windows Media Player用）
Praat（Macintosh, Windows, Linux, FreeBSD, IRIX, Solaris, HP-UX用）

サウンドスペクトログラムから音を生成

MetaSynth（Macintosh用）
Coagula（Windows用）
JavOICe（Javaアプレット用）

電子音楽奏者の何人かは画像をフォルマントに見立て、これを音に復調することで、画像を音楽に埋め込んだ。たとえば、

エイフェックス・ツインはMetaSynthを使って自分の画像をスペクトログラムに埋め込んだ。この画像はWindowlickerシングルの2曲目、曲の終わりに近い9秒間のスイープ部にある（ただし、MP3でも確認できると思われるが、圧縮によってスペクトルが崩れるのでCDほどクリアな画像ではない）。
ヴェネチアン・スネアズはアルバム・Songs About My CatsにあるLookという曲に、飼っている猫の画像を埋め込んだ。

などがある。これらのスペクトログラムは、bastwood.comで見ることが出来る。

フォルマントから音を生成

PLG100-SG - 有声音無声音共通の第一～第六フォルマントと、有声音専用のバズバー及びナザル(鼻音)フォルマントを組み合わせて音を生成する^[1]。

@@ 24行目: / 24行目: @@
 <!-- === 子音 === -->
-== 観察のためのソフトウェア ==
+== 観察のためのソフトウェア及びハードウェア==
 === 音声からサウンドスペクトログラムを生成 ===
 * [[Audacity]]（[[Linux]], [[Macintosh]], [[Microsoft Windows|Windows]]用）
@@ 37行目: / 37行目: @@
 * [[ヴェネチアン・スネアズ]] はアルバム・''Songs About My Cats''にある''Look''という曲に、飼っている猫の画像を埋め込んだ。
 などがある。これらのスペクトログラムは、[http://www.bastwood.com/aphex.php bastwood.com]で見ることが出来る。
+=== フォルマントから音を生成 ===
+* [[PLG100-SG]] - 有声音無声音共通の第一～第六フォルマントと、有声音専用のバズバー及びナザル(鼻音)フォルマントを組み合わせて音を生成する<ref>[http://www2.yamaha.co.jp/manual/pdf/emi/japan/xg/PLG100SGJ.pdf PLG100-SG取扱説明書] YAMAHA</ref>。
 <!-- == 脚注 ==