「フォルマント」の版間の差分

履歴の双方向閲覧

← 古い編集新しい編集 →

削除された内容追加された内容

ビジュアルウィキテキスト

インライン

2023年4月7日 (金) 04:55時点における版

フォルマント（英: formant、ホルマント）は音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域である^[1]。

概要

時間変化する音声を一定区間で区切り周波数領域へ変換すると、周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっている。この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、周波数の低い順に第一フォルマント、第二フォルマントと呼ばれ、それぞれの周波数をF₁, F₂と表記する^[2]。また経時的に変化する場合もある。

声の波形に現れるフォルマントは声道の形状から強く影響を受ける。ゆえに個体差や性差もフォルマントの違いを生む原因となる。音価が同じであれば各フォルマント周波数は近い値になる。

音声との関係

詳細は「声#生成」および「調音」を参照

フォルマントは発声過程における調音で主に付与される。すなわち比較的平坦な周波数スペクトルをもつ声帯音源が、口腔や鼻腔等の声道における共鳴により特定周波数の強調を受けてフォルマントをもつ。

母音の識別にはフォルマント周波数が重要である。音声からフォルマントを除去すると母音とは認識できず、逆にフォルマントを模したピークを追加すると母音混じりの音声が得られる。母音の弁別は第一フォルマント（約500～1000Hz）と第二フォルマント（約1500～3000Hz）によって大体行うことができる^[3]。なお、阻害音では明確なフォルマントは観察できない。

親子や兄弟で声が似ているのは、骨格などの形態が近いことも理由の一と言われるが、骨格と大きく相関するフォルマントの高低は音声の個性にはあまり影響しない。音色に影響するのはむしろ声帯の微妙な鳴らし方の違い（声種）で、これは習慣的なものである^[要出典]。似た声になるのは、聴き慣れた家族の声を無意識にまねることのほかに、使う発声が親から遺伝していることも理由である（使う発声とはあくまで「発声練習などを何もしていない状態」でのものであり、練習次第で遺伝した発声を変えていくこともできる）^[要出典]。

観察方法

以下のいずれかの方法によって観察される。

フォルマントは元来スペクトログラム上の黒い帯として（大雑把に）定義された。そのため、数学的・音声学的に厳密なフォルマントの定義は存在しない。より客観的にフォルマントを記述するパラメータにはピーク周波数（F_n）、ピーク強度（L_Fn）、バンド幅（B_Fn）がある^[2]。

発音との関係

母音

概して、F1は口の開きの大きさに比例する。つまり高母音のほうが低母音よりもF1は低い。母音、子音両方に言えることであるが、狭めはF1を低くする効果がある。

F2は舌の前後によって影響され、前母音のほうが後母音よりもF2が高い。これは、F2が舌の前の空間で共鳴を起こすためである。また後母音は、唇の丸めが加わることが多く、これによって共鳴空間がさらに長くなり、F2は下がる。

観察のためのソフトウェア及びハードウェア

音声からサウンドスペクトログラムを生成

Audacity（Linux、FreeBSD、macOSなどのPC-UNIX、Mac OS 9、Windows用）
FRUITY（Windows Media Player用）
Praat（Macintosh, Windows, Linux, FreeBSD, IRIX, Solaris, HP-UX用）
KTH WaveSurfer （Linux, Macintosh, Windows用）

フォルマントから音を生成

PLG100-SG - 有声音無声音共通の第一～第六フォルマントと、有声音専用のバズバー及びナザル(鼻音)フォルマントを組み合わせて音を生成する^[4]。

脚注

[脚注の使い方]

^ "Of a complex sound, a range of frequencies in which there is an absolute or relative maximum in the sound spectrum." Acoustical Society of America. formant.
^ ^a ^b " the formant frequencies could continue to be written as F₁, …, F_m" Ingo, et al. (2015). Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization.
^ 第一、第二といった数字の当て方は研究者や時代によって異なる
^ PLG100-SG取扱説明書 YAMAHA

@@ 1行目: / 1行目: @@
+[[ファイル:Spectrogram -iua-.png|thumb|[[スペクトログラム]]：アメリカ英語の[i, u, ɑ]のF1とF2]]
-話している人の[[音声]]の[[スペクトル]]を観察すると、特定のピークが時間的に移動していることが分かる。このピークを'''フォルマント'''、または'''ホルマント'''と言う。周波数の低い順に'''第一フォルマント'''、'''第二フォルマント'''…と言い、それぞれ'''F1''', '''F2'''と表記する。周波数は、'''フォルマント周波数'''と呼ぶ。発音する[[音韻]]が同じであれば、似たフォルマントのパターンが観察される。
+'''フォルマント'''（{{Lang-en-short|''formant''}}、''ホルマント''）は[[音声]]の周波数[[スペクトル]]に現れる、周囲よりも強度が大きい周波数帯域である<ref>"Of a complex sound, a range of frequencies in which there is an absolute or relative maximum in the sound spectrum." Acoustical Society of America. [https://asastandards.org/Terms/formant/ formant].</ref>。
-[[画像:Spectrogram -iua-.png|thumb|スペクトログラム: アメリカ英語の[i, u, ɑ]のF1とF2]]
+== 概要 ==
-==音声との関係==
+時間変化する音声を一定区間で区切り周波数領域へ変換すると、周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっている。この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、[[周波数]]の低い順に'''第一フォルマント'''、'''第二フォルマント'''と呼ばれ、それぞれの周波数を'''F<sub>1</sub>''', '''F<sub>2</sub>'''と表記する<ref name=":0">" the formant frequencies could continue to be written as F<sub>1</sub>, …, F<sub>m</sub>" Ingo, et al. (2015). ''[[doi:10.1121/1.4919349|Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization]]''.</ref>。また経時的に変化する場合もある。
-人は、各フォルマント周波数とその時間変化を判断することにより、どの音韻が発音されたかを認識する。フォルマント付近の帯域を除去すると、その発音された[[母音]]とは認識できなくなる。[[子音]]では明確なフォルマントは観察できない。
-音声は、[[声帯]]が[[気道]]や口鼻腔で[[共振]]することにより形成される。
-声帯の振動は200Hz付近で、ゴム風船のブーという振動とあまり変わらない。喉にマイクを当ててモニターしてみれば実験できる。実際、声帯を失った人に使用される[[人工咽頭]]は、ブーという音しか出ない。
-この声帯振動を、[[気道]]や[[鼻腔]]、[[唇]]・[[舌]]・[[歯]]・[[顎]]・[[頬]]で構成される[[口腔]]で共振させることにより、音声に変わる。人が[[言葉]]を話すことは、共振を制御することに他ならない。親子や兄弟で声が似ているのは、[[骨格]]が近いことが理由の一と考えられる。
+声の波形に現れるフォルマントは[[声道]]の形状から強く影響を受ける。ゆえに個体差や性差もフォルマントの違いを生む原因となる。[[単音|音価]]が同じであれば各フォルマント周波数は近い値になる。
-==観察方法==
+== 音声との関係 ==
-周波数分析器により観察したスペクトルの時間遷移のグラフは、'''サウンドスペクトログラム''' (Spectrogram) と呼ばれる。一般に、縦軸に周波数、横軸に時間を配置している。観察する信号をディジタル録音（[[サンプリング]]）したものに[[短時間フーリエ変換]] (STFT) を掛けて作成する。
+{{Main|声#生成|調音}}
-なお、周波数分析には従来、[[ソナグラフ]] (Sonagraph) や、'''サウンドスペクトログラフ''' (Spectrograph)という装置が使われてきた。これらは分析するための音をいったん録音し、再生時に帯域通過フィルタの周波数を変えながら紙に順次記録していくもので、周波数成分の強い箇所が濃く記録される。ソナグラフは[[1950年]]ごろに、アメリカの[[ベル研究所]]で発明された。
+フォルマントは[[声#生物|発声過程]]における[[調音]]で主に付与される。すなわち比較的平坦な周波数スペクトルをもつ声帯音源が、[[口腔]]や[[鼻腔]]等の声道における共鳴により特定周波数の強調を受けてフォルマントをもつ。
+母音の識別にはフォルマント周波数が重要である。音声からフォルマントを除去すると[[母音]]とは認識できず、逆にフォルマントを模したピークを追加すると母音混じりの音声が得られる。母音の弁別は第一フォルマント（約500～1000Hz）と第二フォルマント（約1500～3000Hz）によって大体行うことができる<ref>第一、第二といった数字の当て方は研究者や時代によって異なる</ref>。なお、[[阻害音]]では明確なフォルマントは観察できない。
-==発音との関係==
+{{要出典範囲|親子や兄弟で声が似ているのは、[[骨格]]などの形態が近いことも理由の一と言われるが、骨格と大きく相関するフォルマントの高低は音声の個性にはあまり影響しない。音色に影響するのはむしろ声帯の微妙な鳴らし方の違い（[[声種]]）で、これは習慣的なものである|date=2023年4月}}。{{要出典範囲|似た声になるのは、聴き慣れた家族の声を無意識にまねることのほかに、使う発声が親から遺伝していることも理由である（使う発声とはあくまで「発声練習などを何もしていない状態」でのものであり、練習次第で遺伝した発声を変えていくこともできる）|date=2023年4月}}。
-=== 母音 ===
+== 観察方法 ==
+以下のいずれかの方法によって観察される。
+* [[サウンドスペクトログラム]]の目視
-=== 子音 ===
+* [[ケプストラム]]分析
+* [[線形予測符号|線形予測符号 (LPC)]]
+フォルマントは元来スペクトログラム上の黒い帯として（大雑把に）定義された。そのため、数学的・[[音声学]]的に厳密なフォルマントの定義は存在しない。より客観的にフォルマントを記述するパラメータにはピーク周波数（F<sub>n</sub>）、ピーク強度（L<sub>Fn</sub>）、バンド幅（B<sub>Fn</sub>）がある<ref name=":0" />。
+== 発音との関係 ==
-==観察のためのソフトウェア==
+=== 母音 ===
+概して、F1は'''口の開きの大きさ'''に比例する。つまり高母音のほうが低母音よりもF1は低い。母音、子音両方に言えることであるが、狭めはF1を低くする効果がある。
+F2は舌の前後によって影響され、前母音のほうが後母音よりもF2が高い。これは、F2が舌の前の空間で共鳴を起こすためである。また後母音は、唇の丸めが加わることが多く、これによって共鳴空間がさらに長くなり、F2は下がる。
-=== 音声-->フォルマント ===
+== 観察のためのソフトウェア及びハードウェア==
-* [http://audacity.sourceforge.net/ Audacity] ([[Linux]], [[Macintosh]], [[Microsoft Windows|Windows]]用)
+=== 音声からサウンドスペクトログラムを生成 ===
+* [[Audacity]]（[[Linux]]、[[FreeBSD]]、[[macOS]]などの[[PC-UNIX]]、[[Classic Mac OS#Mac OS 9|Mac OS 9]]、[[Microsoft Windows|Windows]]用）
+* [http://hp.vector.co.jp/authors/VA025737/performance/fruity/index.html FRUITY]（[[Windows Media Player]]用）
+* [[Praat]]（Macintosh, Windows, Linux, [[FreeBSD]], [[IRIX]], [[Solaris]], [[HP-UX]]用）
+* [http://www.speech.kth.se/wavesurfer/ KTH WaveSurfer] （[[Linux]], [[Macintosh]], [[Microsoft Windows|Windows]]用）
-=== フォルマント-->音声 ===
+=== フォルマントから音を生成 ===
+* [[PLG100-SG]] - 有声音無声音共通の第一～第六フォルマントと、有声音専用のバズバー及びナザル(鼻音)フォルマントを組み合わせて音を生成する<ref>[https://jp.yamaha.com/files/download/other_assets/0/316480/PLG100SGJ.pdf PLG100-SG取扱説明書] YAMAHA</ref>。
-* [http://www.uisoftware.com/PAGES/acceuil_meta.html MetaSynth] ([[Macintosh]]用)
-* [http://hem.passagen.se/rasmuse/Coagula.htm Coagula] ([[Microsoft Windows|Windows]]用)
-* [http://faculty.washington.edu/dillon/PhonResources/javoice/vowjavoice2.html JavOICe] ([[Javaアプレット]]用)
+== 脚注 ==
-[[電子音楽]] 奏者の何人かは[[画像]]をフォルマントに見立て、これを音に復調することで、画像を音楽に埋め込んだ。たとえば、
+{{脚注ヘルプ}}
-* [[アペックス・ツイン]] 氏は'''MetaSynth'''を使って自分の画像をスペクトログラムに埋め込んだ。この画像は''Windowlicker'' シングルの2曲目、曲の終わりに近い9秒間のスイープ部にある。 (ただし、[[MP3]]でも確認できると思われるが、[[圧縮]]によって[[スペクトル]]が崩れるので[[コンパクトディスク|CD]]ほどクリアな画像ではない。)
+{{Reflist}}
-* [[ベネチアン・スネアス]] はアルバム ''Songs About My Cats''にある''Look''という曲に、飼っている猫の画像を埋め込んだ。
+<!-- == 参考文献 == {{Cite book}}、{{Cite journal}} -->
-これらのスペクトログラムは、[http://www.bastwood.com/aphex.php bastwood.com]で見ることが出来る。
-==関連記事==
+== 関連項目 ==
+<!-- {{Commonscat|Formant}} -->
-*[[スペクトル]]
-*[[音]]
+* [[スペクトル]]
+* [[音]]
-*[[声紋]] (voice print)
-*[[人工声帯]] （[[音声合成]]）
+* [[音素]]
+* [[スペクトログラム|声紋]]（voice print）
-*[[音声認識]]
+* [[人工声帯]]（[[音声合成]]）
+* [[音声認識]]
+* [[音声分析]]
+* [[線形予測符号]]
+{{Language-stub}}
-[[Category:音声学|ふおるまんと]]
-{{stub}}
+{{音響学}}
+{{デフォルトソート:ふおるまんと}}
-[[de:Formant]]
-[[en:Formant]]
+[[Category:音声学]]
-[[eo:Formanto]]
-[[es:Formante]]
-[[fr:Formant]]
-[[nl:Formant]]
-[[sv:Formant]]

表話編歴音響学
音響工学	建築音響工学電気音響工学モノコード残響防音（英語版）弦振動（英語版）	スペクトログラム
音響心理学	バーク尺度差音等ラウドネス曲線メル尺度ミッシングファンダメンタル
周波数と音高	うなりフォルマント基本周波数周波数スペクトルメルセンヌの法則倍音インハーモニシティ音響共鳴定常波下方倍音（英語版）
音響学者	エルンスト・クラドニヘルマン・フォン・ヘルムホルツマラン・メルセンヌレイリー卿トマス・ヤング
関連項目	音反響超音波音楽学ピアノ
Category