コンテンツにスキップ

「フォルマント」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
整理: 個別記事との重複をmainに置き換え、修正: 要出典範囲追加
(24人の利用者による、間の30版が非表示)
1行目: 1行目:
[[ファイル:Spectrogram -iua-.png|thumb|[[スペクトログラム]]アメリカ英語の[i, u, ɑ]のF1とF2]]
言葉を発している人の[[音声]]の[[スペクトル]]を観察すると、複数のピークが時間的に移動していることが分かる。このピークを'''フォルマント'''、または'''ホルマント'''と言う(英語表記はformant)。
'''フォルマント'''({{Lang-en-short|''formant''}}、''ホルマント'')は[[音声]]の周波数[[スペクトル]]に現れる、周囲よりも強度が大きい周波数帯域である<ref>"Of a complex sound, a range of frequencies in which there is an absolute or relative maximum in the sound spectrum." Acoustical Society of America. [https://asastandards.org/Terms/formant/ formant].</ref>。
周波数の低い順に'''第一フォルマント'''、'''第二フォルマント'''…という様に数字を当てて呼び、それぞれ'''F1''', '''F2'''とも表記する(第0フォルマント、F0を数える場合もある)。フォルマントの周波数は声道の形状と関係し,個体差や性差もフォルマントの違いを生む原因となる。
発音する[[音韻]]が同じであれば、各フォルマント周波数は近い値になる。
[[画像:Spectrogram -iua-.png|thumb|[[スペクトログラム]]: アメリカ英語の[i, u, ɑ]のF1とF2]]


== 概要 ==
==音声との関係==
時間変化する音声を一定区間で区切り周波数領域へ変換すると、周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっている。この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、[[周波数]]の低い順に'''第一フォルマント'''、'''第二フォルマント'''と呼ばれ、それぞれの周波数を'''F<sub>1</sub>''', '''F<sub>2</sub>'''と表記する<ref name=":0">" the formant frequencies could continue to be written as F<sub>1</sub>, …, F<sub>m</sub>" Ingo, et al. (2015). ''[[doi:10.1121/1.4919349|Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization]]''.</ref>。また経時的に変化する場合もある。
母音の識別には、各フォルマントの周波数が重要である。録音した音声から主要フォルマント(主に500~3000Hz近辺に点在する)を除去して再生すると、発音された[[母音]]とは認識できなくなる。逆に楽器などの音波にシンセサイザーやイコライザーなどでフォルマントを模したピークを加えてやると母音が混じったような音声が出来上がる。
[[子音]]では明確なフォルマントは観察できない。
母音の弁別は第一フォルマント(約500~1000Hz)と第二フォルマント(約1500~3000Hz)によってほぼ行うことできる(第一、第二といった数字の当て方は研究者や時代によって異なる場合がある)。


声の波形に現れるフォルマントは[[声道]]の形状から強く影響を受ける。ゆえに個体差や性差もフォルマントの違いを生む原因となる。[[単音|音価]]が同じであれば各フォルマント周波数は近い値になる。
音声は、[[声帯]](vocal fold)の振動によって生成された音波(喉頭原音)が[[声道]](vocal tract)で[[共鳴]]することで形成される。
音声の源となる声帯振動は会話の時は200Hz付近で、ゴム風船のブーという振動とあまり変わらない。この音は喉に直接マイクを当てれば聴くことができる。また、声帯を失った人に使用される[[人工声帯]]は、ブーという音しか出ない。
この声帯音源が、[[声道]]つまり[[咽頭]][[喉頭]]および[[唇]]・[[舌]]・[[歯]]・[[顎]]・[[頬]]で構成される[[口腔]]、さらに[[鼻腔]]、[[副鼻腔]]で共鳴することにより特定帯域ごとに[[倍音]]が増幅される。この増幅された成分の塊もしくはピークをフォルマントと呼ぶ。
この音は、さらに口から外部への放射、伝搬を経て、我々が普段耳にしている音声へと変わる。


== 音声との関係 ==
人が[[言葉]]を発するということは、音響音声学的には、音声におけるそれぞれの音韻に必な共鳴や生成方法を制御することで、これを調音または構音という。親子や兄弟で声が似ているのは、[[骨格]]などの形態が近いことも理由の一と言われるが、骨格と大きく相関するフォルマントの高低は音声の個性にはあまり影響しない。音色に影響するのはむしろ声帯の微妙な鳴らし方の違い([[声種]])で、これは習慣的なものである。似た声になるのは、聴き慣れた家族の声を無意識に再現しようとすることのほかに、使う発声が親から遺伝していることも理由である(使う発声とはあくまで「発声練習などを何もしていない状態」でのものであり、逆にいえば、練習次第で遺伝した発声を変えていくこともできる)。
{{Main|声#生成|調音}}
フォルマントは[[声#生物|発声過程]]における[[調音]]で主に付与される。すなわち比較的平坦な周波数スペクトルをもつ声帯音源が、[[口腔]]や[[鼻腔]]等の声道における共鳴により特定周波数の強調を受けてフォルマントをもつ。


母音の識別にはフォルマント周波数が重要である。音声からフォルマントを除去すると[[母音]]とは認識できず、逆にフォルマントを模したピークを追加すると母音混じりの音声が得られる。母音の弁別は第一フォルマント(約500~1000Hz)と第二フォルマント(約1500~3000Hz)によって大体行うことができる<ref>第一、第二といった数字の当て方は研究者や時代によって異なる</ref>。なお、[[阻害音]]では明確なフォルマントは観察できない。
==観察方法==


{{出典範囲|親子や兄弟で声が似ているのは、[[骨格]]などの形態が近いことも理由の一と言われるが、骨格と大きく相関するフォルマントの高低は音声の個性にはあまり影響しない。音色に影響するのはむしろ声帯の微妙な鳴らし方の違い([[声種]])で、これは習慣的なものである|date=2023年4月}}{{要出典範囲|似た声になるのは、聴き慣れた家族の声を無意識にまねることのほかに、使う発声が親から遺伝していることも理由である(使う発声とはあくまで「発声練習などを何もしていない状態」でのものであり、練習次第で遺伝した発声を変えていくこともできる)|date=2023年4月}}
周波数分析器により観察したスペクトルの時間遷移は、'''[[サウンドスペクトログラム]]''' (Spectrogram) と呼ばれるグラフに記録して観察される。一般に、縦軸に周波数、横軸に時間を配置する。


== 観察方法 ==
サウンドスペクトログラムは、観察する信号をディジタル録音([[サンプリング]])したものに[[短時間フーリエ変換]] (STFT) を掛けて作成する。
以下のいずれかの方法によって観察される。


* [[サウンドスペクトログラム]]の目視
過去の周波数分析には、[[ソナグラフ]] (Sonagraph) や、'''サウンドスペクトログラフ''' (Spectrograph)という装置が使われてきた。これらは分析するための音をいったん録音し、再生時に帯域通過フィルタの周波数を変えながら紙に順次記録していくもので、周波数成分の強い箇所が濃く記録される。ソナグラフは[[1950年]]ごろに、アメリカの[[ベル研究所]]で発明された。
* [[ケプストラム]]分析
* [[線形予測符号|線形予測符号 (LPC)]]


フォルマントは元来スペクトログラム上の黒い帯として(大雑把に)定義された。そのため、数学的・[[音声学]]的に厳密なフォルマントの定義は存在しない。より客観的にフォルマントを記述するパラメータにはピーク周波数(F<sub>n</sub>)、ピーク強度(L<sub>Fn</sub>)、バンド幅(B<sub>Fn</sub>)がある<ref name=":0" />。
==発音との関係==


== 発音との関係 ==
=== 母音 ===
=== 母音 ===
概して、F1は'''口の開きの大きさ'''に比例する。つまり高母音のほうが低母音よりもF1は低い。母音、子音両方に言えることであるが、狭めはF1を低くする効果がある。


F2は舌の前後によって影響され、前母音のほうが後母音よりもF2が高い。これは、F2が舌の前の空間で共鳴を起こすためである。また後母音は、唇の丸めが加わることが多く、これによって共鳴空間がさらに長くなり、F2は下がる。

== 観察のためのソフトウェア及びハードウェア==
=== 子音 ===


==観察のためのソフトウェア==

=== 音声からサウンドスペクトログラムを生成 ===
=== 音声からサウンドスペクトログラムを生成 ===
* [http://audacity.sourceforge.net/ Audacity] ([[Linux]], [[Macintosh]], [[Microsoft Windows|Windows]]用)
* [[Audacity]]([[Linux]][[FreeBSD]]、[[macOS]]などの[[PC-UNIX]]、[[Classic Mac OS#Mac OS 9|Mac OS 9]]、[[Microsoft Windows|Windows]]用
* [http://hp.vector.co.jp/authors/VA025737/performance/fruity/index.html FRUITY]([[Windows Media Player]]用)
* [http://hp.vector.co.jp/authors/VA025737/performance/fruity/index.html FRUITY][[Windows Media Player]]用
* [[Praat]](Macintosh, Windows, Linux, [[FreeBSD]], [[IRIX]], [[Solaris]], [[HP-UX]]用)
* [http://www.speech.kth.se/wavesurfer/ KTH WaveSurfer] ([[Linux]], [[Macintosh]], [[Microsoft Windows|Windows]]用)


=== サウドスペクログラムから音を生成 ===
=== フォルマントから音を生成 ===
* [[PLG100-SG]] - 有声音無声音共通の第一~第六フォルマントと、有声音専用のバズバー及びナザル(鼻音)フォルマントを組み合わせて音を生成する<ref>[https://jp.yamaha.com/files/download/other_assets/0/316480/PLG100SGJ.pdf PLG100-SG取扱説明書] YAMAHA</ref>。
* [http://www.uisoftware.com/PAGES/acceuil_meta.html MetaSynth] ([[Macintosh]]用)
* [http://hem.passagen.se/rasmuse/Coagula.htm Coagula] ([[Microsoft Windows|Windows]]用)
* [http://faculty.washington.edu/dillon/PhonResources/javoice/vowjavoice2.html JavOICe] ([[Javaアプレット]]用)


== 脚注 ==
[[電子音楽]] 奏者の何人かは[[画像]]をフォルマントに見立て、これを音に復調することで、画像を音楽に埋め込んだ。たとえば、
{{脚注ヘルプ}}
* [[エイフェックス・ツイン]] 氏は'''MetaSynth'''を使って自分の画像をスペクトログラムに埋め込んだ。この画像は''Windowlicker'' シングルの2曲目、曲の終わりに近い9秒間のスイープ部にある。 (ただし、[[MP3]]でも確認できると思われるが、[[圧縮]]によって[[スペクトル]]が崩れるので[[コンパクトディスク|CD]]ほどクリアな画像ではない。)
{{Reflist}}
* [[ヴェネチアン・スネアズ]] はアルバム ''Songs About My Cats''にある''Look''という曲に、飼っている猫の画像を埋め込んだ。
<!-- == 参考文献 == {{Cite book}}、{{Cite journal}} -->
これらのスペクトログラムは、[http://www.bastwood.com/aphex.php bastwood.com]で見ることが出来る。


==関連記事==
== 関連項目 ==
<!-- {{Commonscat|Formant}} -->
*[[スペクトル]]
*[[]]
* [[スペクトル]]
*[[音]]
* [[音]]
* [[音素]]
*[[声紋]] (voice print)
* [[スペクトログラム|声紋]](voice print)
*[[人工声帯]] ([[音声合成]])
*[[音声認識]]
* [[人工声帯]]([[音声合成]]
*[[音声分析]]
* [[音声認識]]
*[[線形予測符号]]
* [[音声分析]]
* [[線形予測符号]]


{{Language-stub}}
[[Category:音声学|ふおるまんと]]
{{音響学}}
{{language-stub|ふおるまんと}}


{{デフォルトソート:ふおるまんと}}
[[cs:Formant]]
[[de:Formant]]
[[Category:音声学]]
[[en:Formant]]
[[eo:Formanto]]
[[es:Formante]]
[[fr:Formant]]
[[gl:Formante (fonética)]]
[[he:פורמנט]]
[[nl:Formant]]
[[pl:Formant (elektroakustyka)]]
[[ru:Форманта]]
[[sv:Formant]]

2023年4月7日 (金) 04:55時点における版

スペクトログラム:アメリカ英語の[i, u, ɑ]のF1とF2

フォルマント: formantホルマント)は音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域である[1]

概要

時間変化する音声を一定区間で区切り周波数領域へ変換すると、周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっている。この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、周波数の低い順に第一フォルマント第二フォルマントと呼ばれ、それぞれの周波数をF1, F2と表記する[2]。また経時的に変化する場合もある。

声の波形に現れるフォルマントは声道の形状から強く影響を受ける。ゆえに個体差や性差もフォルマントの違いを生む原因となる。音価が同じであれば各フォルマント周波数は近い値になる。

音声との関係

フォルマントは発声過程における調音で主に付与される。すなわち比較的平坦な周波数スペクトルをもつ声帯音源が、口腔鼻腔等の声道における共鳴により特定周波数の強調を受けてフォルマントをもつ。

母音の識別にはフォルマント周波数が重要である。音声からフォルマントを除去すると母音とは認識できず、逆にフォルマントを模したピークを追加すると母音混じりの音声が得られる。母音の弁別は第一フォルマント(約500~1000Hz)と第二フォルマント(約1500~3000Hz)によって大体行うことができる[3]。なお、阻害音では明確なフォルマントは観察できない。

親子や兄弟で声が似ているのは、骨格などの形態が近いことも理由の一と言われるが、骨格と大きく相関するフォルマントの高低は音声の個性にはあまり影響しない。音色に影響するのはむしろ声帯の微妙な鳴らし方の違い(声種)で、これは習慣的なものである[要出典]似た声になるのは、聴き慣れた家族の声を無意識にまねることのほかに、使う発声が親から遺伝していることも理由である(使う発声とはあくまで「発声練習などを何もしていない状態」でのものであり、練習次第で遺伝した発声を変えていくこともできる)[要出典]

観察方法

以下のいずれかの方法によって観察される。

フォルマントは元来スペクトログラム上の黒い帯として(大雑把に)定義された。そのため、数学的・音声学的に厳密なフォルマントの定義は存在しない。より客観的にフォルマントを記述するパラメータにはピーク周波数(Fn)、ピーク強度(LFn)、バンド幅(BFn)がある[2]

発音との関係

母音

概して、F1は口の開きの大きさに比例する。つまり高母音のほうが低母音よりもF1は低い。母音、子音両方に言えることであるが、狭めはF1を低くする効果がある。

F2は舌の前後によって影響され、前母音のほうが後母音よりもF2が高い。これは、F2が舌の前の空間で共鳴を起こすためである。また後母音は、唇の丸めが加わることが多く、これによって共鳴空間がさらに長くなり、F2は下がる。

観察のためのソフトウェア及びハードウェア

音声からサウンドスペクトログラムを生成

フォルマントから音を生成

  • PLG100-SG - 有声音無声音共通の第一~第六フォルマントと、有声音専用のバズバー及びナザル(鼻音)フォルマントを組み合わせて音を生成する[4]

脚注

  1. ^ "Of a complex sound, a range of frequencies in which there is an absolute or relative maximum in the sound spectrum." Acoustical Society of America. formant.
  2. ^ a b " the formant frequencies could continue to be written as F1, …, Fm" Ingo, et al. (2015). Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization.
  3. ^ 第一、第二といった数字の当て方は研究者や時代によって異なる
  4. ^ PLG100-SG取扱説明書 YAMAHA

関連項目