2019年3月16日土曜日

永野芽郁さんの発言を解析してみる

本学のある先生から連絡を受けました.以下のツイッターで発言している永野芽郁さんの発言が分からないかということでした.


なぜ連絡を受けたかというと,投稿者が機械読唇(発話の映像から発話内容を推定する)に関する研究をしていたためです.本来は研究者である投稿者自身が気付かないといけないことでしたが,同僚の先生から連絡をもらいました.ありがたいことです.

そして,連絡をくれた先生に解析結果を伝えたところ,既にツイッター上に正解(「まみず」でしょうか?)が出ていたようでした.結果が出ていたことは大変残念ではありましたが,間違ってはいなかったようなので安心しました.

ファンの皆様やドラマ関係の皆様には大変申し訳ありませんが,このドラマ自体を詳しく見ていませんでしたので(放送されていることは知っていました),それが意味することがよく分かりませんでした.ただ,日本語の単語として意味のある言葉の1つに上記の言葉が含まれていました.

ご参考までに,解析の手順について簡単に説明します.

  1. まず,日本語の全ての語音(五十音に濁音,半濁音,拗音も含める)は,母音のアからオと唇を閉じた閉唇の6口形の組み合わせて発声されていることが知られています.
  2. そこで,上記6口形をそれぞれのローマ字表記のA,I,U,E,OとX(閉唇)の6つの記号に対応させます.こうすることで,日本語全ての語音をこれら2つの記号で表現できることになります.例えば「ま」は最初に口を閉じてから発声するのでXAとか,「さ」はイ口形とア口形なのでIAといった具合です.これらを「音コード」と呼びます.母音のみの口形で発声される「か」の音は「-A」と表現します.
  3. その結果,日本語語句の語音(仮名)をそれぞれの音コードにして変換できるようになります.例えば,「大学」(だ(IA),い(-I),が(-A),く(-U))だと,「IA-I-A-U」といった具合になります.これらを「口形順序コード」と呼ぶことにします.ただし,本当は単純に結合するだけではなく,つながる語音の組合わせでいろいろと変化する規則があります(が,その詳細は省略します).
  4. そして,この口形順序コードが生成できれば,逆向きに処理することでその元となった語句が推測できるのではないかということになります.
今回は映像を見たところ,最初の語音が「XA」(閉唇の後にア口形),次の語音が「XI」,そして最後の語音が「-U」であると判断し,口形順序コード「XAXI-U」を生成しました.

これを研究で作成した解析プログラムにかけたところ,今回の口の動きから推測される上位10語として以下が出力されました(全体としては171単語).

1 まみつ
2 まみず
3 まみる
4 まびる
5 まびく
6 まみす
7 まびす
8 まびつ
9 まみく
10 まみう

そして出力された中で,日本語の単語として意味のある「まみず」と判断しました.投稿者は「真水」と思いましたが,もしかしたらドラマの中での意味は違うのかもしれません.ただ,そのことは発話の音からは分かりません.

今回は上手く正解にたどり着きました(?)が,いつも上手くいくとは限りません.

今回はゆっくり1音ずつ発話されていて比較的口形がわかりやすかったことと,語音の数が少なかったことがあります.4音以上になると候補語句が大幅増えて,判断が難しくなります.残念ながらこの部分は自動化できていません.これからの課題となります.

1 件のコメント:

  1. わずか3文字で表現されることを明らかにすることにも、実に深い解析がありますね。
    早口の場合や映る角度の変化によって、もっと難しくなるのでしょう。
    読唇術を身につけている人がいらっしゃいますが、まだまだコンピュータはこの領域は人間には追い付けないように思えます(少なくとも、私の目が黒いうちは)。ちなみに、独身術を身につけた人は、結構身近にいます(笑)。

    返信削除