首頁>>>技術>>>語音應用>>>語音合成(TTS)  語音合成產品


語音合成系統(tǒng)的關鍵技術

清華大學計算機系智能技術與系統(tǒng)國家重點實驗室

陶建華 蔡蓮紅

---- 計 算 機 語 音 合 成 系 統(tǒng) 又 稱 文 語 轉 換 系 統(tǒng)(TTS 系 統(tǒng)), 它 的 主 要 功 能 是 將 計 算 機 中 任 意 出 現 的 文 字 轉 換 成 自 然 流 暢 的 語 音 輸 出。 一 般 認 為, 語 音 合 成 系 統(tǒng) 包 括 三 個 主 要 的 組 成 部 分: 文 本 分 析 模 塊、 韻 律 生 成 模 塊 和 聲 學 模 塊。

文 本 分 析

----語 音 合 成 系 統(tǒng) 首 先 處 理 的 是 文 字, 也 就 是 它 要 說 的 內 容。 文 本 分 析 的 主 要 功 能 是 使 計 算 機 能 從 這 些 文 本 中 認 識 文 字, 進 而 知 道 要 發(fā) 什 么 音、 怎 么 發(fā) 音, 并 將 發(fā) 音 的 方 式 告 訴 計 算 機。 另 外, 還 要 讓 計 算 機 知 道, 在 文 本 中, 哪 些 是 詞, 哪 些 是 短 語 或 句 子, 發(fā) 音 時 應 該 到 哪 里 停 頓 及 停 頓 多 長 時 間 等。 其 工 作 過 程 可 以 分 為 三 個 主 要 步 驟:

----(1) 將 輸 入 的 文 本 規(guī) 范 化。 在 這 個 過 程 中, 要 查 找 拼 寫 錯 誤, 并 將 文 本 中 出 現 的 一 些 不 規(guī) 范 或 無 法 發(fā) 音 的 字 符 過 濾 掉。

----(2) 分 析 文 本 中 詞 或 短 語 的 邊 界, 確 定 文 字 的 讀 音, 同 時 分 析 文 本 中 出 現 的 數 字、 姓 氏、 特 殊 字 符、 專 有 詞 語 以 及 各 種 多 音 字 的 讀 音 方 式。

----(3) 根 據 文 本 的 結 構、 組 成 和 不 同 位 置 上 出 現 的 標 點 符 號, 確 定 發(fā) 音 時 語 氣 的 變 換 以 及 不 同 音 的 輕 重 方 式。

----最 終, 文 本 分 析 模 塊 將 輸 入 的 文 字 轉 換 成 計 算 機 能 夠 處 理 的 內 部 參 數, 便 于 后 續(xù) 模 塊 進 一 步 處 理 并 生 成 相 應 的 信 息。

----傳 統(tǒng) 的 文 本 分 析 主 要 是 基 于 規(guī) 則(Rule  based) 的 實 現 方 法。 其 主 要 思 路 是 盡 可 能 地 將 文 字 中 的 分 詞 規(guī) 范、 發(fā) 音 方 式 羅 列 起 來, 并 總 結 出 規(guī) 則, 依 靠 這 些 規(guī) 則 進 行 文 本 處 理, 以 獲 得 需 要 的 參 數。 具 有 代 表 性 的 方 法 有: 最 大 匹 配 法、 反 向 最 大 匹 配 法、 逐 詞 遍 歷 法、 最 佳 匹 配 法、 二 次 掃 描 法 等。 這 些 方 法 的 優(yōu) 點 在 于 結 構 較 為 簡 單、 直 觀, 易 于 實 現; 缺 點 是 需 要 大 量 的 時 間 去 總 結 規(guī) 則, 且 模 塊 性 能 的 好 壞 嚴 重 依 賴 于 設 計 人 員 的 經 驗 以 及 他 們 的 背 景 知 識。 由 于 這 些 方 法 能 取 得 較 好 的 分 析 效 果, 因 此, 直 到 目 前, 它 們 依 然 被 廣 泛 使 用。

----但 是 近 幾 年 來, 隨 著 計 算 機 領 域 中 數 據 挖 掘 技 術 的 發(fā) 展, 許 多 統(tǒng) 計 學 方 法 以 及 人 工 神 經 網 絡 技 術 在 計 算 機 數 據 處 理 領 域 中 獲 得 了 成 功 的 應 用, 計 算 機 從 大 量 數 據 中 自 動 提 取 規(guī) 律 已 完 全 可 能 并 正 在 實 現。 在 此 背 景 下, 出 現 了 基 于 數 據 驅 動(Data driven) 的 文 本 分 析 方 法, 具 有 代 表 性 的 有: 二 元 文 法 法(Di Grammar Method)、 三 元 文 法 法(Tri Grammar Method)、 隱 馬 爾 可 夫 模 型 法(HMM Method) 和 神 經 網 絡 法(Neural Network Method) 等。 一 些 比 較 著 名 的 系 統(tǒng), 如IBM 的 語 音 產 品 就 采 用 了 隱 馬 爾 可 夫 模 型 法。 這 類 方 法 的 特 點 是, 設 計 人 員 根 據 統(tǒng) 計 學 或 人 工 神 經 網 絡 方 面 的 知 識, 設 計 出 一 種 可 訓 練 的 模 型, 并 用 大 量 已 經 存 在 的 數 據 去 訓 練, 將 訓 練 得 到 的 模 型 用 于 文 本 分 析, 而 系 統(tǒng) 設 計 人 員 并 不 需 要 太 強 的 語 言 學 背 景 知 識。 對 于 工 程 技 術 人 員 來 說, 這 類 方 法 無 疑 減 輕 了 他 們 研 究 語 言 學 的 負 擔。 目 前, 這 類 方 法 在 文 本 分 析 精 度 上, 已 達 到 或 部 分 超 過 了 基 于 規(guī) 則 系 統(tǒng) 的 分 析 結 果, 且 容 易 實 現 多 語 種 的 混 合, 因 而 越 來 越 廣 泛 地 被 接 受 并 使 用。 這 類 方 法 的 缺 點 在 于, 盡 管 系 統(tǒng) 容 易 獲 得 文 本 信 息 的 共 同 特 征, 但 忽 略 了 一 些 個 性, 而 往 往 這 些 個 別 因 素 對 最 終 的 發(fā) 音 方 式 影 響 很 大。 因 此, 有 些 系 統(tǒng) 采 取 了 兩 類 方 法 相 結 合 的 方 式。

韻 律 生 成

----任 何 人 說 話 都 有 韻 律 特 征, 比 如 在 漢 語 中, 音 節(jié) 有 不 同 的 聲 調、 語 氣 和 停 頓 方 式, 發(fā) 音 長 短 也 各 不 相 同, 這 些 都 屬 于 韻 律 特 征。 韻 律 參 數 則 包 括 了 能 影 響 這 些 特 征 的 聲 學 參 數, 如 基 頻、 時 長、 音 強 等。

----文 本 分 析 的 結 果 只 是 告 訴 了 計 算 機 發(fā) 什 么 音, 以 及 以 什 么 方 式 發(fā) 音, 這 種 發(fā) 音 方 式 還 只 是 抽 象 的。 而 要 發(fā) 音 的 聲 調 是 二 聲 還 是 三 聲, 是 重 讀 還 是 輕 讀, 到 哪 里 停 頓, 等 等, 這 些 最 終 系 統(tǒng) 用 來 進 行 聲 信 號 合 成 的 具 體 韻 律 參 數 還 要 依 靠 韻 律 生 成 模 塊。 與 文 本 分 析 的 實 現 方 法 相 類 似, 韻 律 的 生 成 方 法 也 分 為 基 于 規(guī) 則 和 數 據 驅 動 兩 種 方 法。

----早 期 的 韻 律 生 成 方 法 均 采 用 基 于 規(guī) 則 的 方 法。 這 種 方 法 要 求 研 究 人 員 有 大 量 的 音 韻 學 背 景 知 識, 需 要 對 在 各 種 特 定 的 情 況 下, 如 聲 音 在 句 子 中 的 不 同 位 置、 不 同 聲 調 及 句 子 的 不 同 語 氣 甚 至 是 不 同 的 詞 性 下, 對 基 頻、 時 長 和 音 強 等 各 個 聲 學 參 數 變 化 的 詳 細 情 況 加 以 總 結、 歸 納。 由 于 各 個 語 種 的 韻 律 特 征 不 同, 因 此, 針 對 不 同 的 語 種, 必 須 找 出 與 該 語 種 相 關 聯 的 韻 律 特 征。 目 前, 基 于 規(guī) 則 的 方 法 仍 然 被 認 作 是 行 之 有 效 的 方 法, 大 部 分 漢 語 語 音 合 成 系 統(tǒng) 依 然 采 用 這 種 方 法。 雖 然 經 過 研 究 者 的 努 力, 這 種 方 法 能 達 到 較 好 的 韻 律 生 成 效 果, 但 它 也 受 到 很 多 限 制。 如 前 所 述, 基 于 規(guī) 則 的 方 法 要 求 系 統(tǒng) 設 計 人 員 花 費 大 量 的 時 間 和 精 力 去 研 究 不 同 語 種 普 遍 存 在 的 韻 律 特 征, 而 這 是 一 個 非 常 耗 時 的 工 作, 且 由 于 規(guī) 則 的 復 雜 性, 其 生 成 語 音 的 自 然 度 也 受 到 較 多 的 限 制, 也 就 限 制 了 它 的 一 些 性 能。 另 外, 基 于 規(guī) 則 的 系 統(tǒng) 方 法 往 往 只 追 求 發(fā) 音 的 自 然, 而 掩 蓋 了 人 的 個 性。 如 讓 系 統(tǒng) 模 擬 某 一 特 定 人 的 發(fā) 音, 就 顯 得 無 力, 除 非 是 針 對 專 人 設 計 的 一 些 專 用 模 型。

----目 前, 通 過 神 經 網 絡 或 統(tǒng) 計 驅 動 的 方 法 進 行 韻 律 生 成 已 獲 得 成 功 的 應 用。Siemens 和Motorola 公 司 均 采 用 或 試 驗 了 此 技 術。 在 國 內, 清 華 大 學 計 算 機 系 在 這 方 面 也 進 行 了 大 量 的 研 究, 其 研 究 成 果 已 接 近 實 用 階 段。 其 實 現 步 驟 是: 首 先 設 計 或 收 集 一 個 包 含 大 量 語 音 和 文 本 信 息 的 數 據, 然 后 建 立 一 個 訓 練 模 型, 并 用 從 數 據 庫 中 提 取 出 的 韻 律 參 數 對 模 型 進 行 訓 練, 通 過 訓 練 而 得 到 最 終 的 韻 律 模 型。 這 種 模 型 的 優(yōu) 點 在 于: 在 保 持 甚 至 增 強 了 系 統(tǒng) 的 韻 律 生 成 能 力 的 同 時, 極 大 地 改 善 了 整 個 語 音 合 成 系 統(tǒng) 的 靈 活 性, 便 于 模 擬 某 一 特 定 人 的 韻 律 特 征, 且 為 在 同 一 個 語 音 合 成 系 統(tǒng) 中 整 合 多 語 種 創(chuàng) 造 了 條 件。 事 實 上, 有 關 研 究 人 員 正 在 嘗 試 使 用 這 一 方 法 將 漢 語 和 其 他 西 方 語 言 整 合 到 一 套 系 統(tǒng) 上。

----圖1 和 圖2 分 別 反 映 了 基 于 規(guī) 則 和 基 于 數 據 驅 動 韻 律 模 型 的 建 立 與 工 作 過 程。

語 音 生 成

----系 統(tǒng) 知 道 了 要 說 什 么 并 掌 握 了 韻 律 控 制 參 數 后, 它 是 如 何 使 計 算 機 發(fā) 聲 的 呢 ?

----系 統(tǒng) 產 生 的 合 成 語 音 是 通 過 一 個 聲 學 模 塊 來 具 體 實 現 的。 早 期 語 音 合 成 系 統(tǒng) 的 聲 學 模 型 多 是 通 過 模 擬 人 的 口 腔 的 聲 道 特 性 來 產 生 的。 其 中 比 較 著 名 的 有Klatt 的 共 振 峰(Formant) 合 成 系 統(tǒng), 后 來 又 產 生 了 基 于LPC、LSP 和LMA 等 聲 學 參 數 的 合 成 系 統(tǒng), 這 些 都 可 以 歸 結 為 參 數 合 成 系 統(tǒng)。 使 用 這 些 方 法 建 立 聲 學 模 型 的 過 程 是: 首 先 錄 制 聲 音, 這 些 聲 音 涵 蓋 了 人 發(fā) 音 過 程 中 所 有 可 能 出 現 的 讀 音; 然 后, 提 取 出 這 些 聲 音 的 聲 學 參 數, 并 整 合 成 一 個 完 整 的 音 庫。 在 發(fā) 音 過 程 中, 首 先 根 據 發(fā) 音 需 要 從 音 庫 中 選 擇 合 適 的 聲 學 參 數, 然 后 根 據 從 韻 律 模 型 中 得 到 的 韻 律 參 數, 通 過 合 成 算 法 產 生 語 音。 參 數 合 成 方 法 的 優(yōu) 點 是 其 音 庫 一 般 較 小, 并 且 整 個 系 統(tǒng) 能 適 應 的 韻 律 特 征 的 范 圍 較 寬, 但 其 合 成 語 音 的 音 質 卻 往 往 受 到 一 定 的 限 制。

----近10 年 來, 采 用 波 形 拼 接(PSOLA) 合 成 語 音 的 方 法 越 來 越 被 廣 泛 應 用。 這 種 方 法 的 核 心 思 想 是 直 接 對 存 儲 于 音 庫 的 語 音 運 用PSOLA 算 法 進 行 拼 接, 從 而 整 合 成 完 整 的 語 音。 有 別 于 傳 統(tǒng) 概 念 中 只 是 將 不 同 的 語 音 單 元 進 行 簡 單 拼 接, 該 系 統(tǒng) 首 先 要 在 大 量 語 音 庫 中, 選 擇 最 合 適 的 語 音 單 元 用 于 拼 接, 并 且 在 選 音 過 程 中 往 往 采 用 多 種 復 雜 的 技 術, 包 括 多 項 統(tǒng) 計 學 上 的 技 術 或 神 經 網 絡 技 術, 最 后 在 拼 接 時, 使 用PSOLA 算 法, 對 其 合 成 語 音 的 韻 律 特 征 進 行 修 改, 而 使 合 成 的 語 音 達 到 了 很 高 的 音 質。 如 日 本ATR 推 出 的 多 語 種 語 音 合 成 系 統(tǒng), 就 采 用 了 統(tǒng) 計 學 上 的 隱 馬 爾 可 夫 模 型 來 進 行 選 音。 其 他 的 一 些 主 要 語 音 產 品, 如Siemens 的Papageno 系 統(tǒng), 也 采 用 了 類 似 或 相 關 的 技 術。

----但 基 于 波 形 拼 接 方 法 的 系 統(tǒng) 仍 存 在 一 些 問 題, 即 它 的 音 庫 往 往 非 常 龐 大, 需 要 占 據 較 大 的 存 儲 空 間。 這 對 將 系 統(tǒng) 推 廣 到 掌 上 型 電 腦 或 一 些 小 的 終 端 設 備 上 非 常 不 利。 另 外, 在 拼 接 時, 兩 個 相 鄰 的 聲 音 單 元 之 間 譜 的 不 連 續(xù), 也 容 易 造 成 合 成 音 質 的 下 降。 目 前, 解 決 這 些 問 題 較 好 的 途 徑 是 將 其 與 參 數 合 成 方 法 相 結 合。 在 此 基 礎 上 又 誕 生 了 一 些 新 的 模 型, 如 基 音 同 步 的Sinusoidal 模 型 等, 這 些 對 進 一 步 改 善 系 統(tǒng) 的 性 能 提 供 了 幫 助。 但 目 前 這 些 工 作 還 基 本 處 于 研 究 或 實 驗 室 階 段。

----計 算 機 語 音 合 成 技 術 經 過 近10 年 的 飛 速 發(fā) 展, 從 傳 統(tǒng) 的 規(guī) 則 合 成 技 術 發(fā) 展 到 現 在 的 基 于 大 語 料 和 數 據 驅 動 的 技 術。 系 統(tǒng) 也 從 單 一 語 種 發(fā) 展 到 多 語 種, 而 且 越 來 越 靈 活。 進 一 步 提 高 合 成 語 音 的 自 然 程 度, 依 然 是 研 究 工 作 者 的 主 要 目 標 之 一。 目 前, 其 他 計 算 機 領 域 的 研 究 發(fā) 展, 如 數 據 挖 掘 技 術、 自 然 語 言 理 解 技 術、 信 號 處 理 技 術 等, 正 不 斷 地 向 語 音 合 成 領 域 加 速 滲 透, 并 極 大 地 推 動 著 語 音 合 成 系 統(tǒng) 朝 著 像 人 一 樣 自 然 流 暢 地 說 話、 學 習 并 自 動 模 擬 的 方 向 發(fā) 展。

 



相關鏈接:
語音合成——燦爛的前景 巨大的商機 2002-01-30
語音合成技術及國內外發(fā)展現狀 2002-01-30
Evoice有聲電子郵件系統(tǒng) 2002-01-30
語音合成技術應用實例 2002-01-30
語音合成技術的原理 2002-01-30

分類信息:     技術_語音合成_文摘