预购商品
书目分类
特别推荐
Chapter 01 語音辨識概述 ▌1.1 語音辨識發展歷程 ▌1.2 語音辨識產業與應用 1.2.1 消費級市場 1.2.2 企業級市場 ▌1.3 常用語音處理工具 1.3.1 WebRTC 1.3.2 Kaldi 1.3.3 點對點語音辨識工具套件 Chapter 02 語音訊號基礎 ▌2.1 語音訊號的聲學基礎 2.1.1 語音產生機制 2.1.2 語音訊號的產生模型 2.1.3 語音訊號的感知 ▌2.2 語音訊號的數位化和時頻變換 2.2.1 語音訊號的採樣、量化和編碼 2.2.2 語音訊號的時頻變換 ▌2.3 本章小結 Chapter 03 語音前端演算法 ▌3.1 語音前端演算法概述 ▌3.2 VAD 3.2.1 基於門限判決的VAD 3.2.2 基於高斯混合模型的VAD 3.2.3 基於神經網路的VAD ▌3.3 單通道降噪 3.3.1 譜減法 3.3.2 維納濾波法 3.3.3 音樂雜訊和參數譜減法 3.3.4 貝氏準則下的MMSE 3.3.5 雜訊估計 3.3.6 基於神經網路的單通道降噪 ▌3.4 回音消除 3.4.1 回音消除概述 3.4.2 線性自我調整濾波 3.4.3 分區塊頻域自我調整濾波器 3.4.4 雙邊對話檢測 3.4.5 延遲估計 3.4.6 殘留回音消除 3.4.7 基於神經網路的回音消除 ▌3.5 麥克風陣列與波束形成 3.5.1 麥克風陣列概述 3.5.2 延遲求和波束形成 3.5.3 最小方差無失真回應波束形成 3.5.4 廣義旁波瓣對消波束形成 3.5.5 後置濾波 3.5.6 基於神經網路的波束形成 ▌3.6 聲源定位 3.6.1 GCC-PHAT 3.6.2 基於自我調整濾波的聲源定位 3.6.3 SRP-PHAT 3.6.4 子空間聲源定位演算法 3.6.5 基於神經網路的聲源定位 ▌3.7 其他未盡話題 ▌3.8 本章小結 Chapter 04 語音辨識原理 ▌4.1 特徵提取 4.1.1 特徵前置處理 4.1.2 常見的語音特徵 ▌4.2 傳統聲學模型 4.2.1 聲學建模單元 4.2.2 GMM-HMM 4.2.3 強制對齊 ▌4.3 DNN-HMM 4.3.1 語音辨識中的神經網路基礎 4.3.2 常見的神經網路結構 ▌4.4 語言模型 4.4.1 n-gram 語言模型 4.4.2 語言模型的評價指標 4.4.3 神經語言模型 ▌4.5 WFST 解碼器 4.5.1 WFST 原理 4.5.2 常見的WFST 運算 4.5.3 語音辨識中的WFST 解碼器 4.5.4 權杖傳遞演算法 4.5.5 Beam Search ▌4.6 序列區分性訓練 4.6.1 MMI 和bMMI 4.6.2 MPE 和sMBR 4.6.3 詞圖 4.6.4 LF-MMI ▌4.7 點對點語音辨識 4.7.1 CTC 4.7.2 Seq2Seq ▌4.8 語音辨識模型評估 ▌4.9 本章小結 Chapter 05 中文漢語模型訓練-- 以multi_cn 為例 ▌5.1 Kaldi 安裝與環境設定 ▌5.2 Kaldi 中的資料格式與資料準備 ▌5.3 語言模型訓練 ▌5.4 發音詞典準備 ▌5.5 特徵提取 ▌5.6 Kaldi 中的Transition 模型 ▌5.7 預對齊模型訓練 5.7.1 單音素模型訓練 5.7.2 delta 特徵模型訓練 5.7.3 lda_mllt 特徵變換模型訓練 5.7.4 語者自我調整訓練 ▌5.8 資料增強 5.8.1 資料清洗及重分割 5.8.2 速度增強和音量增強 5.8.3 SpecAugment ▌5.9 I-Vector 訓練 5.9.1 對角UBM 5.9.2 I-Vector 提取器 5.9.3 提取訓練資料的I-Vector ▌5.10 神經網路訓練 5.10.1 Chain 模型 5.10.2 Chain 模型態資料準備 5.10.3 神經網路設定與訓練 ▌5.11 解碼圖生成 ▌5.12 本章小結 ▌5.13 附錄 5.13.1 xconfig 中的描述符及網路設定表 5.13.2 Chain 模型中的egs 5.13.3 Kaldi nnet3 中迭代次數和學習率調整 Chapter 06 基於Kaldi 的語者自動分段標記 ▌6.1 語者自動分段標記概述 6.1.1 什麼是語者自動分段標記 6.1.2 語者自動分段標記技術 6.1.3 語者自動分段標記評價指標 ▌6.2 聲紋模型訓練-- 以CNCeleb 為例 6.2.1 聲紋資料準備 6.2.2 I-Vector 訓練 6.2.3 X-Vector 訓練 6.2.4 LDA/PLDA 後端模型訓練 6.2.5 語者自動分段標記後端模型訓練 ▌6.3 本章小結 Chapter 07 基於Kaldi 的語音SDK 實現 ▌7.1 語音特徵提取 7.1.1 音訊讀取 7.1.2 音訊特徵提取 ▌7.2 基於WebRTC 的語音活動檢測 ▌7.3 語者自動分段標記模組 7.3.1 I-Vector 提取 7.3.2 X-Vector 提取 7.3.3 語者自動分段標記演算法實現 ▌7.4 語音辨識解碼 ▌7.5 本章小結 Chapter 08 基於gRPC 的語音辨識服務 ▌8.1 gRPC 語音服務 ▌8.2 ProtoBuf 協定定義 ▌8.3 基於gRPC 的語音服務實現 8.3.1 gRPC Server 實現 8.3.2 gRPC Client 實現 8.3.3 gRPC 語音服務的編譯與測試 ▌8.4 本章小結 Appendix A 參考文獻
作者簡介 楊學銳 大疆創新語音交互演算法負責人,復旦大學及Turku大學碩士,長期從事語音演算法、深度學習、人工智慧等領域的研究與商業落地,在相關領域發表多篇論文及專利。 晏超 北京郵電大學碩士,曾任職於HP Labs, Cisco, Technicolor等公司。 現為雲從科技語音演算法負責人,從事語音辨識、聲紋識別、說話人日誌、語音合成等方向的演算法研發工作,構建了雲從科技整套語音演算法引擎與應用服務平臺。 劉雪松 OPPO音訊演算法專家,復旦大學碩士,曾任職於美國國家儀器、聲網、雲從科技等公司。 在信號處理、音訊演算法和語音演算法等領域有豐富的實戰經驗,在相關領域發表多篇論文及專利。
客服公告
热门活动
订阅电子报