预购商品
书目分类
特别推荐
本書是關於如何從零開始構建大模型的指南,由暢銷書作家塞巴斯蒂安·拉施卡撰寫,通過清晰的文字、圖表和實例,逐步指導讀者創建自己的大模型。 在本書中,讀者將學習如何規劃和編寫大模型的各個組成部分、為大模型訓練準備適當的數據集、進行通用語料庫的預訓練,以及定制特定任務的微調。此外,本書還將探討如何利用人工反饋確保大模型遵循指令,以及如何將預訓練權重加載到大模型中。 本書適合對機器學習和生成式AI感興趣的讀者閱讀,特別是那些希望從零開始構建自己的大模型的讀者。
第1章 理解大語言模型 1.1 什麼是大語言模型 1.2 大語言模型的應用 1.3 構建和使用大語言模型的各個階段 1.4 Transformer架構介紹 1.5 利用大型數據集 1.6 深入剖析GPT架構 1.7 構建大語言模型 1.8 小結 第2章 處理文本數據 2.1 理解詞嵌入 2.2 文本分詞 2.3 將詞元轉換為詞元ID 2.4 引入特殊上下文詞元 2.5 BPE 2.6 使用滑動窗口進行數據採樣 2.7 創建詞元嵌入 2.8 編碼單詞位置信息 2.9 小結 第3章 編碼注意力機制 3.1 長序列建模中的問題 3.2 使用注意力機制捕捉數據依賴關係 3.3 通過自注意力機制關注輸入的不同部分 3.3.1 無可訓練權重的簡單自注意力機制 3.3.2 計算所有輸入詞元的注意力權重 3.4 實現帶可訓練權重的自注意力機制 3.4.1 逐步計算注意力權重 3.4.2 實現一個簡化的自注意力Python類 3.5 利用因果注意力隱藏未來詞匯 3.5.1 因果注意力的掩碼實現 3.5.2 利用dropout掩碼額外的注意力權重 3.5.3 實現一個簡化的因果注意力類 3.6 將單頭注意力擴展到多頭注意力 3.6.1 疊加多個單頭注意力層 3.6.2 通過權重劃分實現多頭注意力 3.7 小結 第4章 從頭實現GPT模型進行文本生成 4.1 構建一個大語言模型架構 4.2 使用層歸一化進行歸一化* 4.3 實現具有GELU*函數的前饋神經網絡 4.4 添加快捷連接 4.5 連接Transformer塊中的注意力層和線性層 4.6 實現GPT模型 4.7 生成文本 4.8 小結 第5章 在無標簽數據上進行預訓練 5.1 評估文本生成模型 5.1.1 使用GPT來生成文本 5.1.2 計算文本生成損失 5.1.3 計算訓練集和驗證集的損失 5.2 訓練大語言模型 5.3 控制隨機性的解碼策略 5.3.1 溫度縮放 5.3.2 Top-k採樣 5.3.3 修改文本生成函數 5.4 使用PyTorch加載和保存模型權重 5.5 從OpenAI加載預訓練權重 5.6 小結 第6章 針對分類的微調 6.1 不同類型的微調 6.2 準備數據集 6.3 創建數據加載器 6.4 初始化帶有預訓練權重的模型 6.5 添加分類頭 6.6 計算分類損失和*率 6.7 在有監督數據上微調模型 6.8 使用大語言模型作為垃圾消息分類器 6.9 小結 第7章 通過微調遵循人類指令 7.1 指令微調介紹 7.2 為有監督指令微調準備數據集 7.3 將數據組織成訓練批次 7.4 創建指令數據集的數據加載器 7.5 加載預訓練的大語言模型 7.6 在指令數據上微調大語言模型 7.7 抽取並保存模型回復 7.8 評估微調後的大語言模型 7.9 結論 7.9.1 下一步 7.9.2 跟上領域的*進展 7.9.3 寫在* 7.10 小結 附錄A PyTorch簡介 附錄B 參考文獻和延伸閱讀 附錄C 練習的解決方案 附錄D 為訓練循環添加更多細節和優化功能 附錄E 使用LoRA進行參數*微調 附錄F 理解推理大語言模型:構建與優化推理模型的方法和策略
塞巴斯蒂安·拉施卡(Sebastian Raschka)從密歇根州立大學獲得博士學位,在此期間他主要關注計算生物學和機器學習交叉領域的方法研究。他在2018年夏季加入威斯康星-麥迪遜大學,擔任統計學助理教授。他的主要研究活動包括開發新的深度學習體系結構來解決生物統計學領域的問題。 Sebastian在Python編程方面擁有多年經驗,多年來針對數據科學、機器學習和深度學習的實際應用組織過多次研討會,並在SciPy(重要的Python科學計算會議)上發佈過機器學習教程。 本書是Sebastian的主要學術成就之一,也是Packt和Amazon.com的暢銷書之一,曾獲《ACM計算評論》2016年度最佳獎,並被翻譯成包括德文、韓文、中文、日文、俄文、波蘭文和意大利文在內的多種語言。 在閒暇時間裡,Sebastian熱衷於為開源項目做貢獻,他所實現的方法現已成功用於像Kaggle這樣的機器學習競賽。
最近浏览商品
客服公告
热门活动
订阅电子报