前言
GSK和劍橋大學的研究者在預印版發表了自己的研究結果:一種結合機器學習(ML)與動力學模型的混合方法,用于預測CHO細胞在微小型培養體系(包括Beacon®,孔板,flask)中的表現,該模型為生物制藥行業提供數字化決策工具。
其中,在Beacon®單細胞光導系統上完成了單細胞克隆,初始細胞株篩選以及實驗數據(Cp, Qp)的收集。
01研究背景和方法
針對細胞株開發(CLD)流程中“傳統方法需要6-12個月篩選數百個細胞株,早期小規模數據無法預測后期生物反應器性能"的行業痛點,研究者創新性地提出混合模型——用機器學習預測動力學參數,再用動力學模型模擬代謝曲線,即:
步驟1:通過動力學模型(MCKM)將Ambr15™的高維代謝數據壓縮為13個關鍵參數。
步驟2:用ML建立"小規模數據→動力學參數"的映射關系。
步驟3:將ML預測參數反饋至MCKM,生成可解釋的代謝曲線預測。

圖1. 該混合模型的示意圖概覽:以早期CLD數據作為輸入,預測后期CLD結果。(a) 輸入結構及(b) 輸出結構均基于CLD數據構建。細胞株數量(n)代表本研究所用數據集中,針對單個單抗靶點開發執行單次CLD流程的數值。
02核心結論
預測性能:
高精度:VCC細胞生長和mAb抗體滴度預測最佳(R2=0.80?0.88,R2 =0.80?0.88,pRMSE=8.5-11.2%)。
中等精度:銨(AMM)預測合理(R2=0.67,R2=0.67,pRMSE=10.0%)。
低精度:葡萄糖(GLC)、谷氨酰胺(GLN)、乳酸(LAC)誤差較高(pRMSE=20-30%),主因是動力學模型回歸偏差及培養補料策略的細胞株特異性變異。
穩定性預測:AMM曲線預測能力為早期評估細胞株穩定性提供依據。


圖2. 混合模型對代謝物曲線的預測結果圖,繪制了所有測試細胞株在各時間點的實驗值(真實值)與預測值對比。(a) 測試集結果,數據來源于四個歷史CLD項目,訓練集與測試集按80%/20%劃分(訓練樣本量N=112);(b) 新測試集結果,該數據集為包含15個細胞株的未知CLD數據,呈現多樣化的細胞株行為特征。此預測基于四個歷史CLD項目100%數據訓練的混合模型(訓練樣本量N=140)。
小結
借助Beacon®單細胞光導系統,研究者完成了全自動的單細胞克隆,初始細胞株篩選以及實驗數據(Cp, Qp)的收集,細胞株及實驗數據用于一種新的結合機器學習(ML)與動力學模型的混合方法的數據投喂和驗證。該方法顯著提升篩選效率:僅需早期小規模數據即可預測Ambr15™表現,減少后期實驗負擔,縮短CLD周期20-40%。
相關產品
免責聲明
- 凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
- 本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
- 如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。