
第一作者:阮怡翔
通訊作者:莫一鳴
通訊單位:浙江大學(xué)化學(xué)工程與生物工程學(xué)院
論文DOI:10.1038/s41467-024-54457-x(點擊文末「閱讀原文」,直達鏈接)
近日,浙江大學(xué)莫一鳴研究員團隊在國際頂級學(xué)術(shù)期刊《自然·通訊》(Nature Communications)上發(fā)表了一項自動化化學(xué)合成開發(fā)平臺最新研究成果。該研究利用Opentrons自動化移液工作站,結(jié)合一種基于大型語言模型(GPT-4)驅(qū)動的反應(yīng)開發(fā)框架(LLM-RDF),成功應(yīng)用于銅/TEMPO催化的醇類氧化為醛的的全流程開發(fā),并在SNAr反應(yīng)、光催化C-C偶聯(lián)反應(yīng)和非均相光電化學(xué)反應(yīng)任務(wù)中進一步驗證了其適用性。
在該研究中,Opentrons自動化移液工作站被用于進行HTS底物篩選、動力學(xué)研究和光催化反應(yīng)條件優(yōu)化等實驗步驟。LLM-RDF通過將化學(xué)家的專業(yè)知識、LLM智能體的分析能力與開源的自動化平臺相結(jié)合,顯著簡化了傳統(tǒng)上以專家為主導(dǎo)的勞動密集型反應(yīng)開發(fā)流程,極大地提升了實驗效率。
背景介紹
在藥物研發(fā)和工藝開發(fā)中,設(shè)計合理的合成方案是核心任務(wù)之一。然而,由于設(shè)計空間巨大且需要實驗驗證,這一過程通常耗費大量時間和成本?;瘜W(xué)家和化學(xué)工程師需要反復(fù)進行設(shè)計-合成-測試-分析循環(huán),以找到高效的合成方案,同時還需兼顧效率、成本、可持續(xù)性、安全性及雜質(zhì)控制等復(fù)雜需求,這使得單純使用算法或自動化手段難以有效應(yīng)對。近年來,大語言模型(LLM)驅(qū)動的智能體憑借對復(fù)雜非標(biāo)準(zhǔn)化輸入的靈活決策能力,在文獻數(shù)據(jù)挖掘、分子與材料設(shè)計、反應(yīng)條件優(yōu)化以及實驗設(shè)備自動化等化學(xué)與材料研究領(lǐng)域取得了顯著進展。然而,目前LLM智能體在化學(xué)合成開發(fā)各階段的應(yīng)用仍較為分散,未能充分展現(xiàn)其在完整開發(fā)流程中的潛力。為此,該研究團隊開發(fā)了一個基于LLM的反應(yīng)開發(fā)框架(LLM-RDF),以驗證LLM智能體在化學(xué)合成反應(yīng)開發(fā)全流程中的適用性和高效性。
本文亮點
1. 覆蓋化學(xué)合成開發(fā)全流程:
開發(fā)了一個基于LLM的反應(yīng)開發(fā)框架(LLM-RDF),整合了從文獻搜索、高通量反應(yīng)篩選、反應(yīng)動力學(xué)研究、反應(yīng)條件優(yōu)化和規(guī)模放大到產(chǎn)品純化的所有關(guān)鍵任務(wù),實現(xiàn)了對化學(xué)合成開發(fā)的全流程覆蓋。
2. 支持網(wǎng)頁交互:
開發(fā)網(wǎng)頁界面讓用戶以自然語言操作自動化實驗平臺和分析實驗結(jié)果,無需編程技能,顯著降低了利用自動化設(shè)備和機器學(xué)習(xí)算法進行化學(xué)研究的技術(shù)門檻。
3. 廣泛適用性:
驗證了LLM-RDF在SNAr反應(yīng)、光催化C-C偶聯(lián)反應(yīng)和非均相光電化學(xué)反應(yīng)中的高效性,展現(xiàn)了其在多種化學(xué)反應(yīng)領(lǐng)域的適用性。
主要研究內(nèi)容

圖1 基于LLM的反應(yīng)開發(fā)框架(LLM-RDF)
典型的化學(xué)合成反應(yīng)開發(fā)流程包含五個主要步驟:(1)文獻檢索和信息提取,(2)底物范圍和條件篩選,(3)反應(yīng)動力學(xué)研究,(4)反應(yīng)條件優(yōu)化,以及(5)反應(yīng)放大和產(chǎn)物純化(圖1a)。該研究在LLM-RDF中開發(fā)了一組基于大語言模型(GPT-4)的智能體,包括Literature Scouter、Experiment Designer、Hardware Executor、Spectrum Analyzer、Separation Instructor和Result Interpreter(圖1b),用于完成每個步驟中的核心任務(wù)。化學(xué)家用戶可以通過網(wǎng)頁界面與LLM-RDF交互,使用自然語言描述任務(wù),LLM智能體提出建議或執(zhí)行操作后,由化學(xué)家進行審查和決策直至完成任務(wù)(圖1c)。

圖2 LLM智能體驅(qū)動的底物適用性與反應(yīng)條件高通量篩選
該研究選擇了好氧醇氧化這一新興的可持續(xù)醛類合成方法作為模式反應(yīng),并通過Literature Scouter獲取文獻中報道的銅/TEMPO催化醇氧化方法。隨后,對找到的醇氧化反應(yīng)方法開展了底物適用性和反應(yīng)條件的高通量篩選(HTS)。在此過程中,Experiment Designer解析了HTS實驗任務(wù),隨后Hardware Executor將其轉(zhuǎn)化為OT-2移液工作站的Python執(zhí)行代碼,實現(xiàn)了自動化實驗操作(圖2b)。實驗結(jié)束后,Spectrum Analyzer根據(jù)實驗樣品的GC-FID-MS波譜數(shù)據(jù),自動識別了底物和產(chǎn)物的特征質(zhì)譜峰,確定其保留時間,并對對應(yīng)的FID信號進行積分得到反應(yīng)收率(圖2c-f)。最后,Result Interpreter智能體總結(jié)了HTS結(jié)果,發(fā)現(xiàn)堿DBU顯著優(yōu)于NMI,銅鹽活性順序為CuCl2 < CuBr2 < Cu(OTf)2 ~ Cu(BF4)2。Result Interpreter同時還發(fā)現(xiàn)位于吸電子官能團α位的醇羥基反應(yīng)活性有所增強,但它仍不能對某些底物完全無法反應(yīng)的原因進行深入分析。

圖3 LLM智能體驅(qū)動的反應(yīng)動力學(xué)研究
研究人員觀察到,在HTS實驗中使用DMSO作為溶劑時,反應(yīng)底物12s中伯羥基的氧化選擇性優(yōu)于其在文獻中使用MeCN作為溶劑時的情況(圖3b)。為進一步研究這種溶劑效應(yīng),該團隊開展了動力學(xué)研究。在此過程中,Experiment Designer設(shè)計了一個為期10小時的采樣方案(圖3c)。隨后,Hardware Executor生成了OT-2移液工作站的運行代碼,實現(xiàn)了自動采樣操作。采集到的反應(yīng)樣品通過1H NMR進行分析,Spectrum Analyzer基于目標(biāo)產(chǎn)物12p的化學(xué)位移信息,自動識別NMR峰、完成峰面積積分并計算樣品組成(圖3d)。最后,Result Interpreter基于實驗結(jié)果擬合動力學(xué)模型,計算反應(yīng)速率常數(shù)(k?、k?、k?),并發(fā)現(xiàn)在MeCN中產(chǎn)物過氧化速率常數(shù)(k?)顯著高于DMSO,表明溶劑對反應(yīng)選擇性具有重要影響(圖3e)。

圖4 LLM智能體驅(qū)動的反應(yīng)條件優(yōu)化
該研究團隊同時對二元醇底物12s進行了反應(yīng)條件優(yōu)化,以最大化反應(yīng)收率。通過網(wǎng)頁界面以自然語言描述優(yōu)化任務(wù)后,Experiment Designer和Hardware Executor智能體將信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并傳遞至自驅(qū)動優(yōu)化平臺。該平臺由貝葉斯優(yōu)化器、自動化合成設(shè)備和HPLC組成,分別負(fù)責(zé)提出新反應(yīng)條件、執(zhí)行實驗和分析結(jié)果,實時優(yōu)化進展會顯示在網(wǎng)頁界面中供用戶查看(圖4a)。優(yōu)化過程中采用了基于PI準(zhǔn)則(計算新條件是否可能成為最優(yōu)條件的可能性)的停止策略。在36次實驗后,PI停止準(zhǔn)則被滿足,找到了多個高收率反應(yīng)條件(圖4b-c)。同時Result Interpreter在第26次實驗后建議終止,其指出反應(yīng)收率已接近理論最大值,且反應(yīng)空間探索已充分。如按此建議終止可減少10次實驗,且優(yōu)化結(jié)果無明顯差異(圖4d)。這表明Result Interpreter在優(yōu)化過程中有效平衡了探索和利用(exploration and exploitation),體現(xiàn)出了其決策的合理性。

圖5 LLM智能體驅(qū)動的反應(yīng)規(guī)模放大和產(chǎn)物純化
基于前期優(yōu)化的高產(chǎn)率條件,由Experiment Designer選擇了第35次實驗的條件(反應(yīng)時間45分鐘、催化劑Cu(OTf)?、1.34當(dāng)量的堿DBU)進行規(guī)模放大(圖5c)。隨后,Experiment Designer提出了逐級放大策略:先在1 g規(guī)模驗證反應(yīng)的可重復(fù)性和穩(wěn)定性,再擴展至100 g規(guī)模評估工業(yè)生產(chǎn)可行性,其中強調(diào)了氣液兩相有效接觸和充足氧氣供應(yīng)的重要性,并精確計算了試劑配比,研究人員隨后基于此進行了1 g規(guī)模的放大實驗。純化階段,Separation Instructor經(jīng)兩輪決策后確定洗脫液比例為正己烷:乙酸乙酯=3:1,此條件下目標(biāo)產(chǎn)物12p的Rf值為0.28,雜質(zhì)的Rf值為0.49,達到有效分離(圖5b)。最終,使用自動過柱機分離得到915 mg產(chǎn)品,純度>98%,分離收率為86%(圖5d)。

圖6 LLM-RDF在實際化學(xué)合成開發(fā)任務(wù)中的應(yīng)用
該研究團隊進一步探索了LLM-RDF在實際化學(xué)合成開發(fā)任務(wù)中的適用性,通過了三個具體案例進行驗證:親核芳香取代(SNAr)反應(yīng)的反應(yīng)動力學(xué)研究,光催化C-C交叉偶聯(lián)反應(yīng)的反應(yīng)條件優(yōu)化,以及非均相光電化學(xué)反應(yīng)器的放大設(shè)計(圖6)。
總結(jié)與展望
此研究開發(fā)了一個基于LLM的反應(yīng)開發(fā)框架(LLM-RDF),成功實現(xiàn)了醇類氧化為醛反應(yīng)從文獻檢索到產(chǎn)品純化的全流程開發(fā)。隨后,LLM-RDF在三個實際化學(xué)合成開發(fā)任務(wù)中進一步驗證了其適用性,展現(xiàn)了其在合成方法搜索、自動化設(shè)備代碼生成、波譜分析、化學(xué)計量計算、分離條件優(yōu)化和反應(yīng)器設(shè)計等任務(wù)中的自主研究與決策能力。通過結(jié)合化學(xué)家、LLM智能體和自動化實驗平臺,LLM-RDF顯著簡化了傳統(tǒng)上以專家為主導(dǎo)的勞動密集型反應(yīng)開發(fā)流程。此研究中,智能體之間的通信仍通過人為中介完成,以審查實驗計劃和結(jié)果。未來,隨著LLM可靠性進一步提升,可開發(fā)類似AutoGen框架的多智能體系統(tǒng),實現(xiàn)智能體直接通信,減少人工介入,僅在關(guān)鍵決策時提供支持,從而大幅提升反應(yīng)開發(fā)的自主性和效率,為化學(xué)合成開發(fā)的智能化和自動化奠定基礎(chǔ)。
課程組介紹
智能電化學(xué)微反應(yīng)過程課題組以高附加值化學(xué)的智能與綠色合成為目標(biāo),融合化學(xué)工程、人工智能、自動化高通量裝備等交叉領(lǐng)域技術(shù),開發(fā)新型合成方法、自動化篩選核心器件、自驅(qū)動人工智能算法與無人實驗室平臺。課題組至今在Science(2篇),Nat. Comm., Angew. Chem.等雜志已發(fā)表多篇高水平論文。課題組組長莫一鳴博士,博導(dǎo),本科畢業(yè)于清華大學(xué),博士畢業(yè)于麻省理工學(xué)院,國家級青年人才,國家重點研發(fā)計劃青年首席科學(xué)家,曾入選“35歲以下科技創(chuàng)新35人”中國區(qū)榜單。
*本文轉(zhuǎn)載自《研之成理》公眾號,版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系刪除。
經(jīng)驗豐富的服務(wù)團隊和強大的生產(chǎn)支持團隊為客戶提供無憂的訂單服務(wù)。
簡體中文
繁體中文
English
日本語
???