
第一作者:阮怡翔
通訊作者:莫一鳴
通訊單位:浙江大學(xué)化學(xué)工程與生物工程學(xué)院
論文DOI:10.1038/s41467-024-54457-x(點(diǎn)擊文末「閱讀原文」,直達(dá)鏈接)
近日,浙江大學(xué)莫一鳴研究員團(tuán)隊(duì)在國(guó)際頂級(jí)學(xué)術(shù)期刊《自然·通訊》(Nature Communications)上發(fā)表了一項(xiàng)自動(dòng)化化學(xué)合成開發(fā)平臺(tái)最新研究成果。該研究利用Opentrons自動(dòng)化移液工作站,結(jié)合一種基于大型語言模型(GPT-4)驅(qū)動(dòng)的反應(yīng)開發(fā)框架(LLM-RDF),成功應(yīng)用于銅/TEMPO催化的醇類氧化為醛的的全流程開發(fā),并在SNAr反應(yīng)、光催化C-C偶聯(lián)反應(yīng)和非均相光電化學(xué)反應(yīng)任務(wù)中進(jìn)一步驗(yàn)證了其適用性。
在該研究中,Opentrons自動(dòng)化移液工作站被用于進(jìn)行HTS底物篩選、動(dòng)力學(xué)研究和光催化反應(yīng)條件優(yōu)化等實(shí)驗(yàn)步驟。LLM-RDF通過將化學(xué)家的專業(yè)知識(shí)、LLM智能體的分析能力與開源的自動(dòng)化平臺(tái)相結(jié)合,顯著簡(jiǎn)化了傳統(tǒng)上以專家為主導(dǎo)的勞動(dòng)密集型反應(yīng)開發(fā)流程,極大地提升了實(shí)驗(yàn)效率。
背景介紹
在藥物研發(fā)和工藝開發(fā)中,設(shè)計(jì)合理的合成方案是核心任務(wù)之一。然而,由于設(shè)計(jì)空間巨大且需要實(shí)驗(yàn)驗(yàn)證,這一過程通常耗費(fèi)大量時(shí)間和成本。化學(xué)家和化學(xué)工程師需要反復(fù)進(jìn)行設(shè)計(jì)-合成-測(cè)試-分析循環(huán),以找到高效的合成方案,同時(shí)還需兼顧效率、成本、可持續(xù)性、安全性及雜質(zhì)控制等復(fù)雜需求,這使得單純使用算法或自動(dòng)化手段難以有效應(yīng)對(duì)。近年來,大語言模型(LLM)驅(qū)動(dòng)的智能體憑借對(duì)復(fù)雜非標(biāo)準(zhǔn)化輸入的靈活決策能力,在文獻(xiàn)數(shù)據(jù)挖掘、分子與材料設(shè)計(jì)、反應(yīng)條件優(yōu)化以及實(shí)驗(yàn)設(shè)備自動(dòng)化等化學(xué)與材料研究領(lǐng)域取得了顯著進(jìn)展。然而,目前LLM智能體在化學(xué)合成開發(fā)各階段的應(yīng)用仍較為分散,未能充分展現(xiàn)其在完整開發(fā)流程中的潛力。為此,該研究團(tuán)隊(duì)開發(fā)了一個(gè)基于LLM的反應(yīng)開發(fā)框架(LLM-RDF),以驗(yàn)證LLM智能體在化學(xué)合成反應(yīng)開發(fā)全流程中的適用性和高效性。
本文亮點(diǎn)
1. 覆蓋化學(xué)合成開發(fā)全流程:
開發(fā)了一個(gè)基于LLM的反應(yīng)開發(fā)框架(LLM-RDF),整合了從文獻(xiàn)搜索、高通量反應(yīng)篩選、反應(yīng)動(dòng)力學(xué)研究、反應(yīng)條件優(yōu)化和規(guī)模放大到產(chǎn)品純化的所有關(guān)鍵任務(wù),實(shí)現(xiàn)了對(duì)化學(xué)合成開發(fā)的全流程覆蓋。
2. 支持網(wǎng)頁(yè)交互:
開發(fā)網(wǎng)頁(yè)界面讓用戶以自然語言操作自動(dòng)化實(shí)驗(yàn)平臺(tái)和分析實(shí)驗(yàn)結(jié)果,無需編程技能,顯著降低了利用自動(dòng)化設(shè)備和機(jī)器學(xué)習(xí)算法進(jìn)行化學(xué)研究的技術(shù)門檻。
3. 廣泛適用性:
驗(yàn)證了LLM-RDF在SNAr反應(yīng)、光催化C-C偶聯(lián)反應(yīng)和非均相光電化學(xué)反應(yīng)中的高效性,展現(xiàn)了其在多種化學(xué)反應(yīng)領(lǐng)域的適用性。
主要研究?jī)?nèi)容

圖1 基于LLM的反應(yīng)開發(fā)框架(LLM-RDF)
典型的化學(xué)合成反應(yīng)開發(fā)流程包含五個(gè)主要步驟:(1)文獻(xiàn)檢索和信息提取,(2)底物范圍和條件篩選,(3)反應(yīng)動(dòng)力學(xué)研究,(4)反應(yīng)條件優(yōu)化,以及(5)反應(yīng)放大和產(chǎn)物純化(圖1a)。該研究在LLM-RDF中開發(fā)了一組基于大語言模型(GPT-4)的智能體,包括Literature Scouter、Experiment Designer、Hardware Executor、Spectrum Analyzer、Separation Instructor和Result Interpreter(圖1b),用于完成每個(gè)步驟中的核心任務(wù)?;瘜W(xué)家用戶可以通過網(wǎng)頁(yè)界面與LLM-RDF交互,使用自然語言描述任務(wù),LLM智能體提出建議或執(zhí)行操作后,由化學(xué)家進(jìn)行審查和決策直至完成任務(wù)(圖1c)。

圖2 LLM智能體驅(qū)動(dòng)的底物適用性與反應(yīng)條件高通量篩選
該研究選擇了好氧醇氧化這一新興的可持續(xù)醛類合成方法作為模式反應(yīng),并通過Literature Scouter獲取文獻(xiàn)中報(bào)道的銅/TEMPO催化醇氧化方法。隨后,對(duì)找到的醇氧化反應(yīng)方法開展了底物適用性和反應(yīng)條件的高通量篩選(HTS)。在此過程中,Experiment Designer解析了HTS實(shí)驗(yàn)任務(wù),隨后Hardware Executor將其轉(zhuǎn)化為OT-2移液工作站的Python執(zhí)行代碼,實(shí)現(xiàn)了自動(dòng)化實(shí)驗(yàn)操作(圖2b)。實(shí)驗(yàn)結(jié)束后,Spectrum Analyzer根據(jù)實(shí)驗(yàn)樣品的GC-FID-MS波譜數(shù)據(jù),自動(dòng)識(shí)別了底物和產(chǎn)物的特征質(zhì)譜峰,確定其保留時(shí)間,并對(duì)對(duì)應(yīng)的FID信號(hào)進(jìn)行積分得到反應(yīng)收率(圖2c-f)。最后,Result Interpreter智能體總結(jié)了HTS結(jié)果,發(fā)現(xiàn)堿DBU顯著優(yōu)于NMI,銅鹽活性順序?yàn)镃uCl2 < CuBr2 < Cu(OTf)2 ~ Cu(BF4)2。Result Interpreter同時(shí)還發(fā)現(xiàn)位于吸電子官能團(tuán)α位的醇羥基反應(yīng)活性有所增強(qiáng),但它仍不能對(duì)某些底物完全無法反應(yīng)的原因進(jìn)行深入分析。

圖3 LLM智能體驅(qū)動(dòng)的反應(yīng)動(dòng)力學(xué)研究
研究人員觀察到,在HTS實(shí)驗(yàn)中使用DMSO作為溶劑時(shí),反應(yīng)底物12s中伯羥基的氧化選擇性優(yōu)于其在文獻(xiàn)中使用MeCN作為溶劑時(shí)的情況(圖3b)。為進(jìn)一步研究這種溶劑效應(yīng),該團(tuán)隊(duì)開展了動(dòng)力學(xué)研究。在此過程中,Experiment Designer設(shè)計(jì)了一個(gè)為期10小時(shí)的采樣方案(圖3c)。隨后,Hardware Executor生成了OT-2移液工作站的運(yùn)行代碼,實(shí)現(xiàn)了自動(dòng)采樣操作。采集到的反應(yīng)樣品通過1H NMR進(jìn)行分析,Spectrum Analyzer基于目標(biāo)產(chǎn)物12p的化學(xué)位移信息,自動(dòng)識(shí)別NMR峰、完成峰面積積分并計(jì)算樣品組成(圖3d)。最后,Result Interpreter基于實(shí)驗(yàn)結(jié)果擬合動(dòng)力學(xué)模型,計(jì)算反應(yīng)速率常數(shù)(k?、k?、k?),并發(fā)現(xiàn)在MeCN中產(chǎn)物過氧化速率常數(shù)(k?)顯著高于DMSO,表明溶劑對(duì)反應(yīng)選擇性具有重要影響(圖3e)。

圖4 LLM智能體驅(qū)動(dòng)的反應(yīng)條件優(yōu)化
該研究團(tuán)隊(duì)同時(shí)對(duì)二元醇底物12s進(jìn)行了反應(yīng)條件優(yōu)化,以最大化反應(yīng)收率。通過網(wǎng)頁(yè)界面以自然語言描述優(yōu)化任務(wù)后,Experiment Designer和Hardware Executor智能體將信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并傳遞至自驅(qū)動(dòng)優(yōu)化平臺(tái)。該平臺(tái)由貝葉斯優(yōu)化器、自動(dòng)化合成設(shè)備和HPLC組成,分別負(fù)責(zé)提出新反應(yīng)條件、執(zhí)行實(shí)驗(yàn)和分析結(jié)果,實(shí)時(shí)優(yōu)化進(jìn)展會(huì)顯示在網(wǎng)頁(yè)界面中供用戶查看(圖4a)。優(yōu)化過程中采用了基于PI準(zhǔn)則(計(jì)算新條件是否可能成為最優(yōu)條件的可能性)的停止策略。在36次實(shí)驗(yàn)后,PI停止準(zhǔn)則被滿足,找到了多個(gè)高收率反應(yīng)條件(圖4b-c)。同時(shí)Result Interpreter在第26次實(shí)驗(yàn)后建議終止,其指出反應(yīng)收率已接近理論最大值,且反應(yīng)空間探索已充分。如按此建議終止可減少10次實(shí)驗(yàn),且優(yōu)化結(jié)果無明顯差異(圖4d)。這表明Result Interpreter在優(yōu)化過程中有效平衡了探索和利用(exploration and exploitation),體現(xiàn)出了其決策的合理性。

圖5 LLM智能體驅(qū)動(dòng)的反應(yīng)規(guī)模放大和產(chǎn)物純化
基于前期優(yōu)化的高產(chǎn)率條件,由Experiment Designer選擇了第35次實(shí)驗(yàn)的條件(反應(yīng)時(shí)間45分鐘、催化劑Cu(OTf)?、1.34當(dāng)量的堿DBU)進(jìn)行規(guī)模放大(圖5c)。隨后,Experiment Designer提出了逐級(jí)放大策略:先在1 g規(guī)模驗(yàn)證反應(yīng)的可重復(fù)性和穩(wěn)定性,再擴(kuò)展至100 g規(guī)模評(píng)估工業(yè)生產(chǎn)可行性,其中強(qiáng)調(diào)了氣液兩相有效接觸和充足氧氣供應(yīng)的重要性,并精確計(jì)算了試劑配比,研究人員隨后基于此進(jìn)行了1 g規(guī)模的放大實(shí)驗(yàn)。純化階段,Separation Instructor經(jīng)兩輪決策后確定洗脫液比例為正己烷:乙酸乙酯=3:1,此條件下目標(biāo)產(chǎn)物12p的Rf值為0.28,雜質(zhì)的Rf值為0.49,達(dá)到有效分離(圖5b)。最終,使用自動(dòng)過柱機(jī)分離得到915 mg產(chǎn)品,純度>98%,分離收率為86%(圖5d)。

圖6 LLM-RDF在實(shí)際化學(xué)合成開發(fā)任務(wù)中的應(yīng)用
該研究團(tuán)隊(duì)進(jìn)一步探索了LLM-RDF在實(shí)際化學(xué)合成開發(fā)任務(wù)中的適用性,通過了三個(gè)具體案例進(jìn)行驗(yàn)證:親核芳香取代(SNAr)反應(yīng)的反應(yīng)動(dòng)力學(xué)研究,光催化C-C交叉偶聯(lián)反應(yīng)的反應(yīng)條件優(yōu)化,以及非均相光電化學(xué)反應(yīng)器的放大設(shè)計(jì)(圖6)。
總結(jié)與展望
此研究開發(fā)了一個(gè)基于LLM的反應(yīng)開發(fā)框架(LLM-RDF),成功實(shí)現(xiàn)了醇類氧化為醛反應(yīng)從文獻(xiàn)檢索到產(chǎn)品純化的全流程開發(fā)。隨后,LLM-RDF在三個(gè)實(shí)際化學(xué)合成開發(fā)任務(wù)中進(jìn)一步驗(yàn)證了其適用性,展現(xiàn)了其在合成方法搜索、自動(dòng)化設(shè)備代碼生成、波譜分析、化學(xué)計(jì)量計(jì)算、分離條件優(yōu)化和反應(yīng)器設(shè)計(jì)等任務(wù)中的自主研究與決策能力。通過結(jié)合化學(xué)家、LLM智能體和自動(dòng)化實(shí)驗(yàn)平臺(tái),LLM-RDF顯著簡(jiǎn)化了傳統(tǒng)上以專家為主導(dǎo)的勞動(dòng)密集型反應(yīng)開發(fā)流程。此研究中,智能體之間的通信仍通過人為中介完成,以審查實(shí)驗(yàn)計(jì)劃和結(jié)果。未來,隨著LLM可靠性進(jìn)一步提升,可開發(fā)類似AutoGen框架的多智能體系統(tǒng),實(shí)現(xiàn)智能體直接通信,減少人工介入,僅在關(guān)鍵決策時(shí)提供支持,從而大幅提升反應(yīng)開發(fā)的自主性和效率,為化學(xué)合成開發(fā)的智能化和自動(dòng)化奠定基礎(chǔ)。
課程組介紹
智能電化學(xué)微反應(yīng)過程課題組以高附加值化學(xué)的智能與綠色合成為目標(biāo),融合化學(xué)工程、人工智能、自動(dòng)化高通量裝備等交叉領(lǐng)域技術(shù),開發(fā)新型合成方法、自動(dòng)化篩選核心器件、自驅(qū)動(dòng)人工智能算法與無人實(shí)驗(yàn)室平臺(tái)。課題組至今在Science(2篇),Nat. Comm., Angew. Chem.等雜志已發(fā)表多篇高水平論文。課題組組長(zhǎng)莫一鳴博士,博導(dǎo),本科畢業(yè)于清華大學(xué),博士畢業(yè)于麻省理工學(xué)院,國(guó)家級(jí)青年人才,國(guó)家重點(diǎn)研發(fā)計(jì)劃青年首席科學(xué)家,曾入選“35歲以下科技創(chuàng)新35人”中國(guó)區(qū)榜單。
*本文轉(zhuǎn)載自《研之成理》公眾號(hào),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系刪除。
經(jīng)驗(yàn)豐富的服務(wù)團(tuán)隊(duì)和強(qiáng)大的生產(chǎn)支持團(tuán)隊(duì)為客戶提供無憂的訂單服務(wù)。
簡(jiǎn)體中文
繁體中文
English
日本語
???