|
近日,中國科學(xué)院軟件研究所團(tuán)隊開源第二代幻燈片智能體系統(tǒng)DeepPresenter,實現(xiàn)了將幻燈片智能體模型與完整的智能體沙箱環(huán)境一同開源,可在單張消費級顯卡和終端上一鍵部署,并適配國產(chǎn)化算力生態(tài)。該成果重構(gòu)了AI制作幻燈片邏輯,使智能體不僅能“深度探索”,還能“親眼所見”。
在內(nèi)容生成方面,團(tuán)隊構(gòu)建了包含20余種專業(yè)工具的共享智能體環(huán)境,集成了基于Docker的智能體沙箱、arXiv實時文獻(xiàn)檢索,以及Python代碼執(zhí)行與數(shù)據(jù)可視化等能力,為幻燈片內(nèi)容的專業(yè)性與數(shù)據(jù)準(zhǔn)確性提供保障。在排版優(yōu)化方面,團(tuán)隊提出了環(huán)境感知反思機制。這一機制通過“生成—渲染—審視—修正”的視覺閉環(huán)工作流,使智能體在每頁幻燈片生成后,調(diào)用沙箱內(nèi)瀏覽器將代碼渲染為真實圖片,并基于截圖進(jìn)行自適應(yīng)檢查與迭代優(yōu)化,直至排版效果達(dá)到預(yù)期標(biāo)準(zhǔn)。在模型訓(xùn)練方面,團(tuán)隊設(shè)計了系統(tǒng)化的訓(xùn)練流水線。該訓(xùn)練流水線基于PersonaHub與arXiv等多源數(shù)據(jù)集構(gòu)建高多樣性任務(wù)數(shù)據(jù),并在指令中定義頁數(shù)限制、寬高比及語言等細(xì)粒度約束條件;引入獨立評審機制以克服智能體的自我驗證偏差,由獨立模型作為外部評估者指出生成產(chǎn)物中的排版或邏輯缺陷;在1152個任務(wù)中篩選出802條高質(zhì)量智能體軌跡用于監(jiān)督微調(diào)訓(xùn)練,涵蓋中英雙語、多種寬高比及復(fù)雜指令約束場景。
為驗證有效性,團(tuán)隊在預(yù)留的128個測試任務(wù)中使用PPTEval進(jìn)行系統(tǒng)評測,并與多種主流幻燈片生成方案進(jìn)行對比。結(jié)果顯示,DeepPresenter(pptagent 2.0)9B版本獲得4.19綜合評分,與閉源模型GPT-5(4.22)表現(xiàn)接近,優(yōu)于其他幻燈片生成方案。成本—性能分析表明,DeepPresenter-9B處于前沿曲線的最優(yōu)平衡點位置,能以低于閉源模型的算力成本實現(xiàn)同等級別的生成質(zhì)量。所有生成內(nèi)容均輸出為可編輯的pptx格式,支持用戶自由修改與二次創(chuàng)作。


 |