AI for Chemistry, AI for Drug 領域,各大公司非常關注,英偉達研究團隊推出的 ReaSyn 分子合成推理框架,能基于文獻中的分子合成數據優化路徑設計;谷歌 DeepMind 推出的藥物研發專用大模型 TxGemma,可完成生物化學文獻篩選、分子結構和作用機制提取、藥物特性預測等核心任務。
2025 年,清華大學研究團隊發表重磅研究《ReactionSeek: 基于大語言模型的有機合成文獻數據挖掘與知識發現》。該研究成功提取了《Organic Syntheses》雜志自 1921 年以來的全部文獻數據,自動構建有機合成知識庫,而支撐這一成果的核心化學結構式圖像識別模塊,采用了鷹谷信息的 InDraw 結構式編輯器 AI 圖像識別功能。
圖:清華大學應用 InDraw 圖像識別技術發表論文
AI for Chemistry, AI for Drug 的核心,在于 AI 能理解化學、生物。在化學領域,AI 能理解化學了嗎?只有 AI 能理解化學,才能真正實現 AI 設計藥物分子結構。而 AI 理解化學的第一步,就是 AI 結構式圖像識別,把化學結構式圖片,識別成計算機可處理的化學數據(原理如下圖)。
圖:InDraw正在進行圖像識別
差距幾何?國際頂尖化學結構圖像識別模型實力拆解
化學結構圖像識別是文獻數字化的關鍵環節,直接影響科研效率。當前國際主流頂尖模型以 MolScribe 與 MolNextr 為代表,二者憑借創新架構設計與化學知識融合策略,在該領域展現出優異性能,相關技術成果已發表于權威學術期刊,其核心優勢與能力均有充分的實驗數據支撐,MolScribe 與 MolNextr 的識別能力如下圖所示。
圖:MolScribe 大模型在各公開測試集識別準確率
圖:MolNextr 大模型在各公開測試集識別準確率
來自中國的 InDraw AI 結構式圖像識別,是否和這些國際頂尖化學結構圖像識別模型有差距?要客觀評判 InDraw 與 MolScribe、MolNextr 的識別能力差異,以下借助權威公開測試數據開展量化對比,通過統一的測試標準直觀呈現三者的性能表現。
InDraw 的 AI 結構式圖像識別實測數據
在 CLEF、UOB、JPO、USPTO 四大權威公開測試集中,InDraw 的識別實力直接 “斷層領先” 同類工具:
UOB 測試集拿下 99.73% 的超高準確率,比 MolNextr 高出 11.23 個百分點;CLEF 測試集 98.62% 的成績,甩開第二名 MolNextr 足足 8.22 個百分點;JPO 測試集里,InDraw90.22% 的表現,比 MolNextr 領先 8.12 個百分點;哪怕是競爭最激烈的 USPTO 測試集,InDraw 也以 94.67% 的準確率,領先 MolNextr0.87 個百分點,展現了強勁的識別能力!
實際案例
Round 1:模糊圖識別對比
在高度模糊化學結構圖像的識別任務中,三款模型均展現出較高的識別精度,其中 MolScribe 僅存在輕微識別誤差。從“識別即可用”的實際應用需求來看,僅 InDraw 可直接滿足該標準;MolNextr 雖能實現結構的完整正確識別,但分子結構的還原度欠佳,后續需耗費與重新繪制相近的時間用于調整結構位置及角度,難以直接投入實際應用。
Round 2:超大結構識別對比
對于復雜化學結構的識別任務,三款模型的基礎識別精度均能滿足需求,其性能差異主要體現在結構還原度層面。其中,MolScribe 對苯環結構的顯示形式局限于凱庫勒式,且在結構轉換過程中存在輕微苯環扭曲現象,該差異在放大觀察時更為顯著;MolNextr 的識別結果優于 MolScribe,可支持苯環的鮑林式顯示,但對特殊化學鍵的還原效果欠佳;InDraw 的結構還原度表現優異,基本可實現 “識別即用” 的需求,此外,MolNextr 的識別結果整體亦具備較高質量。
Round 3:2.5D 結構識別對比
2.5D 結構識別長期以來是化學結構圖像識別領域的技術難點。測試結果顯示,MolScribe 在該類結構識別任務中具備不錯的識別精度,但結構還原度表現欠佳,相對位置發生了變化;MolNextr 的 2.5D 結構識別結果實用性較低,基本無法直接投入應用;InDraw 能正確識別結構式并保持相對位置,其輸出的識別結果可顯著降低人工繪制工作量。
小結
實際應用場景中,InDraw 的化學結構識別功能表現突出:針對模糊圖像、復雜結構及 2.5D 結構等典型挑戰性場景,均能精準捕獲核心結構信息,識別結果可較好還原分子真實結構,基本無需人工二次修正。相較之下,同類競品識別模型的輸出結果多需復雜人工校準,其耗時與重新繪制分子結構或無顯著差異;而 InDraw 的識別結果可直接支撐后續科研應用,為您的高效化學探索之旅持續提供可靠支撐。
①凡本網注明:“來源:Integle鷹谷”的所有作品,版權均屬于Integle鷹谷,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:Integle鷹谷”。違反上述聲明者,本網將追究其相關法律責任。
②凡本網注明:“來源:XXX(非Integle鷹谷)”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
③如因作品內容、版權和其它問題需要同本網聯系的,請在30日內進行。