科學家們利用 NVIDIA BioNeMo 框架支援大型語言模型生成優質蛋白質,加快藥物設計速度並有助於創造更永續的環境。
新創公司 Evozyne 使用 NVIDIA 預先訓練好的人工智慧 (AI) 模型,創造出兩種在醫療照護與潔淨能源方面具有巨大發展潛力的蛋白質。
在今日發表的一篇合著論文中描述了該過程及其產生的生物構成原料。一個旨在治療先天性疾病,另一個則是用於消耗二氧化碳以減緩全球暖化。這些初步成果展現出科學家們找到一種能夠加快開發藥物及進行其他研發的新方法。
Evozyne 公司共同創辦人、也是參與該合著論文的 Andrew Ferguson 表示:「即使首次研發,AI 模型同樣能產生跟天然蛋白質一樣優質的合成蛋白質,這不僅鼓舞了我們團隊的士氣,也讓我們知道這個模型正確地學習了大自然的設計規則。」
變革性的 AI 模型
Evozyne 使用 NVIDIA 的 ProtT5 執行整個專案。ProtT5 是 NVIDIA BioNeMo 裡的部分 Transformer 模型,用於協助醫療照護領域創建 AI 模型的軟體架構與服務。
跨足化學與機器學習領域的分子工程師 Ferguson 表示:「BioNeMo 的確提供我們進行模型訓練所需的一切,並以非常低的成本在模型上運行各項作業,我們可以在短短幾秒鐘內生成數百萬個序列組合。」
該模型是 Evovyne 旗下名為 ProT-VAE 的工作流程核心,可將 BioNeMo 與充當篩檢器的變分自動編碼器相互結合。
「幾年前還沒有人料想到,現在能夠使用大型語言模型結合變分自動編碼器來設計蛋白質。」Ferguson 說道。
模型學習大自然的規則
NVIDIA 的 Transformer 模型讀取蛋白質中的數百萬種氨基酸序列的技術就像學生讀書一樣,都是使用神經網路來理解文字的意涵。藉由這樣的方式,它能進一步了解與掌握大自然是如何組成這些強大生物的。
然後,該模型能夠接著預測要如何配合 Evozyne,進而找出解決的功能以生成新的蛋白質。Ferguson 表示:「這項技術讓我們能夠重溫十年前的白日夢。」
無限可能
機器學習有助於一一排查可以使用的海量蛋白質序列,並有效地識別出最有用的序列。傳統的蛋白質生成方式稱為定向進化,用的是一種碰運氣的緩慢方法,且通常一次只能改變幾個氨基酸的序列。
圖_Evozyne 的 ProT-VAE 流程使用 NVIDIA BioNeMo 中強大的 Transformer 模型來生成用於藥物開發和能源永續的有用蛋白質
相較之下,Evozyne 的方法可以在同一輪中改變蛋白質裡半數以上的氨基酸。這相當於進行了數百次突變。
Ferguson 表示:「我們獲得巨大的進步,能夠探索以前從未見過的蛋白質,而這些蛋白質往往具有嶄新功能。」Evozyne 打算使用這個新進展來生成一系列的蛋白質,以用來對抗疾病和氣候變遷。
縮短訓練時間並擴展模型
Ferguson 表示:「NVIDIA 一直是最出色的合作夥伴。」
Evozyne 的資料科學家 Joshua Moller 說道:「他們運用多個 GPU 進行訓練及加速處理龐大的作業流程。我們現在每一分鐘,都能夠處理完一整個資料庫的資料。」
這將訓練大型 AI 模型的時間,從幾個月縮減至短短一週。Ferguson 表示:「這讓我們能夠訓練涵蓋數十億個訓練參數的模型,要是換作其他的方式,肯定是達不到的。」
精彩可期的未來
AI 加速推動蛋白質生成的發展一片大好。
「這個領域發展的速度太快了,我非常期待接下來還會發生什麼改變。」Ferguson 也指出最近擴散模型的崛起。「誰能知道未來五年內,我們會發展到什麼樣的程度。」
歡迎申請搶先體驗 NVIDIA BioNeMo,瞭解這個服務能夠如何加速推動您的應用程式。