亚洲日韩国产精品第一页一区,国产产无码乱码精品久久鸭,国产美女精品视频

引? 言

隨著ChatGPT的爆火,該技術引爆了人工智能產業。該語言模型既能寫詩歌、編代碼,還能創造劇本、面試出題、發表論文，呈現出解放人類生產力的驚人特質。

ChatGPT引起了大廠、投資人、學界、業界各領域人士的關注。AI公司全面入局，引發了資本市場震蕩……生物醫藥領域是否能和這類新興技術結合？目前都有哪些應用？

ProGen：生物界「ChatGPT」

首次實現從零合成全新蛋白

近期，一家剛剛成立三年的初創公司Profluent，首次利用深度學習語言模型合成了自然界不存在的全新蛋白質，極大加速蛋白質工程的研究。

科學家們采用類似ChatGPT的蛋白質工程深度學習語言模型——ProGen，首次實現了AI預測蛋白質的合成。這些蛋白質不僅與已知的完全不同，相似度最低的甚至只有31.4%，但和天然蛋白一樣有效。目前，這項工作已經正式發表于Nature子刊。

Profluent創始人CEO Ali Madani表示，Profulent已經設計出了多個家族的蛋白質。這些蛋白質的功能與樣本蛋白（exemplar proteins）一樣，因此是具有高活性的酶。這項任務非常困難，是以zero-shot的方式完成的，這意味著并沒有進行多輪優化，甚至根本不提供濕實驗室的任何數據。而最終設計出的蛋白質，是通常需要數百年才能進化出來的高活性蛋白質。

ProGen是一個12億參數的條件蛋白質語言模型，其基于Transformer架構，通過自注意機制來模擬殘基的相互作用，并且可以根據輸入控制標簽生成不同的跨蛋白質家族的人工蛋白質序列。Progen的算法也與ChatGPT背后的模型GPT3.5類似，它通過學習氨基酸如何組合成2.8億個現有蛋白質的語法，學會了如何生成新的蛋白質。

Madani表示：“就像ChatGPT學習英語之類的人類語言一樣，我們是在學習生物和蛋白質的語言。”值得注意的是，還有一些初創公司也在嘗試相似的技術，比如Cradle，以及Flagship Pioneering的Generate Biomedicines等。

BioGPT：提高科研效率的得力工具

隨著科學技術突破，研究人員對大量生物醫藥文獻采用了多種機器學習技術，在各大生物醫藥出版物及科研論文中使用文本挖掘和信息提取，對開發新藥物、臨床治療、病理學研究至關重要。從這些海量材料提取有意義的信息，就是BioGPT發揮作用的地方，它在科學文獻網站PubMed上超過1500萬篇摘要的龐大語料庫上進行了預訓練，可以根據用戶的提問迅速提供相關的答案。在PubMedQA檢測中，這款人工智能模型達到81.0%的準確性。

通用語言領域中預訓練模型主要有兩個分支——GPT和BERT及其變體，BERT在生物醫藥領域受到的關注最多，比如BioBERT和PubMedBERT是生物醫藥領域中最常受到關注的兩個預訓練語言模型。然而，BERT模型更適合理解任務，而不是生成任務。而微軟研究人員推出的BioGPT使用了六項生物NLP任務來評估語言模型，其中包括問答、文檔分類和端到端關系提取。能夠幫助我們大幅度提高從科學文獻中獲得信息的速度。

火爆之下，仍有隱憂

雖然ChatGPT或類似的語言模型能在生物醫藥領域能夠得到廣泛應用，但仍有隱憂。首先，ChatGPT沒有聯網，因此并不能替代搜索引擎。它無法訪問最新的事件進展，因為其當初在進行模型訓練時，數據只更新到2021年，而科研技術日新月異，為了保持預訓練語言模型在生物醫藥領域的準確性，需要實時更新數據或聯網。其次，因為ChatGPT接受的是大量數據的訓練，有時可能會生成包含冒犯性或不恰當語言的回復。這是利用訓練數據生成文本的算法的局限性之一。例如科技媒體CNET曾曝出，ChatGPT編寫的77篇內容中，41篇有錯誤，目前，平臺已予以更正，并表示將暫停此種方式生產內容。

Nature也對此問題表達了重視，這家權威的學術出版機構表示，學研圈都在擔心，學生及研究者們可能會以大型語言模型生成的內容當作本人撰寫的文本，除卻冒用風險外，上述過程還會產生不可靠的研究結論。