關(guān)注 >   >  正文

科研工作者福音!巴西科學(xué)家研發(fā)新的NLP框架來自動提取論文數(shù)據(jù)

評論

巴西塞阿拉聯(lián)邦大學(xué)最近發(fā)表的一篇論文預(yù)印本中提供了一個新的自然語言處理框架來自動化從科學(xué)數(shù)據(jù)中總結(jié)和提取核心數(shù)據(jù)。

對于科研工作者來說,日常工作中有相當(dāng)大一部分的內(nèi)容是通過搜索檢閱相關(guān)論文,并摘取其中的有效信息。然而,閱讀一篇論文并提煉中與自己研究工作相關(guān)的內(nèi)容需要大量的精力,而閱讀幾十篇論文更是不易。在這項研究當(dāng)中,研究團隊提出了一種基于機器學(xué)習(xí)(ML)的自然語言處理(NLP)方法,能夠自動識別并從文章的語料庫中提取分類和數(shù)字參數(shù)。

該方法(命名為a.RIX)通過同時/互換使用ML模型,如神經(jīng)元網(wǎng)絡(luò)(NN)、潛在語義分析(LSA)、天真貝葉斯分類器(NBC)和使用正則表達式(REGEX)的模式識別模型來操作。

為了測試a.RIX引擎的效率,研究團隊使用了一個由7,873篇涉及天然產(chǎn)品(NPs)的科學(xué)文章組成的語料庫來進行測試。該引擎自動提取分類和數(shù)字參數(shù),如(i)提取活性分子的植物種類,(ii)活性分子可以對付的微生物種類,以及(iii)對這些微生物的最小抑制濃度(MIC)值。這些參數(shù)的提取不需要語音標(biāo)記(POS)和命名實體識別(NER)方法(即不需要文本注釋),模型的訓(xùn)練是在無監(jiān)督下進行的。這樣一來,a.RIX基本上可以用于任何科學(xué)領(lǐng)域的文章。

前瞻經(jīng)濟學(xué)人APP資訊組

論文原文

https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

標(biāo)簽: 科研 科研工作 工作者 福音

今日熱點

熱點排行

最近更新

所刊載信息部分轉(zhuǎn)載自互聯(lián)網(wǎng),并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。郵箱:5855973@qq.com

聯(lián)系我們| 中國品牌網(wǎng) | 滬ICP備2022005074號-18 營業(yè)執(zhí)照  Copyright © 2018@. All Rights Reserved.