科研工作者福音！巴西科學(xué)家研發(fā)新的NLP框架來自動提取論文數(shù)據(jù)

2021-10-11 21:33:14 前瞻網(wǎng)

評論

巴西塞阿拉聯(lián)邦大學(xué)最近發(fā)表的一篇論文預(yù)印本中提供了一個新的自然語言處理框架來自動化從科學(xué)數(shù)據(jù)中總結(jié)和提取核心數(shù)據(jù)。

對于科研工作者來說，日常工作中有相當(dāng)大一部分的內(nèi)容是通過搜索檢閱相關(guān)論文，并摘取其中的有效信息。然而，閱讀一篇論文并提煉中與自己研究工作相關(guān)的內(nèi)容需要大量的精力，而閱讀幾十篇論文更是不易。在這項研究當(dāng)中，研究團隊提出了一種基于機器學(xué)習(xí)（ML）的自然語言處理（NLP）方法，能夠自動識別并從文章的語料庫中提取分類和數(shù)字參數(shù)。

該方法（命名為a.RIX）通過同時/互換使用ML模型，如神經(jīng)元網(wǎng)絡(luò)（NN）、潛在語義分析（LSA）、天真貝葉斯分類器（NBC）和使用正則表達式（REGEX）的模式識別模型來操作。

為了測試a.RIX引擎的效率，研究團隊使用了一個由7,873篇涉及天然產(chǎn)品（NPs）的科學(xué)文章組成的語料庫來進行測試。該引擎自動提取分類和數(shù)字參數(shù)，如(i)提取活性分子的植物種類，(ii)活性分子可以對付的微生物種類，以及(iii)對這些微生物的最小抑制濃度（MIC）值。這些參數(shù)的提取不需要語音標(biāo)記（POS）和命名實體識別（NER）方法（即不需要文本注釋），模型的訓(xùn)練是在無監(jiān)督下進行的。這樣一來，a.RIX基本上可以用于任何科學(xué)領(lǐng)域的文章。

前瞻經(jīng)濟學(xué)人APP資訊組

論文原文

https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

標(biāo)簽：科研科研工作工作者福音

科研工作者福音！巴西科學(xué)家研發(fā)新的NLP框架來自動提取論文數(shù)據(jù)

今日熱點

熱點排行

最近更新