關注 >   >  正文

舊報紙不用再封塵了!新算法可從歷史文件中搜索并提取信息

評論

舊報紙給我們提供了一個了解過去的窗口,紐約州立大學布法羅分校的研究員開發(fā)了一種新算法,試圖將這些歷史文件變成有用的、可搜索的數(shù)據(jù)。

這種算法可以從光學字符識別(OCR)產(chǎn)生的結(jié)果中找到人名并按重要性排序,光學字符識別是將掃描文件轉(zhuǎn)化為文本的計算機化方法,通常比較雜亂。相關算法研究發(fā)表在《決策支持系統(tǒng)》上。

當運行光學字符識別軟件時,很多時候文本會出現(xiàn)亂碼。對于舊報紙、書籍和雜志,問題可能來自于油墨質(zhì)量差、皺褶或撕裂的紙張,甚至是軟件沒有想到的不尋常頁面布局。

為了開發(fā)該算法,研究人員與紐約公共圖書館(NYPL)合作,分析了《紐約太陽報》在1894年11月和12月期間發(fā)表的14000多篇文章。紐約公共圖書館已經(jīng)掃描了20多萬頁報紙。

研究人員的算法根據(jù)一些屬性對人名的重要性進行排名,這些屬性包括名字的上下文、名字前面的標題、文章的長度以及名字在文章中被提及的頻率。該算法僅從文本中學習這些屬性——它并不依賴維基百科或其他知識庫等外部信息來源。

但由于光學字符識別文本是亂碼,它無法確定這些屬性對人名的排名有效性多高。因此,研究人員使用統(tǒng)計措施對許多數(shù)據(jù)屬性進行建模,這有助于提供所需的姓名排名。

研究人員使用兩組歷史文章來測試他們的算法。一套是由光學字符識別軟件產(chǎn)生的原始文本,另一套是由紐約市的學童手動清理過的,他們用這些文章來寫當時當?shù)刂宋锏膫饔洝?/p>

結(jié)果發(fā)現(xiàn),當與清理過的故事版本相比,即使從嘈雜的光學字符識別文本中,排名算法也能對人名進行高度精確的排序。

研究人員認為,這項研究對發(fā)現(xiàn)整個歷史上的重要人物有廣泛的影響。研究人員還表示,最近在南北戰(zhàn)爭時期的非裔美國人文獻上使用了這種技術,以了解更多關于奴隸制時代的重要人物。今后將擴大這項技術,以檢查人與人之間的關系,并建立起過去的社會網(wǎng)絡。

題為PNRank: Unsupervised ranking of person name entities from noisy OCR text的相關研究論文發(fā)表在《決策支持系統(tǒng)》上。

前瞻經(jīng)濟學人APP資訊組

論文原文:

https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub

標簽: 提取 搜索 中搜 文件

今日熱點

熱點排行

最近更新

所刊載信息部分轉(zhuǎn)載自互聯(lián)網(wǎng),并不代表本網(wǎng)贊同其觀點和對其真實性負責。郵箱:5855973@qq.com

聯(lián)系我們| 中國品牌網(wǎng) | 滬ICP備2022005074號-18 營業(yè)執(zhí)照  Copyright © 2018@. All Rights Reserved.