舊報紙不用再封塵了！新算法可從歷史文件中搜索并提取信息

2021-10-20 00:02:22 前瞻網(wǎng)

評論

舊報紙給我們提供了一個了解過去的窗口，紐約州立大學布法羅分校的研究員開發(fā)了一種新算法，試圖將這些歷史文件變成有用的、可搜索的數(shù)據(jù)。

這種算法可以從光學字符識別（OCR）產(chǎn)生的結(jié)果中找到人名并按重要性排序，光學字符識別是將掃描文件轉(zhuǎn)化為文本的計算機化方法，通常比較雜亂。相關算法研究發(fā)表在《決策支持系統(tǒng)》上。

當運行光學字符識別軟件時，很多時候文本會出現(xiàn)亂碼。對于舊報紙、書籍和雜志，問題可能來自于油墨質(zhì)量差、皺褶或撕裂的紙張，甚至是軟件沒有想到的不尋常頁面布局。

為了開發(fā)該算法，研究人員與紐約公共圖書館（NYPL）合作，分析了《紐約太陽報》在1894年11月和12月期間發(fā)表的14000多篇文章。紐約公共圖書館已經(jīng)掃描了20多萬頁報紙。

研究人員的算法根據(jù)一些屬性對人名的重要性進行排名，這些屬性包括名字的上下文、名字前面的標題、文章的長度以及名字在文章中被提及的頻率。該算法僅從文本中學習這些屬性——它并不依賴維基百科或其他知識庫等外部信息來源。

但由于光學字符識別文本是亂碼，它無法確定這些屬性對人名的排名有效性多高。因此，研究人員使用統(tǒng)計措施對許多數(shù)據(jù)屬性進行建模，這有助于提供所需的姓名排名。

研究人員使用兩組歷史文章來測試他們的算法。一套是由光學字符識別軟件產(chǎn)生的原始文本，另一套是由紐約市的學童手動清理過的，他們用這些文章來寫當時當?shù)刂宋锏膫饔洝?/p>

結(jié)果發(fā)現(xiàn)，當與清理過的故事版本相比，即使從嘈雜的光學字符識別文本中，排名算法也能對人名進行高度精確的排序。

研究人員認為，這項研究對發(fā)現(xiàn)整個歷史上的重要人物有廣泛的影響。研究人員還表示，最近在南北戰(zhàn)爭時期的非裔美國人文獻上使用了這種技術，以了解更多關于奴隸制時代的重要人物。今后將擴大這項技術，以檢查人與人之間的關系，并建立起過去的社會網(wǎng)絡。

題為PNRank: Unsupervised ranking of person name entities from noisy OCR text的相關研究論文發(fā)表在《決策支持系統(tǒng)》上。

前瞻經(jīng)濟學人APP資訊組

論文原文：

https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub