舊報紙給我們提供了一個了解過去的窗口,紐約州立大學布法羅分校的研究員開發(fā)了一種新算法,試圖將這些歷史文件變成有用的、可搜索的數(shù)據(jù)。
這種算法可以從光學字符識別(OCR)產(chǎn)生的結(jié)果中找到人名并按重要性排序,光學字符識別是將掃描文件轉(zhuǎn)化為文本的計算機化方法,通常比較雜亂。相關算法研究發(fā)表在《決策支持系統(tǒng)》上。
當運行光學字符識別軟件時,很多時候文本會出現(xiàn)亂碼。對于舊報紙、書籍和雜志,問題可能來自于油墨質(zhì)量差、皺褶或撕裂的紙張,甚至是軟件沒有想到的不尋常頁面布局。
為了開發(fā)該算法,研究人員與紐約公共圖書館(NYPL)合作,分析了《紐約太陽報》在1894年11月和12月期間發(fā)表的14000多篇文章。紐約公共圖書館已經(jīng)掃描了20多萬頁報紙。
研究人員的算法根據(jù)一些屬性對人名的重要性進行排名,這些屬性包括名字的上下文、名字前面的標題、文章的長度以及名字在文章中被提及的頻率。該算法僅從文本中學習這些屬性——它并不依賴維基百科或其他知識庫等外部信息來源。
但由于光學字符識別文本是亂碼,它無法確定這些屬性對人名的排名有效性多高。因此,研究人員使用統(tǒng)計措施對許多數(shù)據(jù)屬性進行建模,這有助于提供所需的姓名排名。
研究人員使用兩組歷史文章來測試他們的算法。一套是由光學字符識別軟件產(chǎn)生的原始文本,另一套是由紐約市的學童手動清理過的,他們用這些文章來寫當時當?shù)刂宋锏膫饔洝?/p>
結(jié)果發(fā)現(xiàn),當與清理過的故事版本相比,即使從嘈雜的光學字符識別文本中,排名算法也能對人名進行高度精確的排序。
研究人員認為,這項研究對發(fā)現(xiàn)整個歷史上的重要人物有廣泛的影響。研究人員還表示,最近在南北戰(zhàn)爭時期的非裔美國人文獻上使用了這種技術,以了解更多關于奴隸制時代的重要人物。今后將擴大這項技術,以檢查人與人之間的關系,并建立起過去的社會網(wǎng)絡。
題為PNRank: Unsupervised ranking of person name entities from noisy OCR text的相關研究論文發(fā)表在《決策支持系統(tǒng)》上。
前瞻經(jīng)濟學人APP資訊組
論文原文:
https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub