J-STAGE Data
Browse
TOKUHARA_J-STAGE Data_6-s3-s210.pdf (4.15 MB)

Applicability of OCR full text data of digitized materials held by the National Diet Library.: From the search results for Okinawa-related keywords in the NDL Lab's ecprimental services.

Download (4.15 MB)
presentation
posted on 2024-01-24, 23:56 authored by Naoko TOKUHARA

In FY2021, the National Diet Library, Japan (NDL) outsourced two OCR-related projects. One is the OCR text conversion of approximately 2.47 million digitized materials (223 million images) provided by the NDL, and the other is the research and development of an OCR processing program (NDLOCR) that can be released as an open source. Of these deliverables, as of November 2022, 280,000 books whose copyright protection period has expired have been submitted to and provided through the NDL Lab's two experimental services, "Next Digital Library" and "NDL Ngram Viewer".

In addition, in 2022, the NDL Rarebooks OCR was developed in-house for the purpose of converting classical materials to OCR text, utilizing the development knowledge of the NDLOCR. 60,000 NDL classical materials are searchable in the Next Digital Library as of November 2022.

In this presentation, we will examine the possibility of using the text data for local historical research based on the search results of keywords related to Okinawa using two experimental services.

History

Corresponding author email address

lab@ndl.go.jp

Title (in Japanese)

国立国会図書館デジタル化資料のOCR全文テキストデータの活用可能性 ~NDLラボの実験サービスにおける沖縄関連キーワードの検索結果から

Description (in Japanese)

2021度、国立国会図書館(NDL)は、二つのOCR関連事業を外部委託にて実施した。一つは、NDLが提供するデジタル化資料約247万点(2億2300万画像)のOCRテキスト化であり、もう1つはオープンソースで公開可能なOCR処理プログラム(NDLOCR)の研究開発である。これらの成果物のうち、2022年11月現在、著作権保護期間が満了した図書28万点をNDLラボの2つの実験サービス「次世代デジタルライブラリー」及び「NDL Ngram Viewer」に投入し、提供している。 また、2022度には、NDLOCRの開発知見を活かして、古典籍資料のOCRテキスト化を目的としたNDL古典籍OCRを内製開発した。2022年11月現在、NDLの古典籍資料6万点を次世代デジタルライブラリーで検索可能としている。 本発表では、2つの実験サービスを用いて、沖縄に関連するキーワードを用いた検索結果から、本文テキストデータの地域史研究等への活用可能性を検証する。

Manuscript title (in Japanese)

[D22] 国立国会図書館デジタル化資料のOCR全文テキストデータの活用可能性:NDLラボの実験サービスにおける沖縄関連キーワードの検索結果から

Authors (in Japanese)

徳原 直子

Copyright

© 2024 The Author(s)

Usage metrics

    デジタルアーカイブ学会誌/Journal of Japan Society for Digital Archive

    Licence

    Exports

    RefWorks
    BibTeX
    Ref. manager
    Endnote
    DataCite
    NLM
    DC