Googleが崩し字を現代文字に変換するAIを開発

Googleが日本の古文書に使われている崩し字を現代の文字に変換するAIを開発したとのこと。
この翻訳OCR用AIは「KuroNet」と呼ばれ、ブラウザで動作するTensorFlow.jsとして提供されるようです。
崩し字の判別速度は、1ページ当たり2秒。
古文書1冊では1時間ほどで終了するとのこと。
これは人間がページを繰って、写真撮影する手間を含んでるんだと思います。
単純計算だと古文書1冊当たり1800ページになってしまうので。
ただし、正確性は85%程度。
もっと利用データが増えれば精度は上がるようです。

Google AIで日本史研究者やマニアが狂喜乱舞する「くずし字」の翻訳ツールが開発

追記ですが、Googleが開発したのではなく、単にGoogleのイベントで発表されただけ。
実際に開発したのは国文学研究資料館とのこと。
日本古典籍くずし字データセット

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください