視覚障害者にとっても重要なOCR技術
OCR(Optical Character Recognition/Reader)とは、簡単にいうと、画像データに含まれる文字を認識して、テキストデータに変換してくれる技術です。
たとえば紙の書類をスキャンしてデジタルデータ化する際に、OCRで内容を解析し、
テキストで検索できるPDF形式に変換するといった用途があります。
近年ではAIによりOCR精度も飛躍的に向上し、抽出したテキストを、直接業務で利用する動きも見られるようになってきました。
そしてOCRは、視覚障害者にとっても非常に有益な技術でもあります。
神の本や書類をカメラで撮影して読み上げてくれるアプリや拡大読書器など多くの視覚障害者が、OCR技術の恩恵を受けて情報を得ることができるようになってきました。
話題の「Oton Glass」も、OCR技術を利用して文字を読み上げてくれる製品です。
スクリーンリーダーとOCR
さてOCRと並び視覚障害者の情報取得にとって非常に重要なものが、パソコンの画面を読み上げてくれるスクリーンリーダー。
私は基本Mac使いなので、VoiceoverというmacOSに標準搭載されているスクリーンリーダーを使用して全ての操作を実行しています。
ただ残念ながら、パソコンで扱える全ての機能やコンテンツが利用できるわけではありません。
Voiceoverに全く対応していないアプリケーションもまだまだ多いですし、写真を楽しんだり、音声解説のない動画も内容を理解するのは困難。
これは現時点では諦めるしかありません。
しかし、例えばVoiceoverで操作はできるものの内容が読み上げられない(タグが設定されていない画像形式のボタンなど)や、Twitterで特によく見かける、文章を画像形式に変換している投稿などは、OCR技術を応用すれば内容を把握できる可能性が高くなります。
Windows用スクリーンリーダー 「NVDA」には、Windows 10に実相されているOCRエンジンを呼び出して(NVDA + R キー)、画像コンテンツに含まれるテキストを読むことができますが、MacのVoiceoverには残念ながらこのような機能はありません。
そこで、Macで似たような機能を実現するアプリケーションが無いか探して見ました。
ちなみに、現時点で個人ユースで利用できるMacのOCRアプリとして、ABBYY社の「Finereader」がもっとも有名です。ABBYYのOCRエンジンは、ドキュメントスキャナ「ScanSnap」にも採用されており、その認識率の高さに定評があります。
ただ価格がちょっとお高めなのと、高機能ゆえ手軽に使えないのが難点。
また「Google Drive」には、アップロードした画像をGoogleドキュメント形式に変換することで、OCR処理してくれる無料サービスがありますが、こちらも手順的に煩雑でファイルサイズの制限もあります。認識精度は高いです。
手軽に使えそうなMac用OCRアプリ
いろいろ探した結果、Mac AppStoreで以下の2アプリが見つかりました。
○Macアプリ
開発 Tong Zhang
価格 無料
○Macアプリ
開発 mkanda
価格 600円
「Easy Screen OCR」は、スクリーンショットを撮影し、
GoogleのOCRを利用してテキストを抽出してくれるシンプルなアプリ。
Voiceoverを使いながら読めない部分を解析するのに使えそうと思い
インストールしたのですが、我がMacBook Proでは起動させることができませんでした。
残念。
アップデートなどで起動するようになったらまたレビューしようと思います。
OCRTOOLSの特徴
一方「OCRTOOLS」は、画像ファイルを読み込んでテキストを抽出してくれるアプリ。
こちらは無事起動しました。
ツールバーのボタンなども適切にタグ付けされており、Voiceoverで快適に利用できます。
OCRTOOLSでできることは、
・画像ファイルの読み込み
・クリップボードからのイメージ読み込み
・読み込んだ画像の編集
・OCRによるテキスト抽出
・抽出したテキストを翻訳
です。
ここでポイントと言えるのが、クリップボードからのイメージ読み込みでしょう。
OCRしたいイメージがあれば、コピーするだけで読み込みできるのは非常に手軽。
後述しますが、macOSのスクリーンショット機能では、撮影したイメージをクリップボードに直接保存できるので、NVDAに近い操作性が期待できます。
OCRTOOLSの使い方
クリップボードからのテキスト抽出手順を簡単にまとめると、
1.、ツールバーの「OCR言語」を日本語に設定
2.OCRしたいイメージをコピーする
3.OCRTOOLSに移動し「Command + N」をおす
4.自動的に解析が始まり、テキストが抽出される
テキストフィールドは2つあり、一方は抽出されたテキスト、
もう一方には翻訳されたテキストが表示されます(翻訳言語を指定した場合)。
Voiceoverと連携する場合、スクリーンショットの解析がメインになると考えられます。
通常、スクリーンショットは「Command + Shift + 3」で撮影し、デスクトップにイメージファイルとして保存されますが、この代わりに
Command + Shift + Ctrl + 3
を押すことにより、スクリーンショットの内容がクリップボードに保存されます。OCRTOOLSと連携させる場合は、このショートカットキーを用いるのがおすすめです。
単一ウィンドウのキャプチャ
さらに、
1.解析したいウィンドウにVoiceoverカーソルを移動
2.Command + ctrl + Option + F5を押して
マウスポインタをVoiceoverカーソルの位置に移動
3.Command + Shift + 4を押す
4.スペースバーを押す
5.Ctrlキーを押しながらマウスボタンを押す
この操作を行うことで、アクティブのウィンドウだけを
キャプチャしてクリップボードにコピーできます。
複数のアプリケーションを同時に開いていて抽出されたテキストがうまく読めない場合に試して見ましょう。
ただアプリケーションによってはうまくキャプチャできない場合もあるようです。
そのような時は、アプリケーションのメニューから他のアプリを隠してから全画面スクリーンショットを撮影するとわかりやすいかもしれません。
OCRTOOLSのOCR精度は?
では肝心のOCR精度はどうでしょうか。
まとまったテキストの認識
まず、まとまった文章からテキスト抽出してみます。
以下のサイトで実験してみました。
このページをSafariで開き、フルスクリーン表示にしてスクリーンショットを撮影。
OCRTOOLSでテキストを抽出しました。
以下は、その結果から本文部分の抜粋です。
────ここから────
吾輩(わがはい)は猫である。名前はまだ無い。
どこで生れたかとんと見当(けんとう)がつかぬ。何でも薄暗いじめじめした所で二ヤ一二ヤ一泣
いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそ
れは書生という人間中で一番樺悪(どうあく)な種族であつたそうだ。この書生というのは時々我々
を捕(つかま)えて煮(に)て食うという話である。しかしその当時は何という考もなかつたから別
段恐しいとも思ゎなかつた。ただ彼の掌(てのひら)に載せられてスーと持ち上げられた時何だかフ
ワフワした感じがあつたぱかりである。掌の上で少し落ちっいて書生の顔を見たのがいわゆる人間と
いうものの見始(みはじめ)であろう。
────ここまで────
一部変換できていない部分もありますが、
内容を把握するには十分なレベルではないかと思います。
ウィンドウ内テキストの認識
次は、スクリーンリーダーユーザーにとって重要な、
アプリケーションウィンドウのテキストを抽出してみます。
macOSのシステム環境設定の「一般」パネルを開き、スクリーンショットを作成。
他のウィンドウは開いていない状態で、全画面撮影しました。。
これを、OCRTOOLSでテキスト抽出した結果です。
────ここから────
■ ノステム環境設定 編集 表示 ウィントウ ヘルプ ‡‡ @ ● 詔 倫 Q ◯ ☎ 威)) ¶0O%匡伺 圏ひらかな 1451 O 三
・・ -
ァピァランス
強調表示色
船諄{ 瑞輪
 ̄ jボタノ メニュ一 ゥイノトゥに使われる色
⊃ メ二ユーハーとDoCkを暗< する
⊃ メニューハーを 自動的に表示/非表示
■■その他
サイドバーのアイコンサイズ
スクロールバーの表示
スク口ールバーのクリック時
マウスまたはトラソクハソトに基づいて自動的に表予
⊂⊃スク口ール時に表示
⊂⊃常に表示
次のヘージヘ移動
⊂⊃クリソクされた場所にブャノプ
デフ ォル トのWebブラウザ`
SafarI app
〔コ書類を閉しるときに変更内容を保持するかどうかを確認
〔〕ァプリケーンョノを終了するときにゥィノトゥを閉しる
選択すると 開いていた書類とゥィノトゥは
アプリケ一ノ∃ノの再開時には復元されません
最近使つた項目 |m 個の書類 ァプリケーン∃ノ おょひサーハ
L のMaC と ICIo∪dデ/ \イ ス間て のHa∩doffを許可
使用可能な場合はぱ刀て膚りかな文字を使用
────ここまで────
かなり変換ミスが目立ちます。
ちょっと内容を把握するには厳しいレベルですね。、。
同じ内容をGoogleで認識させて見る
ちなみに、同じスクリーンショットを
Googleドライブでテキスト抽出したものが以下です。
────ここから────
システム環境設定 編集 表示 ウインドウ ヘルプ な 0 回 ea 0 * ( ) 100% CD あ ひらがな 14:51 OE ●Co(く」>] [E] | 一般 「Q検索 アピアランス: ブルー ボタン、メニュー、ウインドウに使われる色 DメニューバーとDockを暗くする ューバーを自動的に表示非表示 強調表示色: 「その他.. <> サイドバーのアイコンサイズ: | 中 RN: ● スクロールバーの表示: マウスまたはトラックパッドに基づいて自動的に表示 ○スクロール時に表示 ○常に表示 スクロールバーのクリック時: 次のページへ移動 ○クリックされた場所にジャンプ デフォルトのWebブラウザ:| / Safari.app ○書類を閉じるときに変更内容を保持するかどうかを確認 Oアプリケーションを終了するときにウインドウを閉じる 選択すると、開いていた書類とウインドウは、 アプリケーションの再開時には復元されません。 最近使った項目: [ 10 全個の書類、アプリケーション、およびサーバ このMacとiCloudデバイス間でのHandoffを許可 V 使用可能な場合はLCDで滑らかな文字を使用
────ここまで────
かなり正確に変換できています。
OCRTOOLSはまとまったテキストの抽出は得意そうですが、
散らばったテキストを変換するのは苦手なのかもしれません。
操作性は良好。OCR精度に改善の余地あり
OCRTOOLSはVoiceover対応でクリップボードからの変換も可能。
操作性も非常に良好なのですが、
肝心のOCR精度はちょっと微妙…というのが現時点での印象です。
変換エンジンにGoogleが利用できるようになると精度向上が期待できると思うのですが、今後のアップデートで対応してほしいところです。
※この記事はmacOS 10.13.4で執筆しました。
0 件のコメント:
コメントを投稿
注: コメントを投稿できるのは、このブログのメンバーだけです。