手書きメモのテキスト化時の精度検証(BusinessCardスキャナーVS富士通のSCANSNAPのOCR機能)

目次

紙のドキュメントの文字起こしするのに最適な方法は?

昔書いたメモをブログに入れているのですが、どうしてもパソコンのデータでは見つけられない場合があります。その際は、書類をスキャンして文字起こしをする必要があります。

今回は、画像を取り込むのにScanSnap ix100という機種を使いました。

今回使用したメモです。テキストを印刷したもので、そこに手書きが加えられています。汚い字ですみません。ただこの汚い字で検証するからこそ、いろんなテスト結果が得られそうです。

STEP
ScanSnapで画像を取り込みPDFを化

ScanSnapでは、スキャン時に自動でOCR機能でテキスト化されています。

OCR(文字認識)とは?紙の文書をデータ化して編集・検索を可能に

PDFにカーソルを当てて選択すると、青背景のように認識された文字の部分がわかります。

STEP
Business Cardスキャナーでもスキャン

OCRそのまま使えそうですが精度の比較検証のために以前紹介した、Business Cardスキャナーでもスキャンしてみます。
【無料】画像からテキストを抽出する方法

文字認識の精度の検証結果

Business Cardスキャナー VS 富士通のSCANSNAPのOCR機能

それぞれで文字認識の精度を比べてみました。

いずれも手書き文字を判別

汚い字でしたが、きちんと手書きも認識してくれました。

  • 緑マーカーが文字の位置がおかしい
  • オレンジマーカーが手書きメモの文字認識です。

Business Cardスキャナー

ヒマは時間の生産
自由人生はどうかり
[リモート
リモートビジネスとは
m
ビジネスの自動化 (最小時間、最労力、最大の結果)
自分の時間を確保する(学び、遊び) 時間)
ユケイト
すぐに実践できる ⇒ 成長しながら学ぶ
【今までの問題点】
.
専門性がいる (WORD を鍛えれば可能)
コストがかかる (⇒コストを抑えられる)
.
・一時的なもの (⇒普遍性のあるノウハウ)
●ノウハウ
コンサルティング
┗無駄を省く
┗カタログ化
┗簡単にする
┗楽しくする
営業に時間を割かない
打ち合わせに時間を割かない (仕様に時間をかけない)
使い方、簡単
ビジュアル的
(シフライ)
リモートビジネスアントレプレナー
・アントレプレナー]

L
ノウハウ
思考で考える
メディア発信力を上げる (プレゼン)
存在価値=自己尋 コード=固定

H

言語の225
ネットビジネス (インターンデットでマネタイズの流れを作る)
L
インターネーム
マネタイズポストを作
TE人

Tスキル
7th
┗言語化 WORD
図解化 パワーポイント (プレゼン)
動画撮影と編集]
含む)
葱思いこみ一カルトロードム
感情にフォーカス
マイ
Treasurety 2.4

3-4 h
リュクリバーサル 自分の不
(問題)
行動目的(安全) 日本軍

コンサルティング

脱コード(オカルトコード)
向上
・人間関東(面度)
・自分(自分の時間)
・不必それ
牛のづまる

富士通のSCANSNAPのOCR機能

リモートビジネス・アントレプレナー
リモートビジネスとは
) レ
ビジネスの自動化(最時間、最無券力、最大の結果)収20

自分の時間を確保する(学び、遊び)(
(月271)

Y Theastrcho,マ
すぐに実践できる → 成長しながら学ぶ
月ユード(カクトコード
【今ま での問題 点】
・専門性がいる(→WORD を扱えれば可能) ・コストがかかる (→コストを抑えられる)
・ 一時 的 な も の (→ 普 遍 性 の あ る ノ ウ ハ ウ )
♥ リュクリバーガー →
分自の不々
平 のがるタイ

● ノウハウ
L カタログ化 L簡単にする
L 楽しくする
コードに図々え 存左仁信二自2 奇凡
ち さえ

営 業 に 時間 を 割 か な い
ok 【と打ち合わせに時間を割かない (仕様に時間をかけない)
と使い方、簡単
「人間阳重用(面直好万 L ビジ ュアル的
(シクブル)
33
G コンサルティング
自投 し (自るの時間) 一無駄を省く
にあ と )
と 思 考 で 考 え る ( 感情 で 変 な り ” 3 8 の 0 2 3 他
ナイルスをお出必界 トメディア発信力を上げる(プレセン) リネットビジネス(インターンデットでマネタイズの流れを作る)
ンター
ネート
ズむハントとイよ
L



タイ
ノウハウ L歴史
5 T スキル 久た
L言語化:WORD
ᇌ1⁄2
74115

L 図 解 化 :パ ワ ー ポ イ ン ト (プ レ
快z
一地要擊露汽帮参>

Business Cardスキャナーの方が優秀

Business Cardスキャナーの文字認識に比べて、富士通のSCANSNAPのOCR機能の方が以下の点で劣っています。

  • 改行位置
  • 手書きのテキスト部分の精度

ブログや他の書類で書き直すなら、圧倒的にBusiness Cardスキャナーの方が書き直しの手間が減ります。

Business Cardスキャナーの便利なところ

2ページ/枚で印刷したものでもスキャンできる

原稿チェック時に2ページ/枚で検索することがあるのですが、Business Cardスキャナーで検証しました。

結果はきちんとページの中央を判別して、上下に出力してくれています。

1ページ目

ランチェスター戦略の知っていますか?
図解
武器効率兵力数の2条
覚えていますか?
なんと同じ武器を持っていると2.25倍になるんですよ。
を持っている図解
100人と150人
は50ではなくて、 2.25倍
だから、強さは
兵力は社員 自分の分身-コンテンツに置き換える
武器効率影響力: 大企業がブランド スモール起業 コンセプト
コンセプト
具体的な事例 ブログ
1投稿で影響力
●用語の解説
○ランチェスターって何?
○武器効率って何?
○ コンセプトって何?
○ コンテンツとは何?
わからないまま教えるのは
(決めつけ)
対話型教育
ゲーム、クイズ、 参加
ゴリラ水谷
みっきー改ゴリラ水谷です。
ゴリラマーケティングをやることになったので、
いきなり言い出す
●3つの柱
・体感

▶ここから2ページ目

実践 -wordpressの設定方法、型に沿って書く
ブログは日記ではない
刺さらないプログ
ただの発信からの卒業
【教える内容】
(1) <コンセプトメイキング>
(2) 書き方
① 問題を絞って、タイトルを決める
②記事内容を決める
③ 検索キーワードを調べてタイトルに埋め込む
(3) <具体>
・タイトル、本文、 アイキャッチ、 タグ (ハッシュタグ)
<コンセプトメイキング>

  1. 商品を作る
  2. ターゲットの悩みを
  3. ポジショニングを決める
    1.商品を作る
    <仮商品を作るプロセス>
    で商品を作って売る
    ①問題を起きている背景を知る
    ②お金を払って解決をしたいのか?
    あなたにはそれを解決するアプローチ方法はあるのか?
    <テストする理由>
    95%ズレが起きるので、修正する。
    セミナーするうちにズレが見えてくる

複数枚も同時に取り込める

画像が複数あったときにも1枚1枚ではなくてまとめてスキャンすることができます。

ダウンロードする際の形式

ダウンロードの形式は選べて、左から順番に以下で保存できます。

  • テキストデータでダウンロード
  • クリップボードにコピー
  • ワードでダウンロード
  • PDFでダウンロード
  • HTMLでダウンロード

SCANSNAPのOCR検索は他に用途がないのか?

ScanSnapで取り込んだPDFがOCRでせっかくPDF化されているので、Finder(Mac版のエクスプローラー)で「リモートビジネス」検索してみましたが、かすりもしませんでした。

検索したキーワードは20221214_t21側職442.pdfというファイル名です。他にもランチェスター戦略でも検索してみましたが無理でした。あの資料どこだったかな?というPC内の検索では無理そうです。

まとめ

パソコンの中にデータを貯めていくと検索が難しくなります。もしデータが見つからない場合やもらった資料などは、写真を取るか、PDFで取り込んだあとに画像化して、Business Cardスキャナーを使って文字認識しましょう。

他にも電子書籍をスクショして、パソコンに送って一括変換するなどの利用方法もあります。(必ず自分の言葉で書き換えて、著作権違反にならないようにしましょう)

]]>

close
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

元東芝エンジニア「WEBマネタイズの専門家」/ ㍿TreasureNey取締役。
時間とコストを省く、最もシンプルなWEBでの収益法をお伝えしています。東芝時代に培った開発設計業務経験から、簡単に誰でもWEBを使ったメディア制作をレクチャーします。

目次