電子書籍」カテゴリーアーカイブ

Adobe Acrobat Proの機能について

さて、結構前にOCRの検証でAcrobat Proの性能について書きましたが、たまに仕事で使っていてやはり、文書の電子化には効率的なので自宅用にも購入しようかと思っています。というのも、OCRの認識性能と中国語や韓国語、その他の言語の範囲の広さ、スキャナで取り込んだPDFのサイズの最適化、回転の修正や各種印刷文章の入力項目の編集など使える用途は数知れず状態です。

 


Adobe Acrobat Proのパッケージ


Adobe Acrobat スタンダードのパッケージ
そこで今回は自分の用途についてちょっと書いて見ようと思います。
1.スキャナの取り込み後の文章の最適化
まず、Acrobat上からまとめてファイルをリストに追加して複数ファイルのOCRスキャンが出来る事。普段はScanSnapから雑誌やマンガ本等、大量の紙データをスキャンしますが、ScanSnapでのOCRではAcrobatに比べて、少々ファイルのサイズが大きい事、ScanSnapで取り込んだPDFファイルは他のフリーソフト等では編集できない事(ScanSnapでOCRしたファイルはScanSnap意外のソフトで編集しようとするとロックがかけられていて編集ができませんでした)そしてAcrobatでは編集が可能な点(どうしてだろう?)。とにかく今のところScanSnapでOCRなしでPDFに取り込んで、あとでまとめてAcrobatでOCR化するという方法がいいかと思います。
2.各種PDFファイルの編集(書き込み)
最近気がついたのが、意外と仕事でやり取りする文章にPDFが使われていること。先日海外に行くときの飛行機のチケットの支払いにPDFが添付されてきて、詳細を手書きでFAXで送ってくださいと言われました。ここでAcrobatで自分のデータをコピペで入力、そして印刷せずにメールで送り返しました。旅行会社もこちらの方が処理が早いと言っていました。普通はファックスや、手書きで書き込んだ紙を再度取り込んでという手間が一気に省けました。また、文章の背景に透かしマークの印刷や、電子サイン、パスワードの設定も出来るのでセキュリティ上でも使える範囲はかなり広がりそうです。
3.マイクロソフトオフィスに絡む作業
これは会社の環境にもよるとは思いますが、オフィスで作成された文章を、相手に渡す時に再編集されないようにしたりする時にPDFファイルに保存する場合もあると思います。ここでもAcrobatでは編集が可能ですし、コメント等もつける事が出来ます。一応Mac用のオフィスも買ってインストールされていますが、できればテキストで済ませたい筆者にとってはPDFでの直接編集がしたいですね。
さすがはAdobeの本命ソフトといった所でしょうか。(PhotoShopもAdobeの製品ですが、動作が重く操作がわかりにくいのでフィルターを使ってエフェクトをかけるくらいにしか使いたくないです。DreamweaverやAir等はフラッシュソフトを作るのに必要ですが、フラッシュは環境としては行き過ぎた感があってセキュリティにも甘さがあるという事なので、ちょっとパス。。。等)
不満点としては、ネットからのアップデートがうざい事。Windows版ではシステムトレイに知らずに登録されていて、自動アップデートやポップアップをオフにしてもたまにアップデートを手動でインストールしたりすると自動チェックがオンにされたり、レジストリキー等でもコントロール不可能な点が納得いきません。最近は完全にオフ状態にしていますが、それでもフラッシュを使ったウェブサイト上で”最近のFlashをインストールしてください”とかFlashの画面から要求されたり。うざいよ、Adobeさん。
余談ですが、SunのJavaコントロールパネルは自動アップデートのチェックボックスを外して、OKをおして設定画面を開き直すとチェックがついたままになってたりします。それからWindowsアップデートもうざいです。筆者はコンピュータを毎日シャットダウンして持ち帰る派なのですが、急いで帰ろうとしているときに限ってWindows Updateが30個以上のアップデートがあるとかいって、シャットダウンさせてくれない。しかも”電源を切らないでください”とかいって途中でやめる事も出来ず。(個人的にはこれ絶対おかしいと思うんですけど、皆さんどうですか?)
再起動や、シャットダウンしなくてもOSの更新ってできないの?Linuxだと確かOSが起動中でも別メモリにカーネルを読み込んでカーネルプログラムのすり替えも出来たと思ったけど。もうちょっとモジュールの解放、読み込みが自由に出来た方がいいと思うんだけどね。最近のコンピュータはそんなにハードウェアに依存したドライバを使っているのかって関心してしまいます。
さて話を戻して、Acrobatの話でした。
このサイトを立ち上げて、A.I. (未だに使い方を考え中)や、文章の電子化や自炊を取り上げていますが、AcrobatにはJavaScriptを使ったマクロも使えるみたいですね。(セキュリティがあまりよくないみたいなので使う気はありませんけど)JavaScriptで自動化して暴走した時にはどうするんでしょう。ただでさえメモリリークの多いAdobeさんなのに、怖いです。情報漏れまくりになったりするんでしょうか、ネットからアップデートでさらに危険にさらされなければよいのですが。(最近クラウドコンピューティングとか流行っていますが、データはローカルか自宅のサーバにおいておくのが一番です。大切なデータをネット上のどこかのサーバ上に置いておくなんて私にはできませんね。データ盗まれたらどうすんの?同じ記憶装置上にデータがあるんだから、ハードを乗っ取られたら終わりでしょうね)
長くなりましたが、ちょっとだけA.I.絡みでメモ程度に。
やはりA.I.の究極系は仕事をしてくれるコンピュータだと最近考えています。例えばネット上で一番安い価格のサイトの検索や、為替取引のガイド、ビジネス上の予測プログラムなど、人が介入する事によってできる無駄な層を取り払える環境が出来ると思います。翻訳なんかは特に有効でネット上の他の国の人たちにもわかる言葉で仕事ができたり。今では英語が出来るとか出来ないとか、通じるかわからないとか自信がないとか。これこそ個人差のある壁だと思います。テキスト読み上げからもう少し出来る事の実装モデルはもうちょっと深めていく事にしよう。
P.S. ヤフーショッピングサーチをベクターにて公開しました。こちらはヤフオクサーチとは違い、新品の商品の最安値の検索に使えると思います。たまにネットが応答しなくなるのは直さないといけないなぁ。
では。

今買いたい裁断機とスキャナ

今までカッターで一冊ずつ手で裁断してきましたが、やはり裁断機を使う方が早く、紙くずもださないで済むようだ。自宅の事情で、悠長に本を一冊ずつカッターでカットできなくなってしまうので、最近また裁断機をチェックしています。あと、ついでに富士通のスキャンスナップの一度に15枚くらいしか取り込めないADFもどうにかならないかと、スキャナや複合機もチェックしています。
Amazonのレビューページにも書かれていますが、裁断機については刃の交換しやすさと安全性が気になります。1000冊を超えて刃を2回取替えとそのくらいの頻度で交換するのが妥当なようです。メーカからいくつか刃の取替えが出来るモデルが発売されていますが、なかでもPLUSのPK-513LN-Aがよさそうです。てこの原理で垂直方向に刃をまっすぐおろすタイプで、刃がこぼれたりしそうですが紙が一番きれいにかつ、さくっと切れているように見えます。(YouTubeで見る限り)他には刃と同じ方向に縦にハンドルを下ろすタイプがあります。







【Amazon.co.jp限定カラー】
PLUS かんたん替刃交換 断裁機
(裁断幅A4) 26-001 PK-513LN-A
新品:¥32,200 (2012.09.01)


PLATA 大型 ペーパー 裁断機
PC010 プラタ限定カラー
¥9,800


ScanSnap S300の大きさや手軽さには満足しているのですが、ほとんどの場合、実用書や単行本の全頁をスキャンすることがほとんどなので15枚毎にスキャンしていると紙をセットしたり、ボタンを押したり、細かい作業に阻まれて結局時間がかかってしまいます。たまにジャムったり2枚同時にフィーダに流されたり、一回スキャンを開始してからそのまま最後まで人の手を煩わせずには終わらせられない状況にあります。
Canonの複合機は一回のADFの許容量は50枚。そこそこだと思うが出来れば100枚くらい出来ないものか思ってしまう。それでもScanSnap S300に比べれば約3倍。(S1500と比べては同じ)。給紙時のジャムやトラブルがなければ使える範囲。プリンターの機能的には白黒、カラーと機種が選べますが、(機能表はこちら)気にしておきたいところは両面取り込みのサポート。いくつかのモデルは片面しか取り込みが出来ないようなので要注意です。両面取り込み対応のカラーレーザーモデルとしてはWifi対応のMF8380CDWと、WifiなしのMF8380CDNがある。モノクロではMF6780dwとMF4890dwがあり両方Wifi対応でモノクロ印刷の性能で差が出ている。カラー印刷の用途がなければ、Satera MF4890dwがお手ごろでレーザープリンタのインクにあたるトナーのメンテナンスが一色なので楽なのと、収納の収まりにもいい形をしている。
スキャナソフトに関しては、先日紹介したパナソニックの読取革命と、ファイル管理革命Liteが同梱されている。ファイル管理革命は紙の電子化、ファイルのデータベース化に有効なソフトといえる。やはりOCRの性能は自炊で本を取り込む時のポイントになりますが、モニタリングフォルダ機能を使ってフォルダのファイルを一括テキスト認識が取り込みができる点は抑えておきたいポイントだろう。ネットワーク上でスキャナのファイル出力先を指定しておいて、テキスト認識済みのファイルを決まったところに吐き出すようにしておけば自動化できる。ただし、オフィス環境でファイルをネットワーク上で管理する場合、ファイル管理革命がチームにとってどのくらい貢献するかは不明だがその辺は環境に合わせてクライアント側で対応できる範囲だろう。




FUJITSU ScanSnap S1500
Acrobat X 標準添付
FI-S1500-A
¥36,000


Canon imageFORMULA DR-C125
A4対応 CISセンサー 給紙枚数30枚
重送軽減リタードローラー採用
Uターン排紙省スペース設計モデル
¥34,020




CANON
カラーレーザー複合機
Satera MF8380CDW
¥69,357


キヤノン レーザービーム
プリンタ 複合機
Satera MF4890dw
¥44,981


CANON
モノクロレーザー複合機
Satera MF6780DW
¥63,716

今回、スキャナと複合機を検証した結果は、印刷の用途がまったくなければ(領収書の発行や書類の印刷が必要ない場合)、やはりScanSnapの上位機種S1500が備え付けでも、コンパクトでScanSnapがベストな選択肢といえる。取り込み解像度の数値ではどちらも600dpiだが、キャノンのスキャナがCISなのに対し、ScanSnapがカラーCCDとなっているところも実機でチェックする必要がありそう。(CCDはウェブカメラにも使われているものだがCIS方式はちょっと不明)あとはパナソニックの読取革命の性能か。

いきなりPDFfor自炊を調べてみた

ここのところ、OCRソフトのレビューを書いていますが、ソースネクストにもOCRソフトがありました。その名も”いきなりPDF for 自炊”。値段からいうとダウンロード版で6700円。安い。
どうやら、OCRソフトにはまとめてフォルダごと自動変換する機能はどのソフトにも入っているようです。基本的なスペックは、各種タブレット端末の解像度に対応するサイズで保存が可能、Zip形式で固められているPDFファイルの変換、スキャンした画像の文字をくっきりさせる画像補正となっています。
さらに変換中なのを忘れてマシンをシャットダウンした場合、次のマシン起動時に変換を再開してくれるという機能もあります。(なぜこの機能が必要なのかはあまりよくわかりませんが、夜寝る前に大量のOCR変換を開始し、夜中にブルースクリーンが発生する事を想定している(まさか?)のか、逆にシステムトレイに常駐しているから次回起動時に自動変換スタートをとめるすべがないのをセールスポイントとしてしまったのか。

ソースネクストでいいところは、年額2980円で超割ダウンロードに加入していればすべてのダウンロード版ソフトが半額になるところ。2980円だったら、2,3本ソフトを買ったら元は取れてしまいます。
そして、いきなりPDFは60MBとサイズが小さく扱いやすそうです。、カタログを見ているとOCRはパナソニック製となっています。”いきなりPDFfor スキャナ”と、”いきなりPDF for 自炊”にPDFファイルのサンプルがダウンロードができます。”いきなりPDFforスキャナ”のサンプルファイルでは前回読取革命で発生した行の末尾が最後まで選択できない現象が見られました。(縦書きの”いきなりPDFfor自炊”のサンプルファイルはOK)サンプルファイルでテキストを選択して、Ctl+Cでコピーした限りではすべてのテキストがコピーできていましたが、複雑な段差のある文章などで実際に検証しないとわかりません。


自炊風景1
(ちょっと画像がなくて寂しいので挿絵として、自炊風景から)

読取革命が1万円。”いきなりPDFforスキャナ”は、ダウンロード版が1780円。(さらに超割で半額)
安さ+国産品で選ぶなら、いきなりPDF。他国語対応、完璧なクオリティならアドビアクロバットというところでしょうか。
ちなみに、ベクターにも”本格読取”、”読んde!!ココ”などが公開されています。
(”本格読取”はソースネクスト社製でこれもパナソニック製OCRのようです)
なかでも、e.Typistは58カ国対応のフルバージョン 12096円と、英語と日本語の2カ国対応で8820円。(このくらいなら58ヶ国語を買ったほうが割安だと思います)体験版ないのかなぁ・・・e.Typistは他のリサーチしてから、後日詳細を書くことにします。

では!

Adobe Acrobat X Proを使ってみた

前回は、Panasonicの読取革命体験版の使用感を書きましたが、今回はアドビアクロバットの体験版のOCRを試してみました。読取革命のテスト中には、OCRソフトはこのくらいが限界かと思っていたのですが、さすがはPostScriptとPDFの本家のAdobeだけあって、OCRの読み取りはかなり正確です。
まずファイルをオープンした時点では、単純にアドビリーダーと同じ感覚でリーダーとして普通に表示、コピー、印刷ができるのを確認し、アクロバットのみに追加されているツールバーのツールボタンからテキスト認識を実行します。コマンドオプションには開いているファイルのテキスト認識と、複数認識のオプションが表示されます。
まずは、現在開いているファイルのテキスト認識を選ぶとページが一頁ごとに表示されていき、スキャンしたときの微妙な傾きの補正、スキャンスナップのOCRソフトでは自動回転されなかったページの回転もなんなくこなしていきます。一頁約1~2秒の速さで変換していきます。今回使ったアクロバットのバージョンは英語版ですが、OCRの対応言語は、日本語、英語、ドイツ語、フランス語に対応しています。英語と日本語を使ってみましたが認識率はかなりのものだと思います。
円高の今、少々英語のウェブの解読力がある方はUSのアドビのオンライン版を買ってみるのも良いと思います。特に英語版でも日本語のOCRに制限はありませんでした。2012年8月13日現在、英語版のアクロバットプロはフルバージョンで449ドル、アップグレード版は199ドル。日本語版は各、57,540円、25410円(アマゾンでは、49,813円、 22,544円)となっております。ちなみに今日の時点で1ドル=78.2円でした。



アマゾンでの値段 (2012年08月13日現在)
ダウンロード版の方が通常版よりも高い(?)ダウンロード版もない(?)

通常版 通常ダウンロード版 アップグレード版
Pro 49,813 50,086 22,544
Standard 32,542 34,800 14,752


アドビ公式ストアの値段

通常版 通常ダウンロード版 アップグレード版 アップグレードダウンロード版
Pro 57,540 54,800 25,410 24,200
Standard 36,540 34,800 19,110 18,200


その他の機能としては、ウェブページのPDF化、バーチャルプリンタへの印刷イメージとしてのPDF出力、オフィスフォーマット保存ができます。他のアドビのソフトの中でも出来は最高です。Flashやら、Photoshopやらあまり完成度が高くないソフトが多いですが、アクロバットはお勧めです。(これだけで1.9GBもハードディスク領域を取られるのは取られすぎな感じはしますが)
ひとつだけ難点を言うと、オンラインの体験版のダウンロードページからなぜかダウンロードが出来ません。(私だけでしょうか?)アドビのソフトってオンラインの機能はいらない気がします。これだけの高価なソフトなのにオンラインアップデートやら、メールやら広告やらその辺は考慮していただきたい。(アドビのそういうところはぜんぜん信用していませんので改善されたという報告を聞いたら試すことを考えることにします)
とにかく、ソフト本体の機能に関してはべた褒めなネタとなってしまいましたが、とにかくスキャンスナップ付属のOCRの機能は完璧な感じなのです。これで今までのスキャンした本たちが報われるような気がします。
今までスキャンしてきた本たちすべてをWikiのようなデータベースにできる日はいつになることか。

読取革命のOCRの性能

Panasonicの読取革命Version14体験版をインストールして試してみました。
ざっと使ってみた感想はScanSnapについているOCRは完全に自動的に取り込みできる(画面上で操作する項目がない)、速度も速いような気がしました。読取革命では、画面上でスキャナから読み取ったイメージを画面に表示し、テキストに変換する境界領域の指定、修正ができるものの、ファイルによっては高圧縮PDFで保存したテキストデータの位置が正確に埋め込まれないためにPDF閲覧ソフトで開いて、マウスでテキストを選択するときに正確にコピーができない状態になってしまいます。高圧縮のPDFファイルの場合画像がページとして表示され位置的な座標にテキストが埋め込まれている形式なので、高圧縮フォーマットじゃなければこの現象は起きません。
まず、簡単モードと標準モードがあり、簡単モードではPDFファイルを指定して開き、取り込んだ画像が画面に一頁ずつ表示され、テキストの区域が選択されます。その後選択領域の修正モードになり、その後納得の行く区域を選択した後、一括認識、ファイルに保存というステップで変換します。
一括認識中は画面上に一頁ごとに認識中のテキスト選択が表示され今どの区域が変換されているか目で確認することができます。その後、取り込んだ画像とテキスト領域が同時に表示されOCRが変換したテキストを確認して修正するモードになります。選択区域、縦横の選択精度はかなり正確に選択されているように思われます。(保存後のPDFファイルのテキスト埋め込み位置は英語OSのせいかも知れませんので後日確認することがあったら修正します)詳細モードはこのステップを手で実行できる用になっています。保存形式もPDFにはPDF,PDF(透明テキスト)、PDF(高圧縮)、XPS、Text、HTMLと選択できます。
認識後保存ボタンで再度、認識した領域が表示されていき、その後ファイルの保存が終了します。(一瞬でファイル保存できないの?)
変換区域の修正、テキスト変換の修正を人間が目で確認しないといけないところは現代のコンピュータの悲しいところですね。ユーザ辞書登録みたいな機能はあるものの、そういうのはユーザに委ねるのではなく、一歩進んで内部辞書から、ありえない単語の自動補正とかもどうにかできないものかと思いました。(SpeechAppには漢字読みテーブルと語句補正も入れようと思います)


   
パナソニック 読み取り革命 ver.14

その他の機能としては、フォルダーウォッチャー。これは常に指定されたフォルダを監視しOCR対象のファイルがコピーされたら、そのファイルを変換して指定したフォルダに指定したフォーマットで保存できます。TXT、RTF、Excel、Wordと便利な形式で保存することができる点は〇です。
 現時点では自宅でマイクロソフトオフィスを使う必要がないので、PDF、TXT、RTFで出力してみましたが、なぜかPDFファイルだけはフォルダーウォッチャーからOCRの処理をかけるとエラーが出て変換はできませんでした。これをScanSnapに付属のOCRと入れ替えて使うこともできそうです。(読み取り革命のインストール時にScanSnapの自動起動アプリに登録される)
最後に、デジタルカメラ監視機能。これは挿入されたリムーバブルディスクがデジカメのメモリであるかの判別を行い、デジカメの画像データがあった場合、その画像からOCRする事ができる監視アプリです。これもフォルダウォッチャーと同様システムトレイ上の常駐アプリで、メモリが挿入された時点でポップアップが表示されます。
全体的な感想としては、変換区域の選択された時点でもう少しアイディアがほしかった。たとえば語句の自動補正や外部プログラムの起動やマクロ、読み上げソフトのプラグイン等。マクロが使えるとページ番号のチェックや足りないページ、ページのヘッダやフッダの自動削除ができるようになったりします。
しかし画面上で、テキストの修正ができたり、区域の選択をして100%正確なテキスト変換に人間の工数をかけるならば、このソフトでいいと思います。まぁそんな需要はどのくらいあるのか不明ですがもし、そういう仕事の用途がある方は使ってみるのも良いでしょう。