ホーム > IT > PDF > PDFファイルから テキスト文字列を取り出す方法
目次 | 元のページ 前のページ | 次のページ サイトマップ | ページEND

PDFファイルから テキスト文字列を取り出す方法


PDFファイルから テキスト文字列を取り出す方法



文章(テキスト文字列)の書かれた印刷物を Scanner で取り込みますと、テキスト文字列もただの画像データとして取り込まれてしまいますので、そのままではテキスト文字列として取り出して、再利用するとかはできません

そのような画像ファイルとしてのPDFファイルから、元のテキスト文字列を取り出したい際は、Adobe Acrobat の「テキスト認識」ツールを利用します



PDFファイルから テキスト文字列を取り出す手順



 1. テキスト文字列を取り出したいPDFファイルを Adobe の Acrobat で開きます
 2. Acrobat の「ツールバー」右肩にある「ツール」をクリックします
 3. 「テキスト認識」カテゴリのドロップダウンリストから「このファイル内」をクリックします
 4. 「テキスト認識」させる範囲(ページ)を指定するポップアップが開きますので、通常、デフォルトの「すべてのページ」のまま、「OK」をクリックしますと、Acrobat の OCR 機能により、文字列が認識されます
 5. 文字列をマウスカーソルでドラッグし、コピー&ペーストするとテキスト文字列として取り出せます

 注. OCR 機能は完璧なものではなく、中には誤認識(誤字)される文字もありますので、再利用する際は、チェックが必要です
元々画像データだった図などに文字が含まれていた場合、「テキスト認識」によって、画像と文字が分離され、画像データとしての質が落ちる場合があります
「テキスト認識」させたPDFファイルは、元のPDFファイルと別の名前を付けて保存しておけば、画像データ、テキスト文字列、それぞれを使用できます

目次 | 元のページ 前のページ | 次のページ サイトマップ | ページTOP
ホーム > IT > PDF > PDFファイルから テキスト文字列を取り出す方法
   

© 2014 abhp.net All Rights Reserved.

コンテンツ一覧

ページTOP
ページTOP
ページTOP
ページTOP