PDFファイルから テキスト文字列を取り出す方法
文章(テキスト文字列)の書かれた印刷物を Scanner で取り込みますと、テキスト文字列もただの画像データとして取り込まれてしまいますので、そのままではテキスト文字列として取り出して、再利用するとかはできません
そのような画像ファイルとしてのPDFファイルから、元のテキスト文字列を取り出したい際は、Adobe Acrobat の「テキスト認識」ツールを利用します
|
PDFファイルから テキスト文字列を取り出す手順
|
1. |
テキスト文字列を取り出したいPDFファイルを Adobe の Acrobat で開きます
|
2. |
Acrobat の「ツールバー」右肩にある「ツール」をクリックします
|
3. |
「テキスト認識」カテゴリのドロップダウンリストから「このファイル内」をクリックします
|
4. |
「テキスト認識」させる範囲(ページ)を指定するポップアップが開きますので、通常、デフォルトの「すべてのページ」のまま、「OK」をクリックしますと、Acrobat の
OCR 機能により、文字列が認識されます
|
5. |
文字列をマウスカーソルでドラッグし、コピー&ペーストするとテキスト文字列として取り出せます
|
|
|
注. |
OCR 機能は完璧なものではなく、中には誤認識(誤字)される文字もありますので、再利用する際は、チェックが必要です
|
|
元々画像データだった図などに文字が含まれていた場合、「テキスト認識」によって、画像と文字が分離され、画像データとしての質が落ちる場合があります
「テキスト認識」させたPDFファイルは、元のPDFファイルと別の名前を付けて保存しておけば、画像データ、テキスト文字列、それぞれを使用できます |
|
|
|