ホーム　＞　IT　＞　PDF　＞　PDFファイルからテキスト文字列を取り出す方法

目次　｜　元のページ

前のページ　｜　次のページ

サイトマップ　｜　ページEND

PDFファイルからテキスト文字列を取り出す方法

PDFファイルからテキスト文字列を取り出す方法文章（テキスト文字列）の書かれた印刷物を Scanner で取り込みますと、テキスト文字列もただの画像データとして取り込まれてしまいますので、そのままではテキスト文字列として取り出して、再利用するとかはできませんそのような画像ファイルとしてのPDFファイルから、元のテキスト文字列を取り出したい際は、Adobe Acrobat の「テキスト認識」ツールを利用します
PDFファイルからテキスト文字列を取り出す手順
１．	テキスト文字列を取り出したいPDFファイルを Adobe の Acrobat で開きます
２．	Acrobat の「ツールバー」右肩にある「ツール」をクリックします
３．	「テキスト認識」カテゴリのドロップダウンリストから「このファイル内」をクリックします
４．	「テキスト認識」させる範囲（ページ）を指定するポップアップが開きますので、通常、デフォルトの「すべてのページ」のまま、「OK」をクリックしますと、Acrobat の OCR 機能により、文字列が認識されます
５．	文字列をマウスカーソルでドラッグし、コピー＆ペーストするとテキスト文字列として取り出せます

注．	OCR 機能は完璧なものではなく、中には誤認識（誤字）される文字もありますので、再利用する際は、チェックが必要です
	元々画像データだった図などに文字が含まれていた場合、「テキスト認識」によって、画像と文字が分離され、画像データとしての質が落ちる場合があります「テキスト認識」させたPDFファイルは、元のPDFファイルと別の名前を付けて保存しておけば、画像データ、テキスト文字列、それぞれを使用できます


目次　｜　元のページ	前のページ　｜　次のページ	サイトマップ　｜　ページTOP

ホーム　＞　IT　＞　PDF　＞　PDFファイルからテキスト文字列を取り出す方法



	© 2014 abhp.net All Rights Reserved.


コンテンツ一覧	ページTOP



ページTOP