X
年始年末セール

PDF形式とは色んなOSの間にファイルを共有する時、書式などを崩さないようにAdobe会社から開発されるファイル形式の一種です。数多くのメリットがありながら編集し難いというデメリットもあります。ではPDF形式のファイルを編集するのは絶対無理のでしょうか?今日はこの記事で皆さんのこの疑問についてしっかり解明させて下さい。

一、直接にPDFファイルから特定範囲内でテキスト抽出する方法
二、PDFファイルをtext、txt(テキスト)形式に変換して全テキスト抽出する方法
三、スキャン版PDFファイルからOCR(文字認識)機能でテキストを抽出する方法

一、直接にPDFファイルから特定範囲内でテキスト抽出する方法


直接にPDF形式のファイルからテキストをコピーして、他の形式のファイルへ貼り付けたいならばまず「Adobe Acrobat」というAdobe会社から開発されたPDFファイル処理専門ソフトの力に借ります。まずは公式サイトから「Adobe Acrobat」のインストールパッケージをダウンロードして、予めパソコンへインストールしておいてください。これからは「Adobe Acrobat」でPDF形式のファイルからテキストを抽出する方法を案内します。

1.処理したいPDFファイルを予め開いて、ソフトの「テキストと画像の選択ツール」を選択します。

ツール テキスト

2.それから開けているPDFファイルの中抽出したいテキストを選定して、編集>コピーの順でボタンを押して、またはホットキー(Ctrl+Cキー)でテキストをコピーシミあす。

ロック テキスト

3.そしてコピーされるテキストを貼り付け先で「貼り付け」、或いはホットキー(Ctrl+Vキー)で貼り付けてばいいです。メモ帳やWordファイルに直接貼り付けます。

コピー テキスト

「Adobe Acrobat」によって、簡単にPDF形式ファイルから特定範囲のテクストを選択して、複製することができるが、テキストの書式が失われる場合もあるのでご注意を。また、直接にテキストをコピーして抽出することができないPDFファイルもあります。もしファイルを丸ごとテキストを抽出したければ、次に紹介されるソフトで試してください。

二、PDFファイルをtext、txt(テキスト)形式に変換して全テキスト抽出する方法


PDF変換というPDFコンバーターによって、手元の編集不能PDFファイルを簡単に他の編集可能のtxt形式に変換することが出来ます。その後、変換先のファイルにテキストを編集すればいいです。画像化PDFファイルでも、OCR機能付きの「PDF変換」で変換することができます。

Windows Version DownloadMac Version Download

1.「PDF変換」を起動して、ドラッグ&ドロップで抽出したいテキストを含んでいるPDFファイルを変換リストに追加します。複数のファイルを一括して変換するのも対応出来ますよ。そこでリストされるファイル形式から変換したい形式を選択します。変換先の形式、及び保存先を設定したら緑色の「コンバート」ボタンを押して、OCR機能使用を確認して(画像化PDFファイルでなければこのステップが無し)、ファイルを選定された形式に変換します。

OCR 機能

2.変換完了ウインドウが表示されたら、直接に変換されるファイル所在するフォルダを開いて、変換後のファイルを確認することも出来ます。

変換 完了

その後、変換されたファイルをofficeソフトから「その他の形式で保存」して、txtにすればPDF形式のファイルからテキストを全て単純なテキストファイルに保存することが可能です。

Windows Version DownloadMac Version Download

三、スキャン版PDFファイルからOCR(文字認識)機能でテキストを抽出する方法


紙製品からスキャンしてデジカル化されたテキストを一部のみPDFファイルから抽出したければ、OCR(文字認識)機能があるAcrobatを使わなければなりません。ここで簡単にAcrobatでスキャン版PDFファイルからテキストの抽出方法を紹介します。

注意:OCRをPDFに適用するには元のスキャナの解像度に要求があります。72dpi以下に設定されたPDFファイルに適用できない、たとえ150dpiでも精度があまり高くありません。300dpiでスキャンすると、最適なテキストが生成されます。

1.Acrobat を起動し、OCR を適用する PDF ファイルを開きます。

そしてソフトによって、操作を決めます。

Acrobat DC:
ツール/スキャン補正/テキスト認識/このファイル内の順序で選択します。

テキスト認識 このファイル

Acrobat XI:
ツールパネルから、テキスト認識/このファイル
内の順序で選択します。

テキスト認識 ツールパネル

2.OCR を適用するページ範囲を選択します。

Acrobat DC:

第 2 ツールバーから選択します。

テキスト ページ

Acrobat XI:
テキスト認識ダイアログボックス
から選択します。

テキスト すべてのページ

3.続いては需要によって最後の設定を行います。文書の言語、出力先設定を日本語のテキストにしてください。設定が済んだら「OK」をクリックして、OCRを適用します。

言語 設定

言語 テキスト

以上ではPDFファイルから特定範囲内のテキスト文字、もしくは丸ごとに全テキスト及びスキャン版文書のPDFファイルからテキストを抽出する方法のまとめて紹介でした。長文だからご自分の需要によって必要な部分だけで読むと時間を節約するのがオススメです。もしこれらの方法の中に何か分からない部分があればご遠慮なく、コメントで教えてください。

アンケートにご協力ください。この記事は役に立ちましたか?現在   0   人の方が役に立ったと言っています。

FonePawブログ

弊サイトはお客様の利便性向上を目的としてクッキーを使用しております。詳細を確認承諾