PDFテキスト変換


pdfで出力されている情報をEXCELで利用したくなった

あるところでシステムからの出力がPDFでしかなく、印刷後、改めてEXCELに手入力を行っていた。
まあ、事務処理ではよくあることです。情報の再利用を考えていない業務はざらにあります。

ほかにも
例:EXCELで注文書を作り、印刷して、FAX、お客様の印をいただき別部署にFAX、別部署で新たにEXCEL手入力

各担当者は、前処理のことに頓着しないので、与えられた仕事をただこなすだけです。
全体を見る人がいれば、情報の再利用を行い、全体の効率化を考えるのですが?

今回は、PDFをテキストに変換し、テキストを解析し、必要なデータを抽出してEXCELに自動転記させます
1ヶ月分のデータを入れる退屈で時間のかかる作業が1秒で完結
開発作業時間 半日

-------------------------------------------------------------------------------

感想
             省力より退屈な仕事をしなくてもいいことが、精神衛生上好ましい!
-------------------------------------------------------------------------------

オープンソースのPDF変換を利用

設置場所
     c:\convert\xpdf

XPDF設定 漢字用
・xpdfrcの記述の仕方  絶対パスで書かなければ

cidToUnicode Adobe-Japan1 "C:\convert\xpdf\japanease\Adobe-Japan1.cidToUnicode"
unicodeMap ISO-2022-JP "C:\convert\xpdf\japanease\ISO-2022-JP.unicodeMap"
unicodeMap EUC-JP "C:\convert\xpdf\japanease\EUC-JP.unicodeMap"
unicodeMap Shift-JIS "C:\convert\xpdf\japanease\Shift-JIS.unicodeMap"
cMapDir Adobe-Japan1 "C:\convert\xpdf\japanease\CMap"
toUnicodeDir "C:\convert\xpdf\japanease\CMap"

(1)マクロからバッチを起動
               pdftotext
               数字を扱うのでnkfで全角、半角変換

               きれいにテキスト化できた

@echo off
rem
rem PDFをテキストに変換する。数字は半角にする
rem 入力はPDFファイル
rem 出力はPDFファイル.zen 全角
rem 出力はPDFファイル.txt 半角
rem
rem pdfをtextに
xpdf\pdftotext -raw -enc Shift-JIS %1 %1.zen

rem 数字が全角になっているので半角にする
xpdf\nkf32 -Z %1.zen > %1.txt

(2)マクロでテキストを解析、セルに転記

一行一行読んで、データを解析する