Conference レビュー

9月5日(水)
【メインコンファレンス】
第二部 PDFを利用した社内文書共有

モデレ−ター:グローバルデザイン株式会社 白旗保則(PDF Conference実行委員)
スピーカー1:株式会社ハイパーギア 本田克己 氏
スピーカー2:キヤノン販売株式会社 今成健一 氏
スピーカー3:株式会社ジャストシステム 上田健治 氏


PDFを社内文書の共通フォーマットとして文書管理に利用する実務的ノウハウについて,本田氏からはプラグインソフトの有効利用,今成氏にはハードウェア的アプローチ,上田氏にはナレッジの有効活用のための検索エンジン概念について,各社の製品デモンストレーションを交えながらレクチャーが行われた。

■レガシードキュメントのデジタル化(本田氏)

●レガシードキュメントへのPDF採用
レガシードキュメントは従来,紙文書をスキャニングして取り込んだだけの画像データだったため,検索することができなかった。そこで,検索可能なPDF(OCFテキストつきPDF)での管理が検討され,続々と導入されている。
PDFへの移行にあたっては,大量の文書を効率よくPDF化するためのシステム,Web利用を考慮したデータの軽量化,加えて簡単に素早く検索できるシステムが必要になる。

●最近の会社事情
リストラやオフィスのダウンサイズが推進されている昨今,小規模のオフィスに業務を統合することになれば,かさばる社内文書をどう管理するかが大きな課題となる。また,人の移り変わりも激しくなる。テンポラリーワークのノウハウ,あるいは定年退職者の業務などについて,紙文書だけ,あるいは今までのやり方で情報や知識を共有し,引き継いでいくことは非常に難しい。
これらの理由により,文書の電子化が急務となってくる。
現在,電子媒体の情報保管量と紙による情報保管量をくらべると,電子媒体の割合こそ年々増えてはいるが,紙文書の絶対量はほぼ横ばい状態である。今後,数年〜10年は紙文書は消滅せず,その間は電子文書の双方を管理していかなければならないであろう。

●画像ファイル変換による文書電子化の選択
従来,文書の電子化には,OCRを使ってテキスト変換し,改めて体裁を整える方法も取られていたが,1ページ当たり数千円と,非常にコストがかかる。そこで注目されたのが,スキャナで取り込む方式,すなわち画像ファイルへの変換である。しかしデータの検索ができないというデメリットがあった。しかし,大きなメリットとしてサインや捺印データが残ることによる証拠能力を持つ。

●電子化のメリット/デメリット
[メリット]
10年ほど前は省スペースのために必要とされていたが,現在はさらに,コピーコストの削減,FAX代替利用による伝達速度・送付コスト削減,デジタル化によって情報劣化防止,さらに情報の同時閲覧と再利用が可能になる。
[デメリット]
大きく2点挙げられる。
1.アプリケーションのケア
データを利用するためのソフトウェアの用意,さらにはバージョンアップやデータのコンバートに対応しなければならない。
2.二重管理の問題
電子化する必要のない文書の場合,またコストの限界によって全数を電子化できず,紙文書が残される場合もある。また数種類の電子データが混在する場合(CADと事務的文書など)は一括管理ができず,逆に手間がかかる。

●電子文書管理のポイント
管理形態が個人単位から会社単位へ移行するに従い,文書管理手段は,誰でも使える標準的フォーマットであることが前提になる。その上で,情報の寿命を延ばし,情報の共有化を図り,かつ網羅性を保てるハードウェアやソフトウェアを検討すると良い。

●PDFは電子文書のデファクトスタンダード
マルチソース・マルチユースという特性も持ち合わせたPDFを用いることによって,PDFには,画像情報とともに,検索情報およびセキュリティ情報も盛り込むことができ,網羅性の確保が可能となる。また,PDFの仕様が公開されていることで,各社独自のPDFツールが開発できることも,長い目で見て非常にメリットがある。その有用性は広く認められている。

●これからの文書管理
文書管理は「管理」から「文書探索」へ移行しつつあることへの認識が必要である。また,社外サービスとの連携により大きなメリットを生む可能性がある。

●ハイパーギア社製品・サービス紹介
「HG/Pscan」シリーズ:大量PDF生成
スキャナから直接PDFデータを生成するスキャニングすると同時にPDFが生成できる。
スキャナで取り込んだイメージに,OCRで生成したテキストデータを貼り付ける機能,しおりの自動設定も可能。
「HC-PDF」:フルカラー情報の圧縮
WWDS for CB:あらゆるデータを管理する高度検索システム
OCRテキストつきPDFを作成するとシステムを通じてWWDSサーバに自動登録。インデックス検索,概念検索,全文検索のほか,関連語自動生成,KNOW-WHO(知識を持つ適任者を類推する)機能も備える。(ジャストシステム社協業)
オプション「パブリシャーオプション」
登録されている文書をCD-Rなど外部メディアにPDF出力。WWDS検索項目をテキスト情報としてPDFに貼り付ける。さらにWWDS階層や検索項目でアウトラインを作成し,外部メディアだけである程度の検索を可能にする。
「サポート・エクスプレス」「ドキュメントエクスプレス」:PDFデータ入力サービス(東海エンジニアリング/SRI共同事業)
「電子倉庫サービス」:紙文書を倉庫で預かり,オンデマンドで電子化しメール送信する(新潟県セキュリティリサイクル研究所業務提携)
長期管理の必要な紙文書は依然多い。増え続ける紙文書の管理は今まで以上に難しくなる。そこで,膨大な紙文書を倉庫に保管しておき,必要な時だけPDF文書で受け取るシステムが考え出された。

■IT時代のコア・ドキュメント・ステーション
〜入力用のインターフェイスとしてのコピー機〜(今成氏)

●ナレッジマネジメントをハードウェア面からアプローチ
キヤノン販売のコピーマシン「MEDIO」は,ナレッジマネジメントという点をハードウェアから考え,情報を収集したり,実践したり,共有や配信といったワークフローの中心的役割を果たすものとして開発した。
[導入事例1:某大学への導入]
導入前は,紙文書や電子文書など,フォーマットがバラバラである,また,職員間のスケジュール管理が統一されていなかった。それを「MEDIO iR3250」,PDF,OCR,iOfficeを導入し,ファイル統一および検索を実現した。
[導入事例2:信販会社への導入]
導入前は,通信コストの負担が大きかった。そこで,FAX受信を専用線に切り替え,コピー機をHUBと接続して画像を流し,最終的なデータ格納先はLotusNotesとなっている。
成功事例の共通事項は,既存のインフラを利用していることである。

●MEDIO開発技術ポイント
・異なるデバイスに対応する共通ユーザーインターフェイスの開発
・複合機の生産性をアップするチップの開発
・高機能だが簡易なインターフェイスの開発
・管理サーバの手間を省く本体内チップ開発
・TCP/IP利用による高品質画像送信のコスト削減
・セキュリティにAdobe Acrobatのプラグイン,PDF OCRを用いる
・サーバ格納ツール「マジックハンド」の開発

●成功するシステム導入の方法
日常紙文書の電子化→電子文書情報を共有するためのグループウェアの導入→文書管理→ナレッジマネジメント運用(データマイニング/テキストマイニング)と,段階を踏んで導入する。

1.基本:日常紙文書の電子化
これには,扱い慣れたコピー機を操作するように,簡単に文書の電子化が行なえることが望ましい。その点を考慮し,「MEDIO iR3250」が開発された。
[操作特徴](Windowsベース)
・給紙部分など,個別デバイスの情報が伝達できる
・紙から電子,電子から紙,そしてインターネットへというデータ変換が簡単な操作で可能。特別な中間サーバなしに既存のネットワークのHUBに直接差し入れるだけで,画像を読み込み,PDFの自動生成を行なえる。
・電話回線,インターネットFAX,メール添付にも対応。
ここで得られるPDFはスキャニングデータを単純に変換しただけなので,しおりもなく,検索もできない。ファイル名も自動的につけられてしまうので,ユーザーが使いやすいように修正が必要である。そこで,次段階に入る。

2.応用(1):電子媒体に付加価値をつける
[文書の構造変化]
・1999年時点では,電子文書は紙文書の1割程度だったが,2005年には,割合が逆転すると予測される。
・電子政府(E-JAPAN)化の進行とともに,民間でも電子化が加速すると思われる。
・情報公開の標準フォーマット=Adobe Acrobat(Acrobat PDF)
・紙文書のメリットは依然としてある。電子文書でも,PDFデータなら紙に印刷し,簡単に持ち歩けるが,XML文書はデータベースにヒモづけされたデータなので融通がきかない。Adobe Acrobat 5.0で生成したPDFならば,紙文書とXML文書,両方の利点を兼ね備えることができる。
[付加プロセス]
・検索機能を付加するため,プラグイン(PDF OCR)を利用する。
・共有フォルダ内にPDFが生成されると,自動的にOCR作業が進む。
・テキストが任意のフォルダに吐き出される。その際にファイル名の変更を行なうことができる。
・テキストをPDF上に合成する。
・検索情報が付加されたPDFが出来上がる。

3.応用(2):「マジックハンド」の利用
マジックハンドのコンセプト:Windowsの共有フォルダの有効利用
[マジックハンド操作プロセス]
・Lotus Notesを立ち上げる
・共有フォルダ内のPDFをLotus Notesに入れる(マジックハンド・フォー・ノーツ使用)
・Lotus Notes内にワンプロセスでサーバに格納できる
 →情報公開の作業も容易に行なえる

4.応用(3) Lotus Notesがない場合
・iOffice(Web系スケジュール共有ツール)にログイン
・共有キャビネットに任意のPDFファイルへ異動する

[まとめ]
ペーパーレスを促進し,共有していくための標準フォーマットはAdobe Acrobat(Acrobat PDF)であり,活用するのはConceptBase Searchである。

■蓄積されたナレッジの活用
検索エンジン「ConceptBase Search 1000」によってどのような情報共有ができるか(上田氏)

●ナレッジマネジメント
1人1台のPC環境が整い,それに伴って情報がとても増えてしまった。情報を保存のために蓄積するのではなく,情報を共有し,再活用して新たな知識・知恵を生み出すナレッジマネジメントが近年注目されている。
その背景として,高度情報化社会に入り,経営にスピードを要求されるようになった。いかに早く,他社から抜き出て情報戦略を立てていくかが重要で,実現のためには社内の知識を最大限に活用していく必要が出てきている。その場合,蓄積しているだけではなかなか新しいものは出てこない。それを引き出す方法の一つが検索ではないかと考える。

●既存の知識活用における問題点
従来の検索システムでは,自分の必要な情報を抽出したくとも,キーワードを情報に結び付けるためにかなりの時間を費やしてしまう。その原因として,情報の作成側と利用する側とのキーワードに関する「認識のズレ」や利用側の検索スキルの不足,そして日々変化する情報には既存の固定的な分類体系が当てはまらなくなり,結果として分類が使えなくなってしまうことなどが挙げられる。

●ConceptBase Search=新しい考え方のクライアントサーバ型検索エンジン
[特徴]
・自然文による検索
思いついた言葉を好きなだけ入力し,検索できるので,検索スキルを持たないユーザーでも簡単に検索が行なえる。
・概念類似検索
従来の検索方法は単語を基本にした「点」の検索であった。これに対してConceptBaseは文書そのものを丸ごと検索キーとして使う,「面」の検索ができる。
検索結果は,従来は検索キーワードの多く含まれたデータ,もしくはリンクが多く張られているデータを先に抽出するものだったが,検索条件に対して内容がより類似している情報から順位づけをして結果を表示する。
レガシードキュメントをOCRテキストつきPDFにすることにより,ConceptBaseをによって情報を簡単に引き出すことができる。その際,現在のOCR技術では,紙文書の状態によっては作成の際に多少の誤変換が生じ,本来のキーワードと完全に一致しない場合がある。しかし,ConceptBaseでは,キーワードと多少の違いがあっても,類似文書として引き出すことができる。
・関連語辞書の自動生成
・多様なドキュメントフォーマットへの対応
PDFを始め,ほとんどのデータフォーマットが検索できる。
・さまざまなシステムとの連携
ファイルサーバやWebサーバなど,複数のデータベースを横断して検索することが可能。LotusNotes添付ファイル内検索にも対応する。エンドユーザーは情報の格納先を意識せずにさまざまな場所から迅速かつ簡単に情報を引き出せる。これは情報共有の簡便化,知識蓄積につながり,結果として生産性アップにつながる。

●ConceptBase Search 1000 関連オプション
・ナレッジマネジメント環境(ConceptBase Classfier:自動分類システム/ConceptBase Clusterling:ドキュメント解析)
・各種ゲートウェイ提供(Exchange,Lotus Notes,Web,RDB,JOSS)
・アプリケーション開発キット
ほか

●ConceptBase Search実績(建設会社導入例)
市場背景の変化により,建設ライフサイクルを管理し,業務を自ら生み出していく必要が生じている。それに対応する手段として,社内情報インフラの整備が開始された。
グループウェアやWebを導入した後,社内文書を,過去情報を見るだけの「参照情報」と活用する「蓄積情報」に分け,インデックスのみの作成,もしくはPDFと,用途に合わせて必要なものから順次電子化を進めていった。
しかし時間経過とともに文書の増加,またインデックスのカテゴリの変化などにより情報管理の構造化を再考することになった。まず“動いている情報”はグループウェアに蓄積し,一度終わった蓄積用データはイントラネットに移行し,それらの活用について検討された。
ConceptBase Searchの利用により,情報提供側は決められた場所にデータを置いておけばよく,情報を引き出す場合は,格納先を認識せずとも必要な情報が得られる。これらによって,部署ごとに分散していた類似情報を無理に統合する必要もなくなり,情報の利用状況ログを情報提供側にフィードバックすることによって,必要な情報の棚卸しや,より良質の情報提供への結び付けを実現。
最終的には,蓄積情報をXML化したり,精度を上げて自動分類し,各社員が求める情報を自動配信したり,ブラウザで個々に必要な情報が見られるシステムなどが検討されている。

●検索エンジンの選択
コードなどで検索する場合にはキーワード検索型,検索したい特定の単語が決まっている場合は全文検索,そして非定型文書を検索したい場合はConceptBaseと,用途に合わせて検索エンジンを選択することが,効率よく文書管理を行うためのポイントになり得る。

戻る

座談会Acrobat研究報告Conference レビュー製品紹介Webリンク集
HOME

PDF Conference実行委員会