人間が見やすいExcelの作成は、もうやめよう…業務効率が1000倍になるDX活用術

 また、あまりに古い形式、OS、アプリを必要とし、その製造社が消滅していて読みだせないこともあるでしょう。その場合、紙をスキャンして、OCR=文字認識させるにしても、高品質な図表入りの元ファイルを再現させるには、AIもまだまだ非力であり、認識誤りの修正などにかなりのコストがかかります。認識誤りが大勢に影響しない、頑健(robust)なテキスト分析ソフト(例えばAIポジショニングマップMr.DATA)を使うなりして、誤りの修正などやらないのが正しい戦略でしょう。

 なお、古い形式の電子ファイル(バイナリファイル)の場合は、xdoc2txt.exeという、国内の主要ソフトのほとんどどんなバイナリでも読み出せるフリーウェアがあります。日本語ワープロでは「一太郎」以前のヒット策「松」のファイルからテキストを読み出せるのでお奨めです。ExcelやPowerPointはうまくシートやページの仕切り線などもテキストデータで出力してくれます。 

 さて、今でも使われているMS Office互換のファイルであれば、十分合格なデジタルデータといえるでしょうか? いいえ、まったく違います。オフィス文書は、人間が、人間らしいやり方、スピードで作業するための形式、インタフェースを反映しています。使い方によっては、AIにとっては非常に扱いに困った代物になってしまうのです。

 次の図の左側の3種類のExcelデータを見てください。徹頭徹尾人間向けに、欄(セル)が結合されていたり、以下同様、と省略されていたり、表の中に小さな表があったりします。「省略されている内容は、上の行と同じに見えるじゃないか!」というのは人間が眺めるときの都合です。機械にとっては、同じ内容を引き継いでいいのか厳密に指定されないと、「わかりやすく」ありません。

人間が見やすいExcelの作成は、もうやめよう…業務効率が1000倍になるDX活用術の画像2

 そこで、右側のように、1行目に各欄の名称、定義を書いて、2行目以下は、金太郎飴のように、同一形式でデータ内容が出てくるデータにすることが求められます。保存するときは、コンマで区切られたCSV(Comma Separated Value)か、タブ・コードで区切られたTSV(TAB Separated Value)にするのが、さまざまなシステムとデータをやりとりするのに便利です。なお、上例右側のシンプルな、すっぴんの表(ひょう;table)の中身は、我がメタデータ社の誇る「ビール・オントロジー」の一部です。国内で売られているビール千数百種について、そのさまざまな属性情報を整備したものです。AIを活用して何らかの知識処理のようなことを行うには、このようにオントロジー(分野ごとの階層知識体系)を整備するのが肝となります。

「それでは人間にとって見にくい(醜い)ではないか?」との声には、「カード型データベースのように、各行を1枚のカードに奇麗に見やすく配置して閲覧、編集するフロントエンドをつければよいでしょう?」という回答があります。機械向けには、CSVや、TSVのままではなく、遠方にあるコンピュータが直接呼び出して処理できるように、API(Application Programming Interface)にします。

 それにより、丸ごと持っていかれてどう使われるかわからない危険な状態から、アクセス者が、そのアクセス権に従って必要な部分を必要なだけ検索・加工して取り出せるオンライン・データベースになります。ブラウザでも試しに呼び出すことはできますが、原則、プログラムがAPIを自動で呼び出します。企業と企業が互いにAPIを提供し合うことで、業務連携のスピードは100倍にも1000倍にもなります。