「木の情報検索エンジン」運営サービスの設置経緯とその構造、利用方法
1.はじめに 現状

日本でのインターネット世帯浸透率は80%を超えており、産業界、官界、学術界とどの分野においてもインターネットでの情報収集・発信は一般的なものとなった。そしてホームページ関係の技術革新と利用する人々のインターネット文化が変化し、ホームページ2.0と言われる時代に突入してきた。当社で「木の情報発信基地」などのホームページの運営を開始して10年が経過し、実感することは、各界で活躍している年代の中で、ITを利用しない(主に高齢の人々)10年代分の層が退場し、あらたに10年代分の層が加わってきたことである。この年代は若く、インターネットやパソコンにまったく抵抗がない世代である。あと数年もすれば、インターネットを自分で操作しないという人はビジネス界にはいなくなるだろう。


木の情報発信基地の最初ホームページ 1996年2月
わずか3つのメニューであつた


2.かかえる問題

 インターネット上では日本語によるものだけでも膨大な情報がストックされていて、そして毎日確実に増加している。今までは探すのが不可能であった情報がインターネット上に公開されている。
そのため、欲しい情報を探すのに時間がかかったり、テクニックが必要となってきた。このジレンマは何も木材業界だけでなく、他の業界や世界中で起こっている。
例えば大手検索エンジンのYahooで「木」を検索すると2億ページもあり、Googleではなんと3億ページも選びだしてくる。これは産業資材の木材や樹木の「木」だけでなく、名前・地名の「佐々木」や「茨木」とか、エッセイ、商品解説の中での単なる名詞などで、「木目調のフロントパネル」、「木の向こうに佇む人は」などの「木」も検索してくるからだ。
このように、あきらかに関係のないと思われるようなホームページも検索し選びだしてくる。
 産業界にはさまざまな業界があり、木に関係するのはそのごく一部である。例えば日本標準産業分類によると1269の産業がある中、木に関係する業界は拡大解釈しても約60である。検索ロボットは「木の業界」だけを検索しているのではなく、無駄なことにすべての産業界のホームページも検索しているのである。


3.解決することはできないのか

これらの問題の解決策としては各ホームページがどの業界に関係するのか、したいのかということを宣言し、検索ロボットでその宣言内容を判断すれば出来だろう。ある鉄のメーカーが商品を製造し、木に関係する業界に売り込みたいなら、その会社の商品PR 用ホームページは「鉄」と「木」の業界と宣言すればよいのである。
しかし、このような仕組みは今のところはなく、インターネットの根本構造を変えない限り無理であろう。
 現実的には、業界別、目的別の検索ディレクトリサイトが一番有効と思われる。すでに目的別では、数多くのホームページがオープンし数年でそのサービスで上場企業になった会社もある。レストランや出前などの飲食、新刊や古本などの書籍、ホテルやチケットなどの旅行関係など多数ある。大手の検索サイトもこの分野に進出をしたがっているが、専門的になりすぎ、それらの目的に特化した会社に軍配が上がっている。業界別のサイトも一部に出てきてはいるが木材、樹木という分野では有力なものはないと思われる。
そこで、当社のホームページ作成10周年記念事業として、木、木材、樹木の分野・業界に特化した検索デイレクトリサイトを作ろうと考えた。

最初のデーターベース構築に利用したNEC 製のPC-8001。記憶媒体はカセットテープ。ソフトは大塚商会のPC-PAL1であった。


4.挑戦

 当社では昭和55年より、パソコンを利用したデーターベース構築をしてきた経験があり、ホームページ運営の技術と合わせ、木に特化した検索ティレクトリサイトが高額な費用をかけずとも構築できると判断した。そしてそのサイト構築の基本的な方針として下記の6つを考えた。
1.木の業界に在している人、関わりたい人が自分で登録すること。これで木の業界に参加宣言したことになる。
2.木に関係があれば、登録に制限はなく、ホームページを持っていなくても、また当社と競合業者でも登録できるようにする。
3.既存の検索エンジンのようにリンク切れを発生させない
4. 登録する人(情報発信する人)や利用する人から費用は徴収しない。
5. データーベースを基本構造とし、一度登録したデーターはさまざまに利用できるようにする。
6.木材、木工、家具、建築、造園、林業、森林などの木に関係する業界のほぼすべてをカバーしていると実感できるサイトにする


5主な構造と特長

5.1 構造

 検索エンジンの構造は主にデーターベースで4つの領域にわかれる。
1.ユーザー登録領域でホームページ来場者が現在登録できるものは「会社(大学、個人含む)登録」、「木のショールーム」、「木のお店」、「イベント情報」の4種類ある。この領域はユーザーの意見や要望によってデーターベースを追加することも出来る。
自社、自分の情報を発信したい人(登録者)が自社や研究内容、商品PRとなるキーワードを登録でき、即時にホームページに反映する。従来の登録サイトのように登録に時間がかからず、簡単で短時間で登録できるよう工夫した。@
2.検索ロボットが収集するデーターベースの領域。大手検索エンジンには太刀打ちできないが、私が考案したシステムとアルゴリズムでインターネット上にある日本語の木に関係するホームページを自動収集するロボットを開発した。現在試運転中だが、日本中の木に関係のあるホームページのキーワード情報をストックしはじめた。まだシステムとしては完璧とは言えないが、今後より精度をあげるようにしたい。A
3.運営者の登録領域で、現在2つのデーターベースがある。
 ひとつはインターネット上の各新聞社のニュースの中から木に関係のあるものを選びだしてデーターベースである。毎日情報を収集するが、陳腐化するのも早い。新聞社のニュースなどは早いもので3日、長いものは数ヶ月でそのホームページは削除されてしまう。削除されれば一般ユーザーが来場しリンクをたどっても、ページエラーになってしまう。そのため、各新聞社の掲載期間を予想して、削除される前に木の検索エンジンのデーターベースから自動的に削除している。
 もうひとつはテレビ、ラジオ番組から木に関係のあるものを選んだデーターベースである。このテレビ番組などは現在のところ、番組終了後1カ月でデーターベースから自動的に削除するようにしている。
 これら2つのデーターベースは後述する「キーワード検索」と「シソーラス検索」の対象となっており、キーワードが一致すれば検索結果として表示される。また、これらの情報の自動化登録はかなりのコストになるので、現在のところ手動で行っている。B
4.木に関係するデーターベース領域。
先の2つのデーターベースが動的データーベース とすれば、こちらは静的なデーターベースである。原理原則的なもので、昔から将来まで変化が少ないものである。木の用語、学名、市町村の木、諺、万葉集、過去の木に関する出来事などの事典・辞書類。例えば用語辞書は業界最大で現在8000語登録されている。静的なデーターベースと言っても、こちらの収集不足や新ビジネス、新研究などで新語が発生してくるので常時追加メンテナンスをしている。11本のデーターベースを搭載しているが、現在7本公開している。C


5.2 リンク切れ防止について

大手検索エンジンと同様、ユーザー登録したホームページが、何らかの事情によって、閉鎖、抹消されている場合がある。このような場合にも一般ユーザーがせっかく検索したにも関わらず、ホームページが開かない場合が出てくる。この対策として大手検索エンジンではキャッシュページを利用しているが、木の情報検索エンジンでは、リンク切れになっているホームページは表示しないようにした。毎日専用ロボットを動かし、リンク切れをチェックし、あらたなアドレスなどを収集し、再構築している。


5.3. 利用・検索について

 情報の検索には現在4種類の方法を用意している。
知りたい情報のカテゴリを選ぶ「ディレクトリ検索」、カテゴリを複数指定して満足条件で捜す「AND検索」、調べたい単語で検索する「キーワード検索」、知りたい単語と同じ意味の言葉も展開して捜す「シソーラス検索」などである。「キーワード検索」は部分一致で検索され、シソーラスは展開するので、検索単語と全体一致で検索するようにしている。
AND検索
シソーラス検索


5.4 シソーラス辞書の搭載

 私たちの木に関する業界は他の業界にはない特徴がある。同じ木であるのに呼び名が異なるものが多くあり、また、同じ呼名であるのに異なる木の場合もある。これが木の業界をわかりにくくしている原因のひとつであり、有効な辞書(電子版含め)は今までなかった。また、漢字とひらがなの関係もややこしい、例えばヒノキについて検索する場合、「ヒノキ」、「檜」、「桧」と何度も検索をやりなおさなければならない。このようなことははなはだ不便なので自動で変換してくれる辞書を構築した。
木材(樹種)や用語をそれぞれの別名のデーターベースでマッチングさせるわけであるが、どのような方式でするのか、名前の相互関係を分析したシステムを構築した。主な5種について解説する。
1.まったく同じ名前で違う樹種、あるいは内容のものが多数存在する。「同名異木」と言われるもので、ツバキ科のカリンとマメ科のカリン等の例がある。これは辞書の展開中に別画面を開き、そこで選択できるようにした。   
2.木の別名・通称名が同じであるのに名前が異なる樹種がある、「別名異木」と定義した。 データーベースでの展開は片方向は選択し、片方向は繋ぐようにした。例としてはホワイトウッドはスプルースとイエローポプラを選択でき、スプルースはホワイトウッドに繋ぎ、イエローポプラはホワイトウッドに繋がる。
3.通称名が同じで、一般的に同樹種に思われるが違う樹種のもので「近樹種別名異木」と定義した。
例としてはキリとアオギリ、アブラギリ、イイギリ等があげられる。キリからはアオギリ、アブラギリ、イイギリ等は選択できるが、逆からは選択も繋ぐことも出来ないようにした。 
4.通称名が同じで近樹種のもの、「通称同名で近樹種」と定義した。一般にツバキと呼ばれるがヤブツバキとフユツバキがあり、どちらも同じ仲間である。この場合は通称名の方が一般的であるので、展開はどちらからも繋ぐようにした。ツバキと検索すればヤブツバキとフユツバキも選択され、ヤブツバキで検索してもツバキも選択される。 
5.一番多い形態になるが、同じ木であるのに、異なる名前がついている「同木別名」がある。展開は双方向に繋ぐようにしている。
 この類はさまざまな要因から別名が発生している。
地方や方言などによるもの、翻訳時に誤解や間違いからくるもの、古代からの言葉の変遷によるもの、 国によって呼び名が異なるもの、用途や実などからくるもの、そして木の業界の特殊事情、商業名として勝手につけてしまうものなどがある。
 地方名については、ある程度全国的なものを辞書に入れた。すべて入れてしまうと、同名が多くなり辞書の展開中に、選択個数が多くなりすぎ、実用性が落ちるからである。現在シソーラスに登録してある単語は約6700語でこれに2語から10語展開するようにしている。


6. 今後

ユーザーからの意見で現在まで改良を加えてきているが、今後もバージョンアップを加えるつもりである。
一般の人が木に関する情報を欲しい場合に必ず利用できるような真の木に関係するポータルサイトとなり、また登録している企業、個人のビジネスに役立ち、そして木の業界に貢献できるような検索サイトを目指す。



中川木材産業の提供Web 情報サービス:木と木材の専門検索サイト 木材の総合情報サイト ビジネス:大阪兵庫奈良のウッドデッキ施工 DIY用(組立)ウットデッキ