動向レポート Vol.3
公共図書館の動向を新聞記事見出しに探る(2)

1.はじめに

「動向レポート」Vol.1「公共図書館の動向を新聞記事見出しに探る(1)」では,収集したデータから抽出した,図書館の基礎的な用語に対しての分析について掲載しました。今回の「公共図書館の動向を新聞記事見出しに探る(2)」では,図書館活動を明示しない言葉(とくに複合語等を形成することにより図書館の動向を示すもの)に焦点をあて,用語を抽出しました。また,それらの用語の注目度(重要度)をもとにチャート化して,動向を分析しています。固有名詞についても注目しました。

2.調査概要

2.1 調査対象とするデータ

調査対象は,(1)と同じ,62週分(全国紙を中心に,収集できた全国紙地方版や地方紙のデータも含む)の国内発行の図書館関連新聞記事見出しのデータとしました。

2.2 調査方法

(1)のときの形態素解析の方法を振り返ると,抽出される言葉(名詞)が分解されすぎて,新聞紙上での意味が判然としないものが出ました。例えば,「複合施設」(「複合」「施設」という2つの単名詞による複合名詞)や「学校司書」(「学校」「司書」の複合名詞)を形成する「複合」「学校」などの言葉です。それらは個々には,図書館活動を明示しないものですが,KWIC索引を作成しコンテクストに置くことによって,図書館の動向を示すものだと把握できました。このことから前回形態素解析によっては,複合語(名詞)としての抽出はうまくできていなかったといえます。また,固有名詞についても,例えば「国立国会図書館」(「国立」「国会」「図書館」の組み合わせ)のように,複合した形で表される場合があり,これらのものを抽出するには,単名詞だけでなく複合名詞をきちんと抽出する必要があると考えられます。そこで今回は,複合名詞を比較的容易に抽出でき,かつ,出現度数だけでなく,名詞の重要度を抽出できるソフトウェア,東京大学の中川らが提供する「専門用語(キーワード)自動抽出システム」を利用しました。

2.2.1 「専門用語(キーワード)自動抽出システム」

「専門用語(キーワード)自動抽出システム」は,次のことが行えるプログラムです。

(1)形態素解析プログラムによる単語分割

(2)複合語の作成(単名詞を複合名詞として結びつけ)

(3)抽出した用語の,文章中における重要度の計算

このプログラムは,複合語により表される専門用語を,キーワードとして文章中から抽出できる,という考えのもと,作成されています。一般に文章中では複数の単語の組み合わせで複雑な概念を表すことが多く,文章の内容が専門的な事項に特化すればその傾向はさらに顕著なものとなる1)と想定し,複合語を含むそれぞれの名詞について,文章中における,出現度数と,名詞を構成する単名詞の結びつきやすさの平均(詳しくは後述します)を掛け合わせることで重要度を算出して,文章中のキーワード(専門用語)を抽出するものです。前回の(1)の調査では,図書館の基礎的用語のKWIC索引を作成し,文脈を考慮することによって,他の用語との結びつきを把握していたところですが,「学校司書」,「読書通帳」などといった図書館の動向を示す名詞が,この重要度という指標とともに抽出できると考えられます。

なお,「専門用語(キーワード)自動抽出システム」のダウンロード版(プログラミング言語が異なるものとして,Perl版またはPython版がある)を利用しました。

2.2.2 重要度(注目度)抽出の方法:FLR法とTF-IDF法

「専門用語(キーワード)自動抽出システム」では,重要度(本調査では注目度とする)の算出にFLR法が採用されています。FLR法は,単名詞と連結して複合語をなすことが多い単名詞ほど,文書中で重要な概念を示すと考えるものです。出現頻度(Frequency)に左(Left)と右(Right)の語の連接情報を組み合わせて使うため,FLR法と呼ばれます。

FLR法での重要度計算の手順は次の通りです。

(1)切り出した複合名詞全体から,各複合名詞を構成する単名詞が,他の名詞と結びつく回数を計算する。なお,単名詞について,前方の名詞に結びつく回数と後方の名詞に結びつく回数の2つをとる。

(2)(1)の回数の平均(相乗平均:n個の数値があるとき,それらを全部掛け合わせた積のn乗根)を計算する。

(3)(2)と,各複合名詞の集合全体における出現度数をかけて計算できる値を重要度とする2)

他の用語と結びつく回数の多いと考えられる「図書館」「司書」「読書」などの言葉が含まれたり,その複合名詞または単名詞自体の出現度数が高かったりすることにより,重要度が高くなります。ただし,この方法だと,「絶歌」などは,図書館に関わる動向を示しますが,構成する名詞の集合における結びつき回数の平均が小さいためこの数値との乗算による重要度の上昇が小さくなるので注意が必要です(例えば,「絶歌」の出現度数15回は全体の29位であるが,その重要度の73.48ポイントだと208位になるという状況がある)。したがって今回は,重要度にあわせて,出現度数を出し,あわせて検討材料としています。

なお,重要度抽出に一般的に使われるものとして,TF-IDF法があります。TF-IDF法の使用もまずは検討しましたが,今回のケースでは適していないと考えました。理由は,それぞれの文書(ここでは記事見出し)のテキストが短いと,それぞれの文書における各名詞の出現度数,すなわちTFが1など低い数値になる場合が多いからです。

重要度抽出を行う,今回の調査では,算出される重要度をそれぞれの名詞が表す動向の「注目度」として活用することとします。

3.調査経過

3.1 「専門用語(キーワード)自動抽出システム」による解析

「専門用語(キーワード)自動抽出システム」に,記事見出しのデータを入力し,5142件の複合名詞及び単名詞と,それぞれの注目度(算出した重要度)及び出現度数のリストが得られました。抽出結果は,名詞,注目度,出現度数を一覧にした,「Googleスプレッドシート」(Googleのサービス)上にアップした表「図書館関連新聞記事見出しから抽出した複合名詞」に掲載しています。

3.2 チャート化による整理

この抽出結果の内容を検討するため,図解し整理することにしました。名詞をグルーピングするとともに,関係があることを示す線によりつなぎ,また注目度の数値を視覚化し検討に活用したいと考えました。

注目度の視覚化のため,VBA(Visual Basic for Applications)のプログラムによって,注目度の数値にあわせた大きさのテキストボックスを出力しました。2.2.2で記述したように,適宜出現頻度と照らし合わせて検討することとします。

なお,今回のチャート化にあたっては,用語を,それぞれに対応するスコア(重要度や出現度数)により,フォントサイズを決定して表示する「ワードクラウド」(色や向きも変えることがある)を参考にしました(国立国会図書館の「リサーチナビ」での関連語表示などでこの手法が導入されている)。

テキストボックスは,大きすぎても,小さすぎても,図として見づらくなり検討しにくくなりますので,制限を設けました。注目度300ポイント以上はフォントサイズ300ポイントに,10ポイント以下は10ポイントとし,該当の名詞には注目度の数字を添えました。該当のVBAのソースコードは次のリンクよりご覧いただけます。

注目度の視覚化のためのVBAによるプログラム ソースコード

出力されたテキストボックスを,グルーピングするとともに,関係があることを示す線(「」)を添え,図解しました。抽出した名詞が属するグループの見出しになるものは,黒色の文字の見出しとして配置し(例えば「施設」),チャート作成時にグループの名称として筆者が付したものは白抜きの見出しとしました(例えば「併設・連携サービス」)。

ただし,5142件と多くの結果があったため,固有名詞を除くとともに(できた図と合わせて検討します),まずは100ポイント以上の注目度のもののみを整理することで調査の見通しを付けることにし,結果,次の図1ができあがりました。

図1 注目度100ポイント以上の名詞のチャート

3.3 チャートの内容の検討

図1は次のような特徴があります。

・チャートは,「場」あるいは「施設」,「図書館」のグループと,「人・団体」のグループで構成される。なお,それぞれをより広い意味を持つ見出しのグループに属するものとし,「施設」は「場」に属し,かつ「図書館」は「施設」に属するとしている。チャートの大部分を「図書館」グループが占めている。

・「場」グループに属する「施設」グループには,「複合施設」などとそれに関連するグループである「併設・関連サービス」,「図書館」グループがある。

・「図書館」グループは,「館種」,「図書館整備」,「図書館運営」,「役割」,「図書館司書」,「利用者」,「サービス」,「図書館機能」,「蔵書」,「学校図書館」のグループにより構成される。「館種」としてとりまとめたグループには,公共図書館を表す言葉に,大きな文字表示の,多くの関連語がある。なお,「学校図書館」グループは,「学校図書館」,「学校司書」,「学校図書」により構成されるが,これらはその意味から,他のグループ「館種」,「図書館司書」,「蔵書」にも属すべきものと判断し,それぞれ複数のグループに属するものとしている。「学校図書館」は,このグループに属する用語の数は少ないものの,それ自体は比較的大きく表示された。また,「役割」グループに,「場」が意味によって属する場合があるので関連するものとしてつないでいる。

・「人・団体」グループには,「市民」,「学校」,「市」(この3つは比較的大きく表示されている)などが出現している。また,人・団体による「読書」などの「行動」をまとめたグループがあり,それに属するもののなかで「読書」の表示は突出している。「人・団体」は,「併設・連携サービス」や「利用者」,「図書館運営」などのグループと関連がある。

・「図書館機能」グループ(「図書館機能」のみのグループ)と「サービス」,「蔵書」のグループは関連がある(後者の2つは図書館機能に含まれるものともいえる)。

図書館関連記事見出しを対象にしていますから,図書館そのものの性質や機能などに関する話題が中心です。また,ステークホルダーに関して,複合施設や併設・連携サービスなど,図書館を取り巻く環境にかかわることや,図書館にかかわる人・団体に関することも高い注目度で登場しています。

もう少し細かく検討するため,表1に,グループに注目し,その内容や大きさから読み取れるところをまとめてみます。

表1 図1から読み取れること

関連するグループ 読み取れること
・「場」は,注目度の高い「施設」や「図書館」グループを包括している(なお,「場」という語として出現度数が高い)。場としての図書館への注目
施設 ・「複合施設」の注目度の高さ,また関連するものとして「併設・連携サービス」への注目,図書館整備における,他施設等との関係に関わる動向
・「まちなか図書館」など,読書を介したコミュニティづくりの動向
館種 ・公共図書館はもちろん,さまざまな館種も登場している。それぞれ注目度も高い(注目度の度合いは複合名詞を構成する単名詞の他の単語との結びつきの回数の平均の影響を受けるが(グループ内の名詞の多くが他の単語と結びつく回数が多い「図書館」が含まれる複合語ではある)複合名詞自体の出現度数の高いものが多い)
・公立等,設立主体によるものや,中央,分館,移動図書館といったわけ方だけでなく,「こども図書館」,「絵本図書館」といった,児童関係サービスに重点を置いた図書館
学校図書館 ・グループに含まれる「学校司書」とともに高い注目度
図書館整備 ・「開館」,「図書館計画」,「図書館設計」といった整備関連の名詞の高い注目度
図書館運営 ・「ツタヤ図書館」,「指定管理者」などの高い注目度,指定管理者導入の動向への注目
役割 ・「交流」や「拠点」,「公共施設」といった,さまざまな図書館のあり方への注目
蔵書 ・「蔵書」,「資料」は図書館の基礎的用語として注目されている
サービス ・「貸し出し」の注目度が高いとともに,「読書通帳」,「電子図書館」といった個々の特徴的なサービスへの関心
人・団体 ・さまざまなステークホルダーの出現
・「図書館運営」,「利用者」,「併設・連携サービス」との関連があり,ステークホルダーによる,さまざまな角度からの,図書館との関わりの動向
行動 ・「読書」は,図書館に密接に関わる行動として,依然として変わらない注目

今回のチャートには現れなかったものとして,「図書館評価」のグループがありました。該当する名詞については注目度100ポイント以下ではあるが比較的多く出現し,「図書館利用者増」や「貸し出し増」などがあります。図書館について,そのあり方や特徴的なサービスは注目されやすいものの,どういう効果・成果をもたらしているのかは,比較をすると注目度が低くなるのかもしれません。これを検討するには,100ポイント以上の限定的な調査だけでなく,続けての調査が必要と考えられます。

また,前回の(1)で読み取れた,「カフェ」や「クラウドファンディング」が図1には登場していません。これは,「専門用語(キーワード)自動抽出システム」での頻度と構成する名詞の結びつきやすさによる注目度(重要度)では高くならないものだったからと考えられます。

3.4 固有名詞の検討

固有名詞については,表「図書館関連新聞記事見出しから抽出した複合名詞」(「固有名詞のみ」を一覧にしたシートもあります)にあるように,地名,館名・施設名,書名・作品名,団体名(社名や学校名含む),事件,計画,賞・コンクール・グランプリ,法律,事業名,サービス名,コレクション,キャラクター名,人名,災害などの名詞が登場しています。

表「図書館関連新聞記事見出しから抽出した複合名詞」にある,地名の地域や館名の図書館等において,図1から読み取れる,図書館整備や,新サービスや民間活用導入などの動向があったことがわかると思います。また,重要度・出現頻度によって注目の度合いが読み取れると考えられます。このように,固有名詞と,図1で表されたような動向との結びつきをさらに検討することで,動向を具体的にとらえることができると考えられます。

4.まとめ

本調査により,図書館活動を明示しない言葉や固有名を表す複合名詞を含め,データにある名詞を網羅的に抽出できました。さらに,今回注目度とした重要度を活用した,数値上位の名詞によるチャートから図書館の動向の検討ができました。読み取れた動向としては,一部現れなかったものがあるものの,前回の分析である(1)でみた動向はほぼ読み取れています。

ところで,今回図書館を明示しない言葉に着目したなかで,複合語(合成語)の範囲を複合名詞以外にも広げてみると,「場としての図書館」や「交流場所としての図書館」といった動向を新たに読み取ることができます。実際,この言葉は,図書館のこれからの役割として広く検討されはじめているようです。視点を変え,言葉のつながりの見方が変わり,コンテクストを読み取る工夫ができたことで,このような領域が発見できました。

また,本調査で用いた,複合名詞等とその注目度(重要度),それぞれの名詞の関係(グルーピングや線でつなぐことによる)等を図解する方法は,より端的に,着目すべき動向を表すキーワードとその注目の度合いが理解でき,また,新聞紙上にどういうバランスで動向を表す言葉が表出するのかを把握するのに役立ちます。例えば,「学校図書館」はスコアの高さや作成されたグループから注目すべきものであり,「図書館整備」を表す言葉も,100ポイント以下に出現していく「図書館評価」等のグループを図解したとして大きさを比べると,比較的注目度が高いというように判断がつくでしょう。図書館関連のデータ群からの動向調査のため,視覚化することの有効性が確認できました。

前回読み取れた動向で,今回現れていないものは,本調査においてチャート化による検討をFLR法の重要度100ポイント以上に限定したためです。注目度100ポイント以下に該当するデータのなかに,今回の方法での注目度上位のものとして浮き出てこなかった動向を表す名詞がありました。また,これから注目されつつあるようなサービスなどはスコアが高く出ていない可能性があります。前述した「図書館評価」や「クラウドファンディング」に関する動向が該当すると考えられます。

また,ここまでの調査では「児童関係サービスに重点を置いた図書館」の動向を読み取ることができましたが,100ポイント以下の名詞もみていけば,高齢者など他の対象者にフォーカスした取り組みなどの動向も出てきます。これらの動向を示すグループ・名詞についても,どのような文脈で出現するか,チャート化したときにどういうバランスになるか,を確認できると,動向把握や将来予測などに役立ちます。

まだ拾えていない動向も存在するかもしれません。そのようなものに対して,さらに大量のデータのつながりを可視化して把握できるネットワーク分析を試みることは有効かもしれません。共起(特定の文章等で,ある語とある語が一緒に出現すること)に関する情報を用いる,共起ネットワークなどの手法を用いれば,複合名詞からの検討でなくても,一緒に出現する語について視覚化し分析できます。また視覚化という視点からは,クラスタリングも,データを検討するのに有効な方法なのではないかと考えています。対象となるデータの刷新や方法の改善をし,公共図書館の動向把握をすすめ,今後も随時公開していきたいと思います。

2017-06-04 牧野 雄二



1 中川裕志,前田朗,小島浩之.”専門用語(キーワード)自動抽出システム”のページへようこそ.http://gensen.dl.itc.u-tokyo.ac.jp,(参照 2017-05-19).

2 前田朗.キーワード自動抽出システム「言選web」.漢字文献情報処理研究.2005,no.6,p.124-133.http://gensen.dl.itc.u-tokyo.ac.jp/paper/kanjibunken-gensen.pdf,(参照 2017-05-19).