2000年度森泰吉郎記念研究振興基金「国際共同研究」報告書

2000年度森泰吉郎記念研究振興基金「国際共同研究」
概念階層と概念記述の相互学習による漸増学習について

幼児の語彙獲得のモデル化の改良

小林郁夫（慶應義塾大学大学院政策・メディア研究科博士課程）

この稿では，帰納論理プログラミングを用いた幼児のよる語彙獲得のモデル化を論じる．このモデルの前身の動作実験については [4]に報告している．

１.   概念の構成と語彙の獲得

語彙，外延，ラベル

幼児の言語の獲得にはさまざまな側面と段階がある．言語の使用に習熟した大人の言語を分析すればそのことは端的に理解される．まず目に付くのは文法の存在である．ほとんどの発話は文法に従って解釈され，文から切り分けられた単語は品詞というクラスに分類される．また，社会生活において的確な言語使用を行うという観点からみれば，人は言語を用いて単に叙述をしているだけではなく，疑問を発したり，要求をしたり，挨拶をしたりしていることがわかる．さらに，言語の依存する媒体として，一定の言語音の組を利用していることもわかる．

このように，言語はさまざまな観点から分析され得る現象である．我々はもうひとつの観点である語彙を対象に研究を行っている．前述の諸観点の間での関係から考えると，語とは言語音の一定の羅列であると同時に，文法対しては品詞というクラスの成員として関わる存在である．語彙はこのような語の，なんらかの体系を備えた集まりと捉えることが可能である．しかしながら，そのように観察されるのは語の発話の中での表象であって，その表象の下には「意味」が隠されている．

表象が意味をどのように隠しているのかについて分析してみると，以下のようなことがいえる．ある実世界の対象は，「テリア」，「犬」，「動物」などいくつもの呼ばれ方をする．ところが別の対象は，「動物」と呼ばれ，「犬」と呼ばれながら，「テリア」とは呼ばれないかもしれない．つまり，それぞれの表象は互いに異なる対象集合，すなわち外延を参照する．各表象は外延に貼られた標識と考えることができるので，互いに区別できる表象を ラベルと呼ぶことにする．ラベルは普通の言語においては前述の通り音声の形式である．そして，表象ごとに異なる外延を表現するシステムを語彙と考えることができる．

特性，内包，ラベル付け

各ラベルに対応する外延は恣意的な集まりではない．Markman は同一のラベルで括られる対象が原則として分類学的に相似たものであることを主張している(事物カテゴリーバイアス)[6]．しかもこの主張は，大人ではなく幼児に対する実験を経て得られた知見を根拠にしている．すなわち，犬を対象としたラベルを習得した幼児は，犬小屋よりも猫に対してそのラベルを拡張するのである．

犬と犬小屋との類似性は，それらが現れる場面の共通性(連想的ないし文脈的相似)である．一方犬と猫との類似性は，それらの世界の中への現れ方の共通性 (分類学的相似)である．ラベルを用いて言い換えれば，それらが共に「動物」である，という類似性である．このように，異なる対象はその説明に共通の因子を持つことがある．このような因子を対象の特性と呼ぶことにする．特性を用いれば，個々の対象について説明できるばかりでなく，一定の類似性を持った対象の集合を単一の外延として説明することができるだろう．このように特性を用いて外延を指定する説明を内包と呼ぶことにする．一部の概念，特に我々が対象としている言語上の概念は，外延と内包の対として構成できる．

概念を内包を用いて定義することにすれば，外延は内包を記述とする対象の集まりとして自動的に決定されることになる．この方法を採用すれば，語彙は全ての内包の集合と全てのラベルの集合との間で関係として存在することになる． (図１参照)

図１

一階述語論理を用いた語彙の表現

語彙を内包とラベルとの対応付けとして表現する目的には，述語論理表現はまさに適切な方法であるといえる．前述したように，内包は世界の対象のうちある特定の一部を説明できるような記述である．例えば，対象 obj001 について，「耳が大きくて，自ら動ける」という説明を表現すると次のようになる．

has_large_ears(obj001) ∧ animate(obj001) ......(1)

一方，同じ対象について「兎である」というラベル付けを表現すると次のようになる．

rabbit(obj001) ......(2)

上のふたつの記述は，単一の対象について述べている．obj001 と同様の特性を持つ対象を一般に「兎」というラベルを持つものとするとき，以下の記述があればよい．

∀x rabbit(X) ⇔ has_large_ears(X) ∧ animate(X) ...... (3)

対象の現前と記述の獲得

ところで，我々が行っているのは語彙の獲得のモデル化である．語彙の獲得はある種の学習であると考えられる．上述のように，語彙は内包集合とラベル集合との関係と考えられる．学習者は，ラベルや対象に次々に出会いながら，その経験を関係へと集約していかなければならない．ここでは，学習者の対象との遭遇を位置づけする．

対象は学習者の前にただ現れるわけではない．学習者が後にその対象を要素とする外延を習得するからには，彼はそれを何らかの特徴の集まりとして認知してなければならない．また，その対象が意味のある「ひとかたまり」であることを認知していなければならない．我々は，この研究でその詳細に立ち入ることは避けた．ただ，Gentner は，語の参照対象のうち，具体名詞の対象となる限られた空間を占める存在，すなわち事物を特にとりあげ，その視覚的顕在性や時間的恒常性を複数の言語共同体の幼児らによる名詞の獲得の目立った早さを背景に考察している[2]．

対象の存在に気づくこと，それを視野から切り出すこと，さらにはその切り出し方がどのような機構に従っているのかもこの研究では扱わなかった．これらについては現在各所で研究が行われているところである．ただ，この機構の中に，学習者である幼児に言語学習以前に先天的ないし生後の経験の結果として備わっている側面と，語彙獲得を含む言語獲得からのフィードバックによって新たに触発される側面とがあることは確かであろう．

幼児は対象を同定し，その特徴を認知する．我々のモデル化では，その結果として，(1)式のような，ひとつの対象に関係する特性についての記述が得られるものと仮定する．このような対象認知が学習の過程の中で複数の対象に対して行なわれ，蓄積される．

語彙獲得問題

一方，学習者は対象に出会うとき，その対象についてのラベル付けを外部から得るものとする．これは，幼児にとっての大人の言語にあたる．前述のように，対象は複数の概念の外延であるので，同じ対象についていつでも同じラベルを得るとは限らない．

Markman の事物全体性バイアス[6]は，幼児が耳にしたラベルをまずは全体性を持つ事物に割り当てていることを述べている．すなわち，独立したまとまりとしての単一性を持つ事物に割り当てるとする．我々はこれを，幼児が環境の中から対象を切り出す際のひとつの現れであると見る．

こうして学習者は，事物をラベルの参照先に決め，事物を観察して記述を手にいれた．彼は，同じラベルで呼ばれる対象の集まりを，ひとつの概念の外延として理解できるような内包を探すことを目標にしている．ラベルに対応する外延を特定することには，内包記述の単純性が関わっている．このため，まずは内包について検討する必要がある．

ある外延に含まれる対象を説明できる内包は，次のような条件を満足するべきである．

外延の全要素について，その記述を説明する．

できれば，外延の要素でない対象の記述は説明しない．

このような問題については，帰納論理プログラミングは有効な手法である．前に述べた通り，式(3)のような内包の記述は，ある種の規則であるといえる．ことに，この問題の場合，各ラベルが概念を表象することを考えれば，連言として書かれる特性の組の記述を条件部とし，そのような条件に適合する対象をあるラベルで表象することを結論部とする決定節の形に目標を整理することができる．すなわち，式(3)は以下のような形に整理される．

rabbit(X) ← has_large_ears(X), animate(X) ......(4)

双条件法を一方的な含意に変えることで，ラベルによって参照される対象集合の中に内包記述を満たさないものが出て来るように見えるが，帰納論理プログラミングにおいては，規則の前件を満たしながら後件を満たさない対象がないように規則を構成するため，(4) を探し出すことが事実上(3)を導くことと同等の効果を持つ．こうして，個々の概念の学習には，既存の帰納論理プログラミングの技法をそのまま適用することが可能である．

複数の語について，Prolog 言語上で統一的に扱うために，規則 (4)を (5)の形で求めることを目標とする．

label(rabbit, X):- attr(X, shape, has_large_ears), tax(X, animation, animate).   ......(5)

式(5)では，一見して分かる通り，ラベル付けや特性を示す述語を設け，「兎である」，「大きな耳を持つ」，「自ら動く」などのラベルや説明因子は定数として扱われる．式(2)で見たように，幼児が認識したラベル-事物間の対応付けは正の事例と考えられ，第2 項には対象事物を示す定数の記述された原子文の形でとり入れられる．これが規則(5)の結論部に材料を提供する．

一方，条件部には，一般属性(attr) とカテゴリー類別 (tax) をそれぞれ示す2種類の述語を新たに用いている．これらはともに説明因子，すなわち特性要素の記述である．これら特性情報は，ラベル付けの認識と同時にデータとして追加されるが，ラベル付けの原子文が帰納論理プログラミングの枠組の中の事例として扱われるのに対して，特性の情報を示す原子文は背景知識として扱われる．このようにすることで，ラベル付けを結論部に，特性記述を条件部に持つ内包記述規則が帰納的に学習されることになる．

特性情報の二分法

ここでカテゴリー類別と一般属性の2種類の特性を区別したことについて述べる．

カテゴリー類別は幼児が言語を習得する以前から明らかに区別して考えていると思われる特別な特性[1]である．上の例は，X が「自らの力で動ける」ことを述べている．他のカテゴリー類別としては，可算性などが挙げられるが，我々は可算な事物のみ対象として扱っているのでここでは登場しない．

もう一方は一般属性である．これには，ここで挙げている形状の他に，色，被覆などが挙げられる．これらには自動性や可算性と異なり，クラス分けを行なうための単純で明白な基準がない．

両者を区別することは，事物カテゴリーバイアスや習熟の理論 [1]を検討した結果として，我々が独自に発案したバイアスである．帰納推論過程の，仮説探索空間からの規則の選択において，この区別を反映した費用関数を用いる．

我々の考えるカテゴリー類別と一般属性の関係は，次のようなものである．先に分類学的な類似性が同じラベルを共有する対象同士の重要な関係であることを述べた．こうした分類学は人の成長にしたがって周囲の文化にも影響されながら育って行くものと考えられるが，文化的依存性が十分に低い，人類にとって普遍性の高い種類の分類学は，カテゴリー類別として前言語的に与えられていると仮定する．さらに，同じラベルを持つ事物が複数のクラスに跨って存在することはないと想定する．一方，一般属性の間での重要性の順は，ラベルによって異なってくることを想定する．

２.    概念階層の構築

この報告書にも添付する[5]では，概念の階層性や外延の範囲を利用して，帰納推論のための正負の事例を用意し，個々の概念の内包を調整して行くことを述べた．この節では，その反対に，学習された諸概念をどのように概念階層の中に位置付けるかについて論じる．

新規の概念の階層への位置付け

ふたつのものを人が見比べるとき，そのしかたには2種類の側面がある．似ている部分を見つけてまとめあげようとする面と，異なっている部分に注目して区別しようとする面である．概念の階層構造とは，人が様々な対象をそのように認識処理していく際に，自ずと発生する階層構造だと言える．

似ているものをまとめあげる作業は総合的で，これは既存の諸概念からその上位の一般的な概念を発見することに通じている．一方，違うものを区別する作業は分析的で，相互に排他的な概念を発見することに通じている．

ところが概念構造を考えてみれば，第三の道があることがすぐに明らかになる．すなわち，既存の概念との類似性を認めながらも，小さな差異を明らかにして，既存の概念の変種を発見することである．これは既存の概念の下位概念を発見することに通じている．

今井によれば，幼児はこれらの3方向への概念の発展のさせ方のうち，排他的な概念と下位の概念のどちらかを作ろうとする傾向が強く，複数の概念の統合概念を作ることは学齢に達した子供のほうが得意であるということである [3]．

我々は，この幼児の傾向と，相互排他性バイアス [6] と呼ばれるバイアスを利用することによって，新規のラベルに対応する概念を概念階層の中に位置づけしたいと考えている．相互排他性バイアスとは，ひとつの対象に複数のラベルをつけることを妨げる傾向のことである．我々は，このバイアスを根拠に，既にラベルのついた対象に新たなラベルが貼られた際，その対象の既得ラベル概念との類似性が高ければ下位の概念に，そうでなければ排他的な概念にという機構をモデルに持たせることを計画している．

既存の概念構造の修正に向けて

学習者モデルの経験，すなわち刺激データの量の蓄積が増えれば，当然これを再学習や爾後の学習方針を建てることに利用することが重要になる．再学習，方針立案の両面において，

セッション単位で制御される表層の学習とは別のレベルの学習

教師(幼児にとっての周囲の大人)への質問

の2点に研究の価値があると思われる．両者は帰納的に語を決定する際の内包の役割に関係する．

今までは学習者に刺激の受け入れによって隔てられたセッション単位での学習という枠組みで語彙を学習させてきた．しかし，学習者の語彙学習に関わる経験が増大することによって，新たな刺激の処理ばかりではなく，以前に経験した刺激の記憶に対してそれを整合的に理解しようとする問題が発生する可能性がある．

[7]は人工学習機構を作り上げるまでに3つの段階が必要であるとしている．学習者モデルの設計，宣言的な層への知識の導入，そして機能的な層に対する訓練である．我々の応用をこの考え方で捉えるならば，個々の事物を教師に教えられたとおりの語の外延に含ませるように努力する表層のレベルが機能的であり，その作業を客観的に観察してやりやすいように調整する宣言的レベルが別に存在しているものとすることが考えられる．

教師に対する質問は，2つの役割を期待される．ひとつは，新たな刺激の処理に際して，十分な知識を持った学習者は，その解釈の可能性をいくつかに絞ることが可能になるだろうと思われる．このとき，選択的な質問を教師に対して行うことが考えられる．

もうひとつの役割は，表層ではなく宣言的なレベルの修正の可能性に際して行われると期待されるものである．学習者が宣言的な層の修正，特に内包記述の利用方法の修正を思いついたとき，そのような修正が果たして妥当であるのかを教師に確認することが考えられる．ただし，宣言的な層には教師も学習者も直接触れることはできないので，これに関しても表層の外延とラベルとの関係の確認として質問が発せられると思われる．

参考文献

Carey, S.: "Conceptual Change in Childhood", MIT Press, 1985.

Gentner, D.: "Why nouns are learned before verbs: Lingistic reliability vs. natural partitioning", in Kuczaj S. A. II: Language Development II, Language, Thought and Culture, pp. 301-304, 1982.

今井むつみ: 『認知科学モノグラフ 5: ことばの学習のパラドックス』. 共立出版, 1997.

小林郁夫, 古川康一, 今井むつみ, 尾崎知伸: 帰納論理プログラミングによる幼児の名詞語彙獲得のモデル化, 電子情報通信学会技術研究報告（言語理解とコミュニケーション研究会） v.99 No.387, pp. 29-36, 1999.

小林郁夫, 尾崎知伸, 古川康一, 今井むつみ: 帰納論理プログラミングによる階層的名詞概念の学習 , 2000年度人工知能学会全国大会(第14回)論文集, pp.281-284, 2000.

Markman, E. M.: "Categorization and Naming in Children", (MIT Press series in learning, development, and conceptual change), MIT Press, 1989.

Michie, D.: "It Takes Two (at Least) to Tango", In the volume of selected papers from 17th Machine Intelligence Workshop, 2001.