幼児の語彙獲得のモデル化の改良
小林 郁夫 (慶應義塾大学 大学院 政策・メディア研究科 博士課程)
この稿では,帰納論理プログラミングを用いた幼児のよる語彙獲得の モデル化を論じる.このモデルの前身の動作実験については [4]に報告している.
1. 概念の構成と語彙の獲得語彙,外延,ラベル
幼児の言語の獲得にはさまざまな側面と段階がある.言語の使用に習熟した大 人の言語を分析すればそのことは端的に理解される.まず目に付くのは文法の 存在である.ほとんどの発話は文法に従って解釈され,文から切り分けられた 単語は品詞というクラスに分類される.また,社会生活において的確な言語使 用を行うという観点からみれば,人は言語を用いて単に叙述をしているだけで はなく,疑問を発したり,要求をしたり,挨拶をしたりしていることがわかる. さらに,言語の依存する媒体として,一定の言語音の組を利用していることも わかる.
このように,言語はさまざまな観点から分析され得る現象である.我々はもう ひとつの観点である語彙を対象に研究を行っている.前述の諸観点の 間での関係から考えると,語とは言語音の一定の羅列であると同時に, 文法対しては品詞というクラスの成員として関わる存在である.語彙はこのよ うな語の,なんらかの体系を備えた集まりと捉えることが可能である.しかし ながら,そのように観察されるのは語の発話の中での表象であって,その表象 の下には「意味」が隠されている.
表象が意味をどのように隠しているのかについて分析してみると,以下のよう なことがいえる.ある実世界の対象は,「テリア」,「犬」,「動物」などい くつもの呼ばれ方をする.ところが別の対象は,「動物」と呼ばれ,「犬」と 呼ばれながら,「テリア」とは呼ばれないかもしれない.つまり,それぞれの 表象は互いに異なる対象集合,すなわち外延を参照する.各表象は外 延に貼られた標識と考えることができるので,互いに区別できる表象を ラベルと呼ぶことにする. ラベルは普通の言語においては前述の通り音声の形式である.そして,表象ご とに異なる外延を表現するシステムを語彙と考えることができる.
特性,内包,ラベル付け
各ラベルに対応する外延は恣意的な集まりではない.Markman は同一のラベル で括られる対象が原則として分類学的に相似たものであることを主張して いる(事物カテゴリーバイアス)[6]. しかもこの主張は,大人ではなく幼児に対する実験を経て得られた知見を根拠 にしている.すなわち,犬を対象としたラベルを習得した幼児は,犬小屋より も猫に対してそのラベルを拡張するのである.
犬と犬小屋との類似性は,それらが現れる場面の共通性(連想的ないし文脈的相 似)である.一方犬と猫との類似性は,それらの世界の中への現れ方の共通性 (分類学的相似)である.ラベルを用いて言い換えれば,それらが共に「動物」 である,という類似性である.このように,異なる対象はその説明に共通の因 子を持つことがある.このような因子を対象の特性と呼ぶことにする. 特性を用いれば,個々の対象について説明できるばかりでなく,一定の類似性 を持った対象の集合を単一の外延として説明することができるだろう.このよ うに特性を用いて外延を指定する説明を内包と呼ぶことにする.一部 の概念,特に我々が対象としている言語上の概念は,外延と内包の対 として構成できる.
概念を内包を用いて定義することにすれば,外延は内包を記述とする対象の集 まりとして自動的に決定されることになる.この方法を採用すれば,語彙は全 ての内包の集合と全てのラベルの集合との間で関係として存在することになる. (図1参照)
図1一階述語論理を用いた語彙の表現
語彙を内包とラベルとの対応付けとして表現する目的には,述語論理表現はま さに適切な方法であるといえる.前述したように,内包は世界の対象のうちあ る特定の一部を説明できるような記述である.例えば,対象 obj001 について, 「耳が大きくて,自ら動ける」という説明を表現すると次のようになる.
has_large_ears(obj001) ∧ animate(obj001) ......(1) 一方,同じ対象について「兎である」というラベル付けを表現すると次のよう になる.
rabbit(obj001) ......(2) 上のふたつの記述は,単一の対象について述べている.obj001 と同様の特性 を持つ対象を一般に「兎」というラベルを持つものとするとき,以下の記述が あればよい.
∀x rabbit(X) ⇔ has_large_ears(X) ∧ animate(X) ...... (3) 対象の現前と記述の獲得
ところで,我々が行っているのは語彙の獲得のモデル化である.語彙の獲得は ある種の学習であると考えられる.上述のように,語彙は内包集合とラベル集 合との関係と考えられる.学習者は,ラベルや対象に次々に出会いながら,そ の経験を関係へと集約していかなければならない.ここでは,学習者の対象と の遭遇を位置づけする.
対象は学習者の前にただ現れるわけではない.学習者が後にその対象を要素と する外延を習得するからには,彼はそれを何らかの特徴の集まりとして認知し てなければならない.また,その対象が意味のある「ひとかたまり」であるこ とを認知していなければならない.我々は,この研究でその詳細に立ち入るこ とは避けた.ただ,Gentner は,語の参照対象のうち,具体名詞の対象となる 限られた空間を占める存在,すなわち事物を特にとりあげ,その視覚 的顕在性や時間的恒常性を複数の言語共同体の幼児らによる名詞の獲得の目立っ た早さを背景に考察している[2].
対象の存在に気づくこと,それを視野から切り出すこと,さらにはその切り出 し方がどのような機構に従っているのかもこの研究では扱わなかった.これら については現在各所で研究が行われているところである.ただ,この機構の中 に,学習者である幼児に言語学習以前に先天的ないし生後の経験の結果として 備わっている側面と,語彙獲得を含む言語獲得からのフィードバックによって 新たに触発される側面とがあることは確かであろう.
幼児は対象を同定し,その特徴を認知する.我々のモデル化では,その結果と して,(1)式のような,ひとつの対象に関係す る特性についての記述が得られるものと仮定する.このような対象認知が学習 の過程の中で複数の対象に対して行なわれ,蓄積される.
語彙獲得問題
一方,学習者は対象に出会うとき,その対象についてのラベル付けを外部から 得るものとする.これは,幼児にとっての大人の言語にあたる.前述のように, 対象は複数の概念の外延であるので,同じ対象についていつでも同じラベルを 得るとは限らない.
Markman の事物全体性バイアス[6]は, 幼児が耳にしたラベルをまずは全体性を持つ事物に割り当てていることを述べ ている.すなわち,独立したまとまりとしての単一性を持つ事物に割り当てる とする.我々はこれを,幼児が環境の中から対象を切り出す際のひとつの現れ であると見る.
こうして学習者は,事物をラベルの参照先に決め,事物を観察して記述を手に いれた.彼は,同じラベルで呼ばれる対象の集まりを,ひとつの概念の外延と して理解できるような内包を探すことを目標にしている.ラベルに対応する外 延を特定することには,内包記述の単純性が関わっている.このため,まずは 内包について検討する必要がある.
ある外延に含まれる対象を説明できる内包は,次のような条件を満足するべき である.
- 外延の全要素について,その記述を説明する.
- できれば,外延の要素でない対象の記述は説明しない.
このような問題については,帰納論理プログラミングは有効な手法である.前 に述べた通り,式(3)のような内包の記述は,ある 種の規則であるといえる.ことに,この問題の場合,各ラベルが概念を表象す ることを考えれば,連言として書かれる特性の組の記述を条件部とし,そのよ うな条件に適合する対象をあるラベルで表象することを結論部とする決定節の 形に目標を整理することができる. すなわち,式(3)は以下のような形に整理される.
rabbit(X) ← has_large_ears(X), animate(X) ......(4) 双条件法を一方的な含意に変えることで,ラベルによって参照される対象集合 の中に内包記述を満たさないものが出て来るように見えるが,帰納論理プログ ラミングにおいては,規則の前件を満たしながら後件を満たさない対象がない ように規則を構成するため,(4) を探し出すことが事実上(3)を 導くことと同等の効果を持つ.こうして,個々の概念の学習には,既存の帰納 論理プログラミングの技法をそのまま適用することが可能である.
複数の語について,Prolog 言語上で統一的に扱うために,規則 (4)を (5)の形で求めることを目標とする.
label(rabbit, X):- attr(X, shape, has_large_ears), tax(X, animation, animate). ......(5) 式(5)では,一見して分かる通り,ラベル付け や特性を示す述語を設け,「兎である」,「大きな耳を持つ」,「自ら動く」 などのラベルや説明因子は定数として扱われる. 式(2)で見た ように,幼児が認識したラベル-事物間の対応付けは正の事例と考えられ,第2 項には対象事物を示す定数の記述された原子文の形でとり入れられる.これが 規則(5)の結論部に材料を提供する.
一方,条件部には,一般属性(attr) とカテゴリー類別 (tax) をそれぞれ示す2種類の述語を新たに用いている.これらはともに 説明因子,すなわち特性要素の記述である.これら特性情報は,ラベル付けの認 識と同時にデータとして追加されるが,ラベル付けの原子文が帰納論理プログラ ミングの枠組の中の事例として扱われるのに対して,特性の情報を示す 原子文は背景知識として扱われる.このようにすることで,ラベル付け を結論部に,特性記述を条件部に持つ内包記述規則が帰納的に学習されることに なる.
特性情報の二分法
ここでカテゴリー類別と一般属性の2種類の特性を区別したことについて述べる.
カテゴリー類別は幼児が言語を習得する以前から明らかに区別して考えていると 思われる特別な特性[1]である.上の例は,X が 「自らの力で動ける」ことを述べている.他のカテゴリー類別としては, 可算性などが挙げられるが,我々は可算な事物のみ対象として扱っているので ここでは登場しない.
もう一方は一般属性である.これには,ここで挙げている形状の他に,色,被覆 などが挙げられる.これらには自動性や可算性と異なり,クラス分けを行なうた めの単純で明白な基準がない.
両者を区別することは,事物カテゴリーバイアスや習熟の理論 [1]を検討した結果として, 我々が独自に発案したバイアスである.帰納推論過程の, 仮説探索空間からの規則の選択において,この区別を反映した費用関数を用いる.
我々の考えるカテゴリー類別と一般属性の関係は,次のようなものである.先に 分類学的な類似性が同じラベルを共有する対象同士の重要な関係であることを述 べた.こうした分類学は人の成長にしたがって周囲の文化にも影響されながら育っ て行くものと考えられるが,文化的依存性が十分に低い,人類にとって普遍性の 高い種類の分類学は,カテゴリー類別として前言語的に与えられていると仮定す る.さらに,同じラベルを持つ事物が複数のクラスに跨って存在することはない と想定する.一方,一般属性の間での重要性の順は,ラベルによって異なってく ることを想定する.
2. 概念階層の構築この報告書にも添付する[5]では,概念の階層性 や外延の範囲を利用して,帰納推論のための正負の事例を用意し,個々の概念 の内包を調整して行くことを述べた.この節では,その反対に,学習された諸 概念をどのように概念階層の中に位置付けるかについて論じる.
新規の概念の階層への位置付け
ふたつのものを人が見比べるとき,そのしかたには2種類の側面がある.似ている 部分を見つけてまとめあげようとする面と,異なっている部分に注目して区別し ようとする面である.概念の階層構造とは,人が様々な対象をそのように認識処 理していく際に,自ずと発生する階層構造だと言える.
似ているものをまとめあげる作業は総合的で,これは既存の諸概念からその上位の 一般的な概念を発見することに通じている.一方,違うものを区別する作業は分 析的で,相互に排他的な概念を発見することに通じている.
ところが概念構造を考えてみれば,第三の道があることがすぐに明らかになる. すなわち,既存の概念との類似性を認めながらも,小さな差異を明らかにして, 既存の概念の変種を発見することである.これは既存の概念の下位概念を発見す ることに通じている.
今井によれば,幼児はこれらの3方向への概念の発展のさせ方のうち,排他的な概 念と下位の概念のどちらかを作ろうとする傾向が強く,複数の概念の統合概念を 作ることは学齢に達した子供のほうが得意であるということである [3].
我々は,この幼児の傾向と,相互排他性バイアス [6] と呼ばれるバイアスを利用することによって,新規のラベルに対応する概念を 概念階層の中に位置づけしたいと考えている.相互排他性バイアスとは,ひと つの対象に複数のラベルをつけることを妨げる傾向のことである.我々は,こ のバイアスを根拠に,既にラベルのついた対象に新たなラベルが貼られた際, その対象の既得ラベル概念との類似性が高ければ下位の概念に,そうでなけれ ば排他的な概念にという機構をモデルに持たせることを計画している.
既存の概念構造の修正に向けて
学習者モデルの経験,すなわち刺激データの量の蓄積が増えれば,当然これを再 学習や爾後の学習方針を建てることに利用することが重要になる.再学習,方針 立案の両面において,
- セッション単位で制御される表層の学習とは別のレベルの学習
- 教師(幼児にとっての周囲の大人)への質問
の2点に研究の価値があると思われる.両者は帰納的に語を決定する際の内包の役 割に関係する.
今までは学習者に刺激の受け入れによって隔てられたセッション単位での学習と いう枠組みで語彙を学習させてきた.しかし,学習者の語彙学習に関わる経験が 増大することによって,新たな刺激の処理ばかりではなく,以前に経験した刺激 の記憶に対してそれを整合的に理解しようとする問題が発生する可能性がある.
[7]は人工学習機構を作り上げるまでに3つの段階が 必要であるとしている.学習者モデルの設計,宣言的な層への知識の導入,そ して機能的な層に対する訓練である.我々の応用をこの考え方で捉えるならば, 個々の事物を教師に教えられたとおりの語の外延に含ませるように努力する表 層のレベルが機能的であり,その作業を客観的に観察してやりやすいように調 整する宣言的レベルが別に存在しているものとすることが考えられる.
教師に対する質問は,2つの役割を期待される.ひとつは,新たな刺激の処理に際 して,十分な知識を持った学習者は,その解釈の可能性をいくつかに絞ることが 可能になるだろうと思われる.このとき,選択的な質問を教師に対して行うこと が考えられる.
もうひとつの役割は,表層ではなく宣言的なレベルの修正の可能性に際して行わ れると期待されるものである.学習者が宣言的な層の修正,特に内包記述の利用 方法の修正を思いついたとき,そのような修正が果たして妥当であるのかを教師 に確認することが考えられる.ただし,宣言的な層には教師も学習者も直接触れ ることはできないので,これに関しても表層の外延とラベルとの関係の確認とし て質問が発せられると思われる.
参考文献
- Carey, S.: "Conceptual Change in Childhood", MIT Press, 1985.
- Gentner, D.: "Why nouns are learned before verbs: Lingistic reliability vs. natural partitioning", in Kuczaj S. A. II: Language Development II, Language, Thought and Culture, pp. 301-304, 1982.
- 今井むつみ: 『認知科学モノグラフ 5: ことばの学習のパラドックス』. 共立出版, 1997.
- 小林郁夫, 古川康一, 今井むつみ, 尾崎知伸: 帰納論理プログラミングによる幼児の名詞語彙獲得のモデル化, 電子情報通信学会技術研究報告(言語理解とコミュニケーション研究会) v.99 No.387, pp. 29-36, 1999.
- 小林郁夫, 尾崎知伸, 古川康一, 今井むつみ: 帰納論理プログラミングによる階層的名詞概念の学習 , 2000年度人工知能学会全国大会(第14回)論文集, pp.281-284, 2000.
- Markman, E. M.: "Categorization and Naming in Children", (MIT Press series in learning, development, and conceptual change), MIT Press, 1989.
- Michie, D.: "It Takes Two (at Least) to Tango", In the volume of selected papers from 17th Machine Intelligence Workshop, 2001.