情報科学発展演習: 自然言語解析器を用いた実験

演習概要
 本科目は、 「自然言語解析」の演習版です。したがって履修者が同期開講の自然言語解析を履修していることを前提としています(履修していないと以下の詳細説明の内容を理解することは困難です)。
 本演習では、当研究室で研究・開発中の以下の日本語自然言語解析器の出力結果を用いた演習を行います。
    (1)形態素解析器、 (2)形態素結合器(chunker)、 (3)係り受けー構文解析器
以下の講義計画に記したように、それぞれの解析機構について詳細な説明をします。 理工学分野の文書中にテキスト(例えば1万文)を対象に、当研究室設置のPCで(1)~(3)を実行し、出力結果(ファイル)を提示します。
 現時点では、(1)~(3)の解析精度は85~95%ですので、それぞれの出力結果は500~1500の誤解析を含むことになります。(1)~(3)それぞれについて、これらの誤解析文のうち、50~100文(/1人)について受講者が誤解析結果を分析し、その要因の検討、改善案の提示が課題です。分析に際しては、同一のテキストに対してこの分野の研究で広く利用されている解析ツール(Mecab(1)、Cabocha(3)、等)でも実行して、その結果を対比することを期待します。この要因分析-改善案提案によって、日本語文の特性、日本語文解析器の問題点について理解を深めることが本演習の主眼です。


◆ 講義計画(2021年度)
 期日 回数  講義内容
 5.20 第 1回 N-gram:詳細説明、実演   講義録画
           N-gram:Source code & Data  ExternalHash:Source code & Data
           N-gram by Hash: Source code & Data>
            演習課題(提出期限:6月30日23:00)

 5.27 第 2回 形態素解析器:詳細説明   講義録画
            演習課題  分析対象データ  分析結果記載シート
            (提出期限:6月16日23:00)

 6. 3 第 3回 形態素結合器(chunking):詳細説明   講義録画
            演習課題  分析対象データ  分析結果記載シート
            (提出期限:6月23日23:00)

 6.10 第 4回 係り受けー構文解析解析器:詳細説明Ⅰ   講義録画

 6.17 第 5回 係り受けー構文解析解析器:詳細説明Ⅱ   講義録画

 6.24 第 6回 日本語自然言語解析の問題点   講義録画

 7. 1 第 7回 演習課題の発表   講義録画

■ 資料:  1993年度学術論文抄録 10000文(先頭から100001~110000)
■ 資料:  EDR-TGL品詞辞書



参考書: 「自然言語解析」に準ずる
出席・レポート・評価