第2回 演習課題: 研究室開発形態素解析器の誤解析分析
学術論文抄録1万文に対し、形態素解析をした結果、422文が誤解析(形態素解析器の検出)があった。
(a)誤解析個所の特定と正解析の記載
これらの誤解析結果について先頭の50文(次週までに30文)の誤解析個所を分析し、所定のシート("AnalysisSheet_JMA.xlsx")の各項目に記載しなさい。
(b)誤結合の特徴分析
誤解析の要因は主に以下の2種類である。
(a)辞書未登録語、(b)形態素判別規則が不十分
(a)の50か所の誤解析について、字種、品詞、文字列を詳細に分析し、
何らかのパターンを見つけ出す。