NTTは18日、同グループのAI関連技術corevoの研究開発、および大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII)の人工知能プロジェクト「ロボットは東大に入れるか」の一環として、大学入試センター試験の英語筆記科目に挑戦した結果、185点(偏差値64.1)の成績を収めたことを発表した。
ロボットは東大に入れるかのプロジェクトでは、センター試験や東京大学の第2次学力試験を用いて、人間が解く問題を人工知能がどこまで解けるのかを明らかにすべく、研究活動を進めている。このなかで英語の問題は、自然言語処理や知識処理の統合的な問題を多く含む。NTTコミュニケーション科学基礎研究所(NTT CS研)ではこのプロジェクトを自然言語処理および知識処理の基礎研究を進めるベンチマークとして捉え、自動解答に関する知見を積み重ねてきた。
近年は深層学習に基づく文書読解技術が進展しており、そのなかの最新技術であるXLNetは、大規模テキストによる事前学習をベースモデルに、問題の性質に合わせた移転学習を施すことで、異なる種類の問題を比較的少量のデータから効率的に解くことを可能にした。しかし、学習に利用できるデータが大きく不足している問題や、解答に辞書的な情報が不可欠な問題では、十分な精度の解答が得られなかった。
今回NTT CS研は以下の点で改善を施し、過去3年間のセンター本試験/追試験に対して適用した結果、安定して偏差値60以上を達成したという。
不要文除去問題の高精度化
機械学習は正解と不正解のデータの両方を入力して学習するが、文章から不要な文を見つける比較的新しい「不要文除去問題」には適用できない。というのも、通常の文章には不要な文が含まれておらず、学習に用いるデータを集めることが難しいためだ。このため従来のAIでは、本試験/追試験で15問中6問しか正解できなかった。
そこで、不要文を含まない通常の文章から、文の順序を組み替えて擬似的に不自然な流れを作成することで、大量の不要文除去問題を自動作成する手法を考案。これにより15問すべて正答できたという。また、過去問や独自作成問題からなるベンチマークデータにおいても、正答率を60%から86%までに高められた。
不要文除去問題の例
段落タイトル付与問題
段落タイトル付与問題は、文章のなかの各段落の内容を表すタイトルを選択肢から選ぶ問題で、各文を理解するだけでなく、文章全体の内容を把握し、構造を理解することが重要である。すべての段落タイトルを同時に正答しないと正解と認められない完答型問題のため、ランダムに回答しても正答率は4%にとどまる。また、構造が特殊なためXLNetなどの文書表現技術を適用できない。
そこで、各段落と選択肢の類似度を計算し、最適な段落/選択肢の組み合わせを導く手法を考案し、過去3年の本試験/追試験5問すべてで正答。類似度計算に文章表現技術BERTを適用することで、ベンチマークデータに対しても80%の高い正答率を得られた。
アクセントや発音問題に対する辞書を活用した自動解答
センター試験ではアクセント/発音問題も出されるが、辞書の発音記号と対応して回答する必要があるため、現在の深層学習による文書読解技術では対応できない。この問題にはあえて発音辞書を地道に調べる方法を適用し、表記ゆれを抑える工夫や問題解析器の制度を高めたことで、ほぼ満点の成績を得ることができたという。
アクセントや発音問題への対策
関連リンク NTTのホームページ ニュースリリース
関連記事
やじうまPC Watch
東大をあきらめた“東ロボくん”の偏差値が急上昇
2016年11月14日
連載
森山和道の「ヒトと機械の境界面」
意味を理解しないAIの可能性と限界。人間とAIの共通弱点は読解力だった
2016年11月22日
連載
森山和道の「ヒトと機械の境界面」
NII、「人工頭脳プロジェクト」キックオフシンポジウムレポート
2011年12月16日
人工頭脳が代ゼミ東大模試で偏差値約60達成
2013年11月25日
「GPT-4」登場。多くの試験を「人間レベル」で合格、画像認識も
2023年3月15日
Microsoftt BingチャットはすでにGPT-4ベース
2023年3月15日