東京大学教員の著作を著者自らが語る広場

白い表紙に深層を表した木々のようなイラスト

書籍名

自然言語処理のための深層学習

著者名

Yoav Goldberg (著)、 加藤 恒昭、 林 良彦、鷲尾 光樹、中林 明子 (訳)

判型など

336ページ、B5変型

言語

日本語

発行年月日

2019年1月

ISBN コード

978-4-320-12446-2

出版社

共立出版

出版社URL

書籍紹介ページ

学内図書館貸出状況(OPAC)

自然言語処理のための深層学習

英語版ページ指定

英語ページを見る

昨今、世間を賑わせている「人工知能 (AI)」の基礎となるニューラルネットワーク (深層学習) はもともとパターン認識の技術であった。写真を与えられ、そこに猫が写っていると判断する画像認識はその典型で、昨今のブームの火付け役となった成果もそこから生まれた。一方、文やテキストを扱う自然言語処理技術はパターン認識とは別の枠組みを持っていた。もちろん、その一部、記事を与えられてそれが政治記事か芸能記事かを判断するような文書分類などは、従来よりパターン認識的な性質を持っていたが、例えば機械翻訳はそれらとは一線を画していた。
 
写真を見てそれが猫だと言うことと、“A cat is lying.”を「猫が寝そべっている」と翻訳することの性格はだいぶんと異なる。まず、画像を構成する画素は黄色や茶色を表す (虎猫である)。この色は波長という物理量に対応していて、黄色と茶色は似ていて赤色とはだいぶん違うということは物理的な特徴である。一方で、“cat”という文字列がどんな意味を持つかは物理的な特徴ではない。catがkittyとdeskのどちらにより似ているかは”cat”からは明らかでない。また、人は個々の写真を見てそれが猫であるかを簡単に判断できるが、そう判断した理由を説明することはなかなか難しい。猫も犬も耳があって4本足である。一方で、翻訳の過程はそれなりに説明ができる。日本語で“cat”は「猫」で、主語の後には述部が来るので、云々。パターン認識は、物理的な特徴の集まりを対象として、個別事例の判断は容易であるが、その判断を規則として記述することが難しい処理を対象としていた。猫がどんなものであるかの規則が書けるのであればそれを記述して実現すればよい。それが書けないので、計算機の側に事例を汎化の枠組みを与えて、たくさんの猫を見せることで、猫ってこんなものという概念を学ばせるのである。
 
機械翻訳をはじめとする自然言語処理をパターンを扱う技術で扱うためにふたつのことが必要になる。まず、単語の意味などを物理量であるかのように表現しその間の比較を可能とすることである。ある単語がどんな単語の近くに現れることが多いかという頻度 (物理量である) を用いる。そして、与えられた文やテキストがどんなものかということを学ぶ汎化の枠組みである。たくさんの対訳文を与えることで、どんな英文かを学び、そのような英文の訳文であれば、どんな単語を並べていけばよいのかを学ぶ仕組みである。驚いたことに、そのような汎化の方が人間が書いた規則よりもよい結果が出せることが明らかになっている。本書は、ニューラルネットワーク技術の基礎から説き起こし、この二つの仕組みを丁寧に説明している。
 
「機械学習と自然言語処理を学ぶ大学院生」を主な読書層とした専門書であるが、ベクトルと行列についての基本的な知識があれば、大筋の理解には困らない。技術的な解説書であるので、こんなことまでできます的な応用例の紹介は少ないし、倫理的、社会的な影響への考察も含まれない。「人工知能」とは何か。じっくりとお読みいただければ幸いである。
 

(紹介文執筆者: 総合文化研究科・教養学部 教授 加藤 恒昭 / 2019)

本の目次

  第1章  導入
 
第1編 教師あり分類とフィードフォワードニューラルネットワーク
  第2章  機械学習の基礎と線形モデル
  第3章  線形モデルから多層パーセプトロンへ
  第4章  フィードフォーワードニューラルネットワーク
  第5章  ニューラネットワークの訓練
 
第2編 自然言語データの扱い
  第6章  テキストデータのための素性
  第7章  事例研究: 自然言語処理における素性
  第8章  テキストの素性から入力への変換
  第9章  言語モデリング
  第10章  事前学習された単語表現
  第11章  単語埋め込みの利用
  第12章  事例研究: 文の意味推論のためのフィードフォーワードアーキテクチャ
 
第3編 特別なアーキテクチャ
  第13章  n-グラム検出器:畳み込みニューラルネットワーク
  第14章  再帰的ニューラルネットワーク:系列とスタックのモデリング
  第15章  RNNの具体的な構成
  第16章  RNNを用いたモデリング
  第17章  条件付き生成
 
第4編 追加的な話題
  第18章  RecRNNによる木構造のモデリング
  第19章  構造を持つ出力の予測
  第20章  モデルのカスケード接続,マルチタスク学習,半教師あり学習
 
  第21章  結論
 

このページを読んだ人は、こんなページも見ています