生成AIのベンチマーク基礎 (機能評価一覧)
「生成AI」 はどう評価されているかのまとめ
- 考察
- 生成AIの回答に「やみくもにデータを解析して怖い」なんて言葉をきく昨今ですが、そもそもこの機能評価やロジックを知ることで、期待される回答への精度、期待や不振の理解も深まるのではないでしょうか。これを機会にこの機能評価一覧をながめてみてはいかがでしょうか。「人の思考」「人間の脳とのデジタルツイン」がここに見えてくるかもしれません。
文章
MMML(Massive Multitask Language Understanding) | 自然言語処理モデルの理解力と推論能力を総合的に評価 |
推論
BBH(Big-Bench Hard) | 言語モデルの特定の能力を試す評価 |
DROP(Dataset for Robustness of Pre-trained Language Models) | 堅牢性と創造性を評価 |
HellaSwag | 創造性とチャレンジングさへの評価 |
コード
HumanEval | プログラム合成能力を測る評価 |
Natural2Code | 自然言語からコードへの変換能力を総合的に評価 |
画像
MMMU(Multi-discipline college-level reasoning problems) | 多分野の大学レベルの論理的思考能力を評価 |
VQAv2 | 視覚質問応答能力を評価 |
TextVQA | 画像に写っているテキストを認識する情報を評価 |
DocVQA(Document Visual Question Answering) | テキストドキュメントと画像の両方の情報を使用した質問に答える評価 |
Infographic VQA | テキストとグラフィック要素の両方を理解し、推論を行う能力の評価 |
MathVista | 数式を理解し推論を行う能力の評価 |
動画
VATEX | ビデオキャプショニングとテキストの両方を含む機能評価 |
Perception Test MCQA | テキストと画像のから情報抽出し回答した内容の正確さと関連性を評価 |
会話翻訳
CoVoST2 | 21言語間の会話翻訳を評価 |
FLEURS | 62言語間の会話翻訳の評価 |
文章
MMML(Massive Multitask Language Understanding)
機械学習モデル、特に自然言語処理モデルの理解力と推論能力を総合的に評価するために設計されたベンチマーク
事前学習で獲得した知識を評価するために設計された新しいベンチマーク。このベンチマークでは、ゼロショットおよびフューショットの設定でのみモデルを評価するため、より人間らしい評価が可能となる。このベンチマークは、STEM、人文科学、社会科学など、57の主題をカバーしており、初級から上級プロフェッショナルレベルまでの難易度があり、世界知識と問題解決能力の両方をテストしている。主題は、数学や歴史などの伝統的な分野から、法律や倫理などのより専門的な分野まで幅広く、文書分類、言語生成、感情分析、問題応答などを同時に解決することに用いることができ、主題の粒度と広さから、モデルの盲点を特定するのに最適だ。この MMLU の正答率の高さがそのモデルの精度の良さとしている。
推論
Big-Bench Hard(BBH)
Googleが開発した「Beyond the Imitation Game Benchmark(BIG-bench)」というベンチマークの一部。200以上のタスクが含まれており、それぞれが言語モデルの特定の能力を試すよう設計されている評価である。例えば Bloombergが開発した金融業界向けの大規模言語モデル「BloombergGPT」は、BIG-bench Hard のベンチマークでも検証された。
- Comprehension: テキストの理解に関するタスク
- QA: 質問に対する回答
- Summarize: テキストの要約
- Translate: 言語の翻訳
- QA-C: 質問に対する回答(文脈あり)
- Summarize-C: テキストの要約(文脈あり)
- Translate-C: 言語の翻訳(文脈あり)
- Generation: テキストの生成に関するタスク
- Write: テキストの作成
- Translate-G: 言語の翻訳(生成)
- QA-G: 質問に対する回答(生成)
- Summarize-G: テキストの要約(生成)
- Creative: 創造的なテキストの生成に関するタスク
- Poem: 詩の生成
- Code: コードの生成
- Script: スクリプトの生成
- Music: 音楽の生成
- Email: メールの生成
- Letter: 手紙の生成
- Answer: 質問に対する回答(創造的)
- Summarize-C-G: テキストの要約(文脈あり、生成)
DROP(Dataset for Robustness of Pre-trained Language Models)
言語モデルの堅牢性と創造性を評価するために設計されている。
- Non-Factual: 事実とは異なるテキストの生成
- Creative: 創造的なテキストの生成
- Factual-Creative: 事実と創造性を組み合わせたテキストの生成
- Factual-Non-Factual: 事実と非事実を組み合わせたテキストの生成
- Explanation: 説明的なテキストの生成
- Question-Answering: 質問に対する回答の生成
- Dialogue: 会話の生成
- Translation: 言語の翻訳
- Code Generation: コードの生成
これらのタスクは、次の3つのレベルに分類されている。
- Level 1: 従来の言語モデルでも比較的容易に達成できるタスク
- Level 2: 従来の言語モデルでも達成が難しいタスク
- Level 3: 従来の言語モデルでは達成が極めて難しいタスク
HellaSwag
言語モデルの創造性とチャレンジングさの両方を評価するために設計されている。
HellaSwagは、DROPと比較して、より創造的でチャレンジングなタスクを多く含んでいることが特徴。そのため、言語モデルの創造性とチャレンジングさをより正確に評価することができると考えられる。
- Creative-Factual: 事実に基づいた創造的なテキストの生成
- Creative-Non-Factual: 事実に基づいていない創造的なテキストの生成
- Challenging-Factual: 事実に基づいたチャレンジングなテキストの生成
- Challenging-Non-Factual: 事実に基づいていないチャレンジングなテキストの生成
これらのタスクは、次の3つのレベルに分類されている。
- Level 1: 従来の言語モデルでも比較的容易に達成できるタスク
- Level 2: 従来の言語モデルでも達成が難しいタスク
- Level 3: 従来の言語モデルでは達成が極めて難しいタスク
数学
GSM8K
小学生レベルの算数問題を網羅しており、それを解かせる事で算数能力を総合的に評価することができる生成AIのベンチマーク。8K問の算数問題を、事前トレーニングされた言語モデルに解かせ、正解率や精度を評価する。2つのモードがあり、自由回答モードは、生成AIの創造性と表現力を評価するのに適している。一方、選択回答モードは、生成AIの正確性と知識を評価するのに適している。
GSM8Kは、2023年にイギリス・エディンバラ大学のヤオ・フー氏らの研究チームによって発表された。
- 足し算
- 引き算
- 掛け算
- 割り算
- 四則演算
- 方程式
- 不等式
- 図形の問題
- 応用問題
MATH
小学生レベルの算数問題に加えて、中学生レベルから大学レベルまでの算数問題も含まれている。
GSM8Kと同様に自由回答モードと選択回答モードがある。
- 代数
- 二次方程式の解を求める
- 不等式を解く
- 関数の性質を調べる
- 解析関数のグラフを描く
- 幾何学
- 三角形の性質を調べる
- 円の性質を調べる
- 立体図形の性質を調べる
- 図形の合同や相似を調べる
- 数学基礎
- 集合の性質を調べる
- 数列の性質を調べる
- 確率論の基本的な考え方
- 統計学の基本的な考え方
- その他
- ゲーム理論
- 線形代数
- 微分積分
- 数学史
コード
HumanEval
164個のPythonのプログラミング問題が用意されており、プログラム合成能力の進歩を測る指標として用いられている。
- 関数
- 関数の定義
- 関数の呼び出し
- 関数の戻り値
- 関数の引数
- データ構造
- リスト
- 辞書
- セット
- 配列
- 制御フロー
- if文
- for文
- while文
- try-except文
- 例外処理
- 例外を発生させる
- 例外を処理する
- 例外の種類
- オブジェクト指向
- クラスの定義
- オブジェクトの作成
- オブジェクトのメソッド
- 継承
- その他のタスク
- モジュールの import
- モジュールの export
- ファイルの読み書き
- テストの作成
Natural2Code
1000個の自然言語からコードへの変換タスクが用意されており、自然言語からコードへの変換能力を総合的に評価するものでありその評価をを測る指標として用いられる。
- 関数
- 関数の定義
- 関数の呼び出し
- 関数の戻り値
- 関数の引数
- データ構造
- リスト
- 辞書
- セット
- 配列
- 制御フロー
- if文
- for文
- while文
- try-except文
- 例外処理
- 例外を発生させる
- 例外を処理する
- 例外の種類
- オブジェクト指向
- クラスの定義
- オブジェクトの作成
- オブジェクトのメソッド
- 継承
- その他のタスク
- モジュールの import
- モジュールの export
- ファイルの読み書き
- テストの作成
以下はNatural2Codeの具体的なタスクの例
- 関数の定義
自然言語:関数を定義して、2つの整数の和を返す
コード:```python def sum(a, b): return a + b
- データ構造
自然言語:リストを定義して、そこに1から10までの整数を追加する
コード:```python numbers = [] for i in range(1, 11): numbers.append(i)
- 制御フロー
自然言語:if文を使って、入力された整数が偶数かどうかを判定する
コード:```python number = int(input("整数を入力してください:"))
if number % 2 == 0: print("偶数です。") else: print("奇数です。")
- 例外処理
自然言語:try-except文を使って、入力された整数が負の数の場合、例外を発生させる
コード:```python try: number = int(input("整数を入力してください:")) except ValueError: print("整数を入力してください。")
- オブジェクト指向
自然言語:クラスを定義して、そのクラスのオブジェクトを作成して、そのオブジェクトのメソッドを呼び出す
コード:```python class Person:
def __init__(self, name, age):
self.name = name
self.age = age
def say_hello(self):
print("こんにちは、私は{}です。年齢は{}歳です。".format(self.name, self.age))
person = Person("山田花子", 20) person.say_hello()
画像
MMMU(Multi-discipline college-level reasoning problems)
多分野の大学レベルの論理的思考能力を評価するためのもの。このベンチマークでは、以下の6つの分野から、11.5K問の問題が用意されている。
具体的なタスクの例をいくつか示す。
- Art & Design 1,886問
- ある絵画の描かれた時代や場所を推定する
- あるデザインの目的や効果を説明する
- Business 1,891問
- あるビジネスの戦略や財務を分析する
- あるビジネスの問題を解決する提案をする
- Science 1,902問
- ある科学的現象の原因や結果を説明する
- ある科学的な問題を解決する方法を考える
- Social Sciences 1,899問
- ある社会問題の原因や影響について分析する
- ある社会問題に対する解決策を提案する
- Technology 1,900問
- ある技術の仕組みや原理を説明する
- ある技術の問題を解決する方法を考える
- Writing 1,892問
- あるトピックについて論文を書く
- ある物語を書く
VQAv2
視覚質問応答能力を評価するためのもので、以下の2つのタスクが一般的に行われる。
- はい/いいえの質問への回答
- 画像に示されている事実に関する質問に、はいまたはいいえで答える。
例)画像のこの人は笑っていますか?
例)この画像の背景には何がありますか?
- 画像に示されている事実に関する質問に、はいまたはいいえで答える。
- オープンエンド質問への回答
- 画像に示されている内容に関する質問に、自由に答える
例)画像のこの場所はどこですか?
例)画像にいるこの人は何を探しているのですか?
例)この画像は何を表していますか?
・画像のオブジェクトが何を表しているかを尋ね、鳩が描かれている画像だと、平和のシンボルである鳩を描いている。そのため、正解は「平和」ですという答えにもつながる。
- 画像に示されている内容に関する質問に、自由に答える
TextVQA
画像に写っているテキストを認識し、そのテキストと画像の両方の情報を評価する。
- 単純な質問
- 画像内の単純な事実を尋ねる質問。例えば、「この画像に写っている動物は何ですか?」などになる。
- 複雑な質問
- 画像内の複数の要素や関係を理解する必要がある質問。例えば、「この画像に写っている人物は何をしているのですか?」などになる。
- オープンエンドな質問
- 複数の答えが可能な質問。例えば、「この画像に写っている人物の感情は何ですか?」などになる。
- 視覚的な推論を必要とする質問
- 画像の中の要素を推論するために、前提知識や一般的な知識が必要となる質問。例えば、「この画像に写っている人物は、どこで働いている可能性が高いですか?」などになる。
DocVQA(Document Visual Question Answering)
テキストドキュメントと画像の両方の情報を使用して質問に答える情報を評価する。
- 単純な質問
- ドキュメント内の単純な事実を尋ねる質問。例えば、「このドキュメントのタイトルは何ですか?」「このドキュメントの作成者は誰ですか?」など。このような質問は、ドキュメントのテキストを直接検索することで答えることができる。
- 複雑な質問
- ドキュメント内の複数の要素や関係を理解する必要がある質問。例えば、「このドキュメントの要約は何ですか?」「このドキュメントの結論は何ですか?」など。このような質問は、ドキュメントのテキストを理解して、その情報を組み合わせる必要がありる。。
- オープンエンドな質問
- 複数の答えが可能な質問。例えば、「このドキュメントの主題は何ですか?」「このドキュメントの著者の意見は何ですか?」など。このような質問は、ドキュメントのテキストを理解して、その情報を評価する必要がありる。
- 視覚的な推論を必要とする質問
- ドキュメントの中の要素を推論するために、画像の情報が必要となる質問。例えば、「このドキュメントの画像に写っている人物は、誰ですか?」「このドキュメントの画像に写っている場所は、どこですか?」など。このような質問は、ドキュメントのテキストと画像の両方の情報を使用して答える必要がある。
Infographic VQA
生成AIがテキストとグラフィック要素の両方を理解し、推論を行う能力を評価するために設計されている。
- 事実に基づく質問
- テキストやグラフィック要素から単純な事実を回答する質問。
- 例:
- 図のタイトルは何ですか?
- 2023年の日本の人口はいくらですか?
- 推論に基づく質問
- テキストやグラフィック要素から推論に基づいて回答する質問。
- 例:
- 2023年の日本の人口は、前年比で増加しましたか?
- 図の男女の割合はどれくらいですか?
- 計算に基づく質問
- テキストやグラフィック要素から数学的な計算に基づいて回答する質問。
- 例:
- 図の売上高は、前年比でいくら増加しましたか?
- 図の平均年齢はいくらですか?
以下の要素が評価されている。
- 正確性
- 生成AIが正しい回答を生成できる能力。
- 完全性
- 生成AIが回答に必要なすべての情報を含める能力。
- 流暢性
- 生成AIが自然で読みやすい回答を生成できる能力。
MathVista
数式を理解し推論を行う能力を評価するために設計されている。
- 数式の意味理解
- 数式の意味を理解し、テキストで説明する能力。
- 例:
- 式 y=x2 は、x の平方を表す。
- 式 y=x2+2x+1 は、x の二次方程式を表す。
- 式 y=x1 は、x の逆数を表す。
- 数式の推論
- 数式から推論を行い、新しい数式を生成したり、数値を計算したりする能力。
- 例:
- 式 y=x2 から、y=x3 を導出する。
- 式 y=x2 の x=3 における値を求める。
- 式 y=x2+2x+1 の x の最大値を求める。
- 数式の生成
- 与えられた条件を満たす数式を生成したり、与えられた問題を解決するために必要な数式を生成したりする能力。
- 例:
- 与えられたデータの傾向を表す数式を生成する。
- 与えられた条件を満たす関数を生成する。
- 与えられた問題を解決するために必要な数式を生成する。
具体的には、以下の要素が評価される。
- 正確性
- 生成AIが正しい回答を生成できる能力。
- 完全性
- 生成AIが回答に必要なすべての情報を含める能力。
- 流暢性
- 生成AIが自然で読みやすい回答を生成できる能力。
例として、以下のような問題がある。
- 以下のデータの傾向を表す数式を生成してください。
x | y
---|---
1 | 2
2 | 4
3 | 8
- 以下の条件を満たす関数を生成してください。
f(0) = 1
f(1) = 2
f(2) = 3
- 以下の問題を解決するために必要な数式を生成してください。
円の面積を求める。
動画
VATEX
VATEX (Video and Text)はビデオキャプショニングとテキストの両方を含む機能評価でビデオキャプショニングとビデオQAの2つのタスクだ。
- ビデオキャプショニング
- ビデオクリップの内容を説明するテキスト(キャプション)を生成する。キャプションは、ビデオの主要なイベント、参加者、行動、結果などを正確に反映する必要がある。
- ビデオQA
- ビデオクリップと関連する質問に対する答えを生成する。質問は、ビデオの内容に基づいており、答えはビデオから直接または間接的に導き出される。
Perception Test MCQA
テキストと画像の両方から情報を抽出して回答した内容の正確さと関連性を評価する。評価には、人間の評価者による主観的な評価と、客観的な評価指標の両方を用いる。
- Open-ended MCQA: テキストと画像から情報を抽出して、自由回答形式で質問に答えるタスク。
- Yes/No MCQA: テキストと画像から情報を抽出して、Yes/No形式で質問に答えるタスク。
- Fill-in-the-blank MCQA: テキストと画像から情報を抽出して、空欄を埋める形式で質問に答えるタスク。
Open-ended MCQAタスクでは、テキストと画像から情報を抽出して、自由回答形式で質問に答える能力を評価する。例えば、次のようなものに答える。
- テキストや画像に描かれているもの、起こっている出来事は何ですか?
- テキストや画像から読み取れるメッセージや教訓は何ですか?
Yes/No MCQAタスクでは、テキストと画像から情報を抽出して、Yes/No形式で質問に答える能力を評価する。例えば、次のようなものに答える。
- テキストや画像に描かれている人物は、男性ですか?女性ですか?
- テキストや画像に描かれている出来事は、過去に起こったことですか?現在に起こっていることですか?
Fill-in-the-blank MCQAタスクでは、テキストと画像から情報を抽出して、空欄を埋める形式で質問に答える能力を評価する。例えば、次のようなものに答える。
- テキストや画像に描かれている人物の名前は何ですか?
- テキストや画像に描かれている出来事の場所はどこですか?
会話翻訳
CoVoST2
21言語間の会話翻訳を評価するで、以下の2つのタスクで構成されている。
- Translation: 1言語から別の言語への翻訳。
- Dialogue: 2人の会話の翻訳。
Translationタスク
- 入力:1言語のテキスト
- 出力:別の言語のテキスト
評価指標:
- BLEU score
- ROUGE score
- METEOR score
- CIDEr score
- BERTScore
Dialogueタスク
- 入力:1言語のテキストのペア
- 出力:別の言語のテキストのペア
評価指標:
- BLEU score
- ROUGE score
- METEOR score
- CIDEr score
- BERTScore
- 自然言語理解の評価指標(F1 score、Accuracy、Recall、Precision)
21言語間の会話翻訳を評価するベンチマークとして、以下の点が特徴的である。
- 21言語を対象とした、多言語会話翻訳のベンチマークとしては初の試み。
- 人間の評価者による主観的な評価と、客観的な評価指標の両方を用いて、生成AIの翻訳品質を評価。
- 自然言語理解の評価指標も用いることで、生成AIの理解力も評価。
- 21言語は以下の言語になる。
- アラビア語 (ar)
- 中国語 (zh)
- チェコ語 (cs)
- デンマーク語 (da)
- ドイツ語 (de)
- 英語 (en)
- スペイン語 (es)
- フィンランド語 (fi)
- フランス語 (fr)
- ヘブライ語 (he)
- インドネシア語 (id)
- イタリア語 (it)
- 日本語 (ja)
- 韓国語 (ko)
- オランダ語 (nl)
- ポーランド語 (pl)
- ポルトガル語 (pt)
- ロシア語 (ru)
- トルコ語 (tr)
FLEURS
62言語間の会話翻訳の評価である。以下の3つのタスクで構成されています。
- Translation: 1言語から別の言語への翻訳。
- Dialogue: 2人の会話の翻訳。
- Cross-lingual NLG: 1言語のテキストから別の言語のテキストを生成。
Translationタスク
- 入力:1言語のテキスト
- 出力:別の言語のテキスト
評価指標:
- BLEU score
- ROUGE score
- METEOR score
- CIDEr score
- BERTScore
Dialogueタスク
- 入力:1言語のテキストのペア
- 出力:別の言語のテキストのペア
評価指標:
- BLEU score
- ROUGE score
- METEOR score
- CIDEr score
- BERTScore
- 自然言語理解の評価指標(F1 score、Accuracy、Recall、Precision)
Cross-lingual NLGタスク
- 入力:1言語のテキスト
- 出力:別の言語のテキスト
評価指標:
- BLEU score
- ROUGE score
- METEOR score
- CIDEr score
- BERTScore
62言語間の会話翻訳とクロスリンガル NLGを評価するベンチマークとして、以下の点が特徴的である。
- 62言語を対象とした、多言語会話翻訳とクロスリンガル NLGのベンチマークとしては初の試み。
- 人間の評価者による主観的な評価と、客観的な評価指標の両方を用いて、生成AIの翻訳品質とクロスリンガル NLGの品質を評価。
- 自然言語理解の評価指標も用いることで、生成AIの理解力も評価。
- 62言語とは以下の言語になる。
- アラビア語 (ar)
- ベンガル語 (bn)
- ブルガリア語 (bg)
- カタロニア語 (ca)
- 中国語 (zh)
- チェコ語 (cs)
- デンマーク語 (da)
- オランダ語 (nl)
- 英語 (en)
- エストニア語 (et)
- フィンランド語 (fi)
- フランス語 (fr)
- ドイツ語 (de)
- ギリシャ語 (el)
- ヘブライ語 (he)
- ヒンディー語 (hi)
- ハンガリー語 (hu)
- アイスランド語 (is)
- インドネシア語 (id)
- イタリア語 (it)
- 日本語 (ja)
- カンナダ語 (kn)
- 朝鮮語 (ko)
- ラトビア語 (lv)
- リトアニア語 (lt)
- マレー語 (ms)
- マルタ語 (mt)
- ノルウェー語 (no)
- ポーランド語 (pl)
- ポルトガル語 (pt)
- ルーマニア語 (ro)
- ロシア語 (ru)
- セルビア語 (sr)
- スロバキア語 (sk)
- スロベニア語 (sl)
- スペイン語 (es)
- スウェーデン語 (sv)
- タガログ語 (tl)
- トルコ語 (tr)
- ウクライナ語 (uk)
- ベトナム語 (vi)
最後に・・・未来の生成AIへの課題と期待
未来の生成AIは、現在よりもさらに高度な能力を実装し、社会に大きな影響を与えることでしょう。以下のような分野で大きな進展が期待されるのではなかろうか。
- 創造性
- 既存のデータに基づいて新しいものを生み出す能力を持っている。この能力は、芸術、音楽、文学などの創造的な分野で、人間の創造性をさらに高める可能性を秘めている。また、新しいビジネスモデルや製品の開発にも役立つと考えられるだろう。
- カスタマイズ
- ユーザーのニーズや好みに合わせて、パーソナライズされたコンテンツを生成することができる。この能力は、教育、マーケティング、エンターテイメントなどの分野で、ユーザーの満足度を向上させる効果が期待されている。また、新たなコミュニケーション手段としても活用される可能性があるだろう。
- 効率化
- 人間が行う単純作業を自動化することができている。この能力は、製造業、物流、サービス業などの分野で、生産性向上やコスト削減に貢献すると考えられている。また、新しい働き方の創出にもつながる可能性があるだろう。
一方で、生成AIの普及には、以下のような課題も指摘されている。
- 偏見や差別へのバイアス
- 学習したデータに含まれる偏見や差別を反映してしまう可能性がある。この問題は、生成AIが創造するコンテンツや、生成AIが提供するサービスに影響を与える可能性があるだろう。それを組み上げるのも人であるがために、この問題を通じてどう倫理を形成していくかは常にアップデートする必要があるだろう。
- 誤った情報の拡散
- 人間が作成したコンテンツと見分けがつかないほど精度の高いコンテンツを生成することができる。この能力は、誤った情報の拡散に悪用される可能性があるだろう。
- 失業
- 人間が行う単純作業を自動化することができるため、このことが新たな雇用を生み出す一方で、既存の雇用を奪う可能性もあるのも確かだ。
これらの課題を解決するためには、生成AIの開発や活用に関する倫理的な議論が必要不可欠であり政府や企業による対策も重要な課題である。