TBSJのSanbiは、複数の品質評価指標を用いて、ドキュメントレベルおよび文レベル両方のスコアを算出します。
ツールは、計算を意味する「算」と比較を意味する「比」を合わせて、Sanbiと名づけました。英語の「Sun」と「Be」を合わせた混成語のように発音します。
異なる評価指標は機械翻訳品質の異なる側面を反映するため、Sanbiには今後さらに多くの指標を統合していく予定です。
弊社のニュースレターにご登録ください。弊社の開発に関する最新情報をお届けします。
ご感想、ご意見、ご要望がありましたら、メールでお聞かせください。
Bilingual Evaluation Understudy, ACL 2002.
BLEUスコアは0~1の間の実数で表現されます。スコアが1に近いほど、仮説翻訳(評価対象となる機械翻訳)が参照翻訳(人間による翻訳)に近いことを示します。
BLEUスコアは人間による判断と高い相関性があり、最も広く使用されている自動評価の標準指標です。
使用したハイパーパラメータ:4つの重み(0.45, 0.35, 0.1, 0.1)とmethod2 smoothing function。
Rank-based Intuitive Bilingual Evaluation Score, EMNLP 2010.
RIBES指標は、英語と日本語のように、言語間距離が離れた言語ペアの翻訳品質を評価するのに特に適しています。
スコアは0(最低)~1(最高)の間の実数で表現されます。
使用したハイパーパラメータ:alpha=0.250000 beta=0.100000。
An Automatic Metric for MT Evaluation with HighLevels of Correlation with Human Judgments, ACL 2007
METEORはBLEUに似ていますが、同義語を考慮し単語の語幹を比較します(そのため「running」と「runs」が一致します)。
また、BLEUはコーパス全体を比較するのに適している一方、METEORはとりわけ文の比較を行うために設計されています。
使用したハイパーパラメータ:小文字、PorterStemmer、WordNetコーパス、alpha=0.9、beta=3、gamma=0.5。
hLEPORとは、言語に依存しない指標で、出力長ペナルティ、適合率(Precision)、n-gram位置の違いによるペナルティや再現率(Recall)、オプションの言語的情報など、強化された要素を有しています。
スコアは0~1の間の実数で表現されます。スコアが高いほど、仮説翻訳(評価対象となる機械翻訳)が参照翻訳(人間による翻訳)に近いことを意味します。
使用したハイパーパラメータ:alpha=9.0とbeta=1.0、n=2、weight_elp=2.0、weight_pos=1.0、weight_pr=7.0。一部の言語ペアの最適なパラメータについては、表1(Table1)を参照してください。
選択した言語に合わせて、送信されたすべてのファイルを次の設定でトークン化します。