Hugging FaceはmmBERT、1,833の言語にわたる3兆以上のトークンでトレーニングされた新しい多言語エンコーダーをリリースした。モデルはModernBERTアーキテクチャを基盤としており、多言語理解タスクの長年のベースラインとなっていたXLM-Rを大幅に上回る初のモデルである。
mmBERTはすべての言語を一度に学習するのではなく、段階的な学習スケジュールを採用している。まず60の高リソース言語から始め、次に110言語に拡張し、最終的に1,833言語すべてを含める。モデルはマスキング比率を30%から5%に減少させ、サンプリング分布を調整して小規模言語をより良く表現するようにしている。
この「段階的な言語追加」アプローチは過学習を防ぎながらカバレッジを確保する上でクリティカルであることが証明された。例えばフェロー語やティグリニャ語 -最終的な100Bトークン減衰フェーズでのみ導入された- はこの戦略のおかげで大幅な性能向上を示した。
コミュニティメンバーはこのバランスの取り方に興味を持った。企業AI実践者であるYasir Altaf氏は質問した:
低リソース言語が1,833言語フェーズで埋もれないようにするために、どのように保証されましたか?言語ごとの「最低限の有効な信号」の閾値はありましたか?また、技術的には1,833言語で「トレーニングされている」としても、モデルが上位50言語に支配されていないとどの程度確信していますか?
これに対しHugging FaceエンジニアかつSentence Transformersの維持保守担当者 Tom Aarsen氏は説明した:
これは最終的な100Bトークンフェーズでのみ導入された低リソース言語、例えばティグリニャ語やフェロー語で評価することで確認されました。これらの言語が最後のフェーズに含まれた際に大幅な改善が観察されました。
mmBERTはModernBERTアーキテクチャを基盤とし、そのFlash Attention 2や非パディングシーケンス処理を備えた高速でメモリ効率の高いバックボーンを継承しており、8,192トークンコンテキストに対応できる。
ベースモデルは埋め込み以外のパラメータが110Mしかないが、はるかに大規模な多言語モデルに匹敵する性能を持つ。軽量なワークロード向けに140Mパラメータの小型バリアントも利用可能だ。
mmBERTはModernBERT設計を踏襲しており、22層のエンコーダーと最大8,192トークンシーケンスまでをサポートしている。ベースモデルは埋め込み以外のパラメータ110M(総計307M)で、効率性を重視した140Mの小型バリアントも提供されている。
特徴的な要素としてモデル統合の使用が挙げられる。単一の学習済みモデルに依存するのではなく、チームはTIES統合を用いて3つのバリアント -英語中心、110言語、全言語- を組み合わせた。これによりドメイン全体での性能を維持することが可能となった。
評価においてmmBERTは以前の多言語エンコーダーを一貫して上回った。GLUEでは、学習データの英語が4分の1以下であるにもかかわらず、英語専用のベースラインに匹敵する結果を示した。XTREMEでは、XNLIやTyDiQAのようなクロスリンガルタスクで明確な向上を示し、構造化予測においても競争力のある結果を維持した。検索タスクでは、mmBERTはMTEB v2多言語ベンチマークで新記録を樹立し、英語専用モデルと英語トラックで同等の結果を達成した。
mmBERTは多言語エンコーダーのスケーリングが効率性を犠牲にする必要がないことを示している。カバレッジとターゲット改善のバランスを取ることで、検索、分類、クロスリンガルタスクの新たな基準を確立した。