詳細
選択
CausalLMについて

人工知能の最前線を推進する非営利研究イニシアチブです。オムニモーダルAIシステム、効率的なアーキテクチャ、大規模合成データに焦点を当てています。

miniG 9B VLM
100万コンテキストウィンドウ

miniG 9B の紹介
カテゴリー:  Models
日付:  
著者:  CausalLM
この記事は機械翻訳されました。原文を見る (English)

大規模合成データトレーニングの最前線を探求するために設計された強力な新モデル、miniGをご紹介できることを嬉しく思います。

新しいトレーニングアプローチ

miniGは、オプションの5B ViTを補完する9Bパラメータ言語モデル(THUDM/glm-4-9b-chat-1mから初期化)であり、高性能なビジョン言語モデル(VLM)となっています。その基盤は、1億2000万以上のエントリを持つユニークな合成データセットです。このデータセットは、検索拡張生成(RAG)やナレッジグラフ統合に類似した方法論を活用し、大規模なコンテキストウィンドウを持つ最先端の言語モデルを使用して生成されました。

データ合成プロセス全体は、厳選された200億トークンの事前学習コーパスから派生したクラスター内で実施され、その後の検証はモデル自身によって行われました。特筆すべきは、miniGは人間の嗜好との徹底的なアラインメントを経ておらず、不適切に構築されたプロンプトやベンチマークの決まり文句に応える義務がないことです。

コア機能

  • サポートされるモダリティ:テキストと画像。ビジョン言語モデルはロック画像チューニングを経ています。テキストのみのバージョンについては、https://huggingface.co/CausalLM/miniG/tree/text-onlyrevision=text-onlyブランチをご利用ください。
  • 大規模コンテキストウィンドウ:miniGは最大1,000,000トークンのコンテキストウィンドウをサポートします。
  • モデルパラメータ:モデルは9B LLMとオプションの5B ViTで構成されています。

使用法と推論の推奨事項

注意事項: 推論にはHugging Face transformersのような標準化された実装を使用することを強くお勧めします。vllmlmdeployなどの高速化カーネルやモデル量子化は、特に視覚推論において、重大なパフォーマンス低下や潜在的に壊滅的な影響を引き起こす可能性があります。

推論パラメータ: 幻覚の少ない結果を得るには、top_p=0.8temperature=0.3でのサンプリング、または0.2での純粋な温度サンプリングをお勧めします。類似モデルと比較して一般的に低い温度が必要であり、これは暫定的に巨大なデータセットでの過学習に起因すると考えています。

入力フォーマット:

  1. システムプロンプトが空でないことを確認してください。シンプルな「あなたは親切なアシスタントです。」でも十分です。
  2. 正しく解析するために、各<|role|>タグの後に必ず改行文字\nを含めてください。

トレーニングと免責事項

最終リリースバージョンは、複数の候補モデルのマージでした。16ノードの8*A100-80Gで、効率的なナイーブファインチューニングが1日以内に達成でき、推定炭素排出量は700 kg CO2相当です。

免責事項: このモデルはフィルタリングされていないインターネットデータでトレーニングされており、不快なコンテンツが含まれている可能性があります。すべてのデータを精査したり、安全のためにRLHFを実装するリソースがありません。ユーザーは独自の安全チェックを実施し、モデル出力をフィルタリングする責任があります。

モデルハイライト

パラメータ:9B LLM(GLM-4-9B-Chat-1Mから初期化)+ オプションの5B ViT

コンテキストウィンドウ:1,000,000トークン

モダリティ:テキストと画像(ロック画像チューニング使用)

トレーニングデータ:200億トークンのコーパスから生成された1億2000万以上のエントリの合成データセット。

能力 説明 miniG Gemini-Flash GLM-4-9B-Chat Llama 3.1 8B Instruct
MMLU 57科目の問題の表現
(STEM、人文科学など含む)
85.45 78.9 72.4 69.4
IFEval 検証可能なプロンプトを使用した
指示追従の評価
74.22 - 69 80.4
GSM8K チャレンジングな数学問題
(5-shot評価)
75.89 (5-shot) 86.2 (11-shot) 79.6 84.5 (8-shot CoT)
HumanEval ホールドアウトデータセットでの
Pythonコード生成(0-shot)
79.88 74.3 71.8 72.6
GPQA 生物学、物理学、化学からの
チャレンジングな問題データセット
37.37 39.5 34.3 (base) 34.2
コンテキストウィンドウ モデルが処理できる
最大コンテキスト長
1M 1M 128K 128K
入力 サポートされる入力モダリティ テキスト、画像、音声、動画 テキストのみ テキストのみ

Hugging Faceでモデルを探索 →