
大規模合成データトレーニングの最前線を探求するために設計された強力な新モデル、miniGをご紹介できることを嬉しく思います。
miniGは、オプションの5B ViTを補完する9Bパラメータ言語モデル(THUDM/glm-4-9b-chat-1mから初期化)であり、高性能なビジョン言語モデル(VLM)となっています。その基盤は、1億2000万以上のエントリを持つユニークな合成データセットです。このデータセットは、検索拡張生成(RAG)やナレッジグラフ統合に類似した方法論を活用し、大規模なコンテキストウィンドウを持つ最先端の言語モデルを使用して生成されました。
データ合成プロセス全体は、厳選された200億トークンの事前学習コーパスから派生したクラスター内で実施され、その後の検証はモデル自身によって行われました。特筆すべきは、miniGは人間の嗜好との徹底的なアラインメントを経ておらず、不適切に構築されたプロンプトやベンチマークの決まり文句に応える義務がないことです。
revision=text-onlyブランチをご利用ください。注意事項: 推論にはHugging Face transformersのような標準化された実装を使用することを強くお勧めします。vllmやlmdeployなどの高速化カーネルやモデル量子化は、特に視覚推論において、重大なパフォーマンス低下や潜在的に壊滅的な影響を引き起こす可能性があります。
推論パラメータ: 幻覚の少ない結果を得るには、top_p=0.8とtemperature=0.3でのサンプリング、または0.2での純粋な温度サンプリングをお勧めします。類似モデルと比較して一般的に低い温度が必要であり、これは暫定的に巨大なデータセットでの過学習に起因すると考えています。
入力フォーマット:
「あなたは親切なアシスタントです。」でも十分です。<|role|>タグの後に必ず改行文字\nを含めてください。最終リリースバージョンは、複数の候補モデルのマージでした。16ノードの8*A100-80Gで、効率的なナイーブファインチューニングが1日以内に達成でき、推定炭素排出量は700 kg CO2相当です。
免責事項: このモデルはフィルタリングされていないインターネットデータでトレーニングされており、不快なコンテンツが含まれている可能性があります。すべてのデータを精査したり、安全のためにRLHFを実装するリソースがありません。ユーザーは独自の安全チェックを実施し、モデル出力をフィルタリングする責任があります。
パラメータ:9B LLM(GLM-4-9B-Chat-1Mから初期化)+ オプションの5B ViT
コンテキストウィンドウ:1,000,000トークン
モダリティ:テキストと画像(ロック画像チューニング使用)
トレーニングデータ:200億トークンのコーパスから生成された1億2000万以上のエントリの合成データセット。
| 能力 | 説明 | miniG | Gemini-Flash | GLM-4-9B-Chat | Llama 3.1 8B Instruct |
|---|---|---|---|---|---|
| MMLU | 57科目の問題の表現 (STEM、人文科学など含む) | 85.45 | 78.9 | 72.4 | 69.4 |
| IFEval | 検証可能なプロンプトを使用した 指示追従の評価 | 74.22 | - | 69 | 80.4 |
| GSM8K | チャレンジングな数学問題 (5-shot評価) | 75.89 (5-shot) | 86.2 (11-shot) | 79.6 | 84.5 (8-shot CoT) |
| HumanEval | ホールドアウトデータセットでの Pythonコード生成(0-shot) | 79.88 | 74.3 | 71.8 | 72.6 |
| GPQA | 生物学、物理学、化学からの チャレンジングな問題データセット | 37.37 | 39.5 | 34.3 (base) | 34.2 |
| コンテキストウィンドウ | モデルが処理できる 最大コンテキスト長 | 1M | 1M | 128K | 128K |
| 入力 | サポートされる入力モダリティ | テキスト、画像 (単一モデル) | テキスト、画像、音声、動画 | テキストのみ | テキストのみ |