miniG 9B の紹介

詳細

選択

トップへ戻る

カテゴリー： Models

日付： 2024年8月26日

著者： CausalLM

この記事は機械翻訳されました。原文を見る (English)

大規模合成データトレーニングの最前線を探求するために設計された強力な新モデル、miniGをご紹介できることを嬉しく思います。

新しいトレーニングアプローチ

miniGは、オプションの5B ViTを補完する9Bパラメータ言語モデル（THUDM/glm-4-9b-chat-1mから初期化）であり、高性能なビジョン言語モデル（VLM）となっています。その基盤は、1億2000万以上のエントリを持つユニークな合成データセットです。このデータセットは、検索拡張生成（RAG）やナレッジグラフ統合に類似した方法論を活用し、大規模なコンテキストウィンドウを持つ最先端の言語モデルを使用して生成されました。

データ合成プロセス全体は、厳選された200億トークンの事前学習コーパスから派生したクラスター内で実施され、その後の検証はモデル自身によって行われました。特筆すべきは、miniGは人間の嗜好との徹底的なアラインメントを経ておらず、不適切に構築されたプロンプトやベンチマークの決まり文句に応える義務がないことです。

コア機能

サポートされるモダリティ：テキストと画像。ビジョン言語モデルはロック画像チューニングを経ています。テキストのみのバージョンについては、https://huggingface.co/CausalLM/miniG/tree/text-onlyのrevision=text-onlyブランチをご利用ください。
大規模コンテキストウィンドウ：miniGは最大1,000,000トークンのコンテキストウィンドウをサポートします。
モデルパラメータ：モデルは9B LLMとオプションの5B ViTで構成されています。

使用法と推論の推奨事項

注意事項： 推論にはHugging Face transformersのような標準化された実装を使用することを強くお勧めします。vllmやlmdeployなどの高速化カーネルやモデル量子化は、特に視覚推論において、重大なパフォーマンス低下や潜在的に壊滅的な影響を引き起こす可能性があります。

推論パラメータ： 幻覚の少ない結果を得るには、top_p=0.8とtemperature=0.3でのサンプリング、または0.2での純粋な温度サンプリングをお勧めします。類似モデルと比較して一般的に低い温度が必要であり、これは暫定的に巨大なデータセットでの過学習に起因すると考えています。

入力フォーマット：

システムプロンプトが空でないことを確認してください。シンプルな「あなたは親切なアシスタントです。」でも十分です。
正しく解析するために、各<|role|>タグの後に必ず改行文字\nを含めてください。

トレーニングと免責事項

最終リリースバージョンは、複数の候補モデルのマージでした。16ノードの8*A100-80Gで、効率的なナイーブファインチューニングが1日以内に達成でき、推定炭素排出量は700 kg CO2相当です。

免責事項： このモデルはフィルタリングされていないインターネットデータでトレーニングされており、不快なコンテンツが含まれている可能性があります。すべてのデータを精査したり、安全のためにRLHFを実装するリソースがありません。ユーザーは独自の安全チェックを実施し、モデル出力をフィルタリングする責任があります。

モデルハイライト

パラメータ：9B LLM（GLM-4-9B-Chat-1Mから初期化）+ オプションの5B ViT

コンテキストウィンドウ：1,000,000トークン

モダリティ：テキストと画像（ロック画像チューニング使用）

トレーニングデータ：200億トークンのコーパスから生成された1億2000万以上のエントリの合成データセット。

能力	説明	miniG	Gemini-Flash	GLM-4-9B-Chat	Llama 3.1 8B Instruct
MMLU	57科目の問題の表現（STEM、人文科学など含む）	85.45	78.9	72.4	69.4
IFEval	検証可能なプロンプトを使用した指示追従の評価	74.22	-	69	80.4
GSM8K	チャレンジングな数学問題（5-shot評価）	75.89 (5-shot)	86.2 (11-shot)	79.6	84.5 (8-shot CoT)
HumanEval	ホールドアウトデータセットでの Pythonコード生成（0-shot）	79.88	74.3	71.8	72.6
GPQA	生物学、物理学、化学からのチャレンジングな問題データセット	37.37	39.5	34.3 (base)	34.2
コンテキストウィンドウ	モデルが処理できる最大コンテキスト長	1M	1M	128K	128K
入力	サポートされる入力モダリティ	テキスト、画像（単一モデル）	テキスト、画像、音声、動画	テキストのみ	テキストのみ