Guanaco：オープンソース、多言語、マルチモーダルLLM

詳細

選択

カテゴリー： Models

日付： 2023年3月16日

著者： CausalLM

この記事は機械翻訳されました。原文を見る (English)

Guanacoは、MetaのLLaMA 7Bモデルをベースに構築された高度な指示追従型言語モデルです。Alpacaモデルの当初の52Kデータセットを拡張し、英語、簡体字中国語、繁体字中国語（台湾）、繁体字中国語（香港）、日本語、ドイツ語および様々な言語学的・文法的タスクをカバーする534,530件のエントリが追加されました。このデータの豊富さにより、Guanacoは多言語環境で優れたパフォーマンスを発揮します。

研究におけるオープン性と再現性を促進するため、Guanacoデータセットを一般公開し、モデルの重みをリリースしました。これらのリソースを提供することで、より多くの研究者が関連研究に取り組み、指示追従型言語モデルの開発を共同で推進することを願っています。

1. 改善されたコンテキストとプロンプトロールのサポート：

新しいフォーマットはChatGPTに似た設計で、Alpacaフォーマットとのより良い統合と全体的なユーザー体験の向上を可能にします。

指示は多様な入力と応答をサポートするためのフューショットコンテキストとして使用され、モデルがユーザーのクエリを理解し、正確な応答を提供しやすくなります。

フォーマットは以下の通りです：

### Instruction:
User: 過去のユーザー入力
Assistant: 過去のアシスタント回答
### Input:
System: 知識
User: 新しいユーザー入力
### Response:
新しいアシスタント回答

この構造化されたフォーマットにより、会話履歴の追跡が容易になり、マルチターンダイアログ全体でコンテキストを維持できます。

2. ロールプレイサポート：

Guanacoは、英語、簡体字中国語、繁体字中国語、日本語、ドイツ語でCharacter.AIに似た高度なロールプレイサポートを提供し、様々な言語的背景を持つユーザーにとってより汎用性の高いものになっています。

ユーザーはモデルに特定の役割、歴史上の人物、架空のキャラクター、および入力に基づいた性格を想定するよう指示できます。これにより、より魅力的で没入感のある会話が可能になります。

モデルは、百科事典のエントリ、一人称の語り、または性格特性のリストなど、様々な情報源を使用してキャラクターの背景と行動のための知識とコンテキストを提供できます。

モデルは一貫して「キャラクター名：返信」の形式で応答を出力し、会話全体で選択した役割を維持し、ユーザー体験を向上させます。

3. 回答の拒否と誤った応答の回避：

モデルは、十分な知識がない場合や有効な応答を提供できない場合の状況をより効果的に処理するように更新されました。

異なるシナリオを示し、ユーザーとのより明確なコミュニケーションを提供するために、予約キーワードが導入されました：

NO IDEA： モデルが正確な回答を提供するために必要な知識を欠いていることを示し、ユーザーに説明して代替ソースを探すよう促します。
FORBIDDEN： モデルが特定の理由（例：法的、倫理的、または安全上の懸念）により回答を拒否することを示し、クエリのコンテキストに基づいて推測されます。
SFW： モデルがNSFWコンテンツに対してフィルタリングされているため質問への回答を拒否することを示し、より安全で適切なユーザー体験を確保します。

4. 継続的なトピックへの応答の続行：

Guanacoモデルは、ユーザーのリクエストに応じて質問への回答やトピックの議論を続けることができ、より適応性が高く、拡張された会話に適しています。

システム、アシスタント、ユーザーの役割で構成されるコンテキスト構造により、モデルはマルチターンダイアログに参加し、コンテキストを意識した会話を維持し、より一貫性のある応答を提供できます。

モデルは役割の仕様とキャラクター設定に対応でき、ユーザーの好みに基づいて、より没入感のあるカスタマイズされた会話体験を提供します。

5. マルチモーダルビジュアル質問応答（VQA）サポート：

Guanacoはマルチモーダルインタラクションの領域にその機能を拡張し、ビジュアル質問応答（VQA）のサポートを提供しています。モデルは、多言語VQAタスクのためにblip2-flan-t5-xxlからのデータを統合することでこれを実現し、マルチモーダルチャットボット開発における重要なマイルストーンを示しています。

この新機能により、モデルはテキストと視覚的な入力の両方を含むクエリを解釈し、応答することができ、より豊かでインタラクティブで包括的なユーザー体験を提供します。ユーザーは画像について質問でき、モデルはテキストクエリと組み合わせて視覚コンテンツを分析し、応答を提供します。

注目すべき追加は、現在公開されているGuanaco VQAデータセットです。

マルチモーダルチャットボットとして、Guanacoは視覚と言語理解のギャップを埋めることができ、幅広いアプリケーションに対応する非常に汎用性の高いツールとなっています。