私たちは、複数の言語、文書、知識ドメインにまたがる高品質なトレーニングデータを合成するための先進的な技術を開発しています。私たちの方法は、マルチドキュメントおよびマルチチャプターのコンテキストにスケールしながら、事実に基づく基盤を確保します。
私たちの合成パイプラインは、意味的一貫性と事実の正確性を維持しながら、数十の言語にわたるトレーニングデータを生成します。言語の境界を越えて概念が正しく表現されるよう、高度なアライメント技術を採用しています。
この多言語アプローチにより、モデルは言語間で知識を転移し、低リソース言語でゼロショットタスクを実行することができます。
すべての合成データは、検証された知識ソースに厳密に基盤化されています。私たちは、事実の一貫性を確保し、生成されたコンテンツ内のハルシネーションを検出する自動検証システムを開発しました。
私たちの基盤化技術は、構造化された知識ベースから非構造化テキストコーパスまで及び、多様で信頼性の高いトレーニングデータを可能にします。
私たちは、複数の文書、章、さらには本全体の規模で情報合成を行います。私たちのクラスタリングアルゴリズムは、大規模なテキストコレクション全体で意味的関係を識別し、重要な情報を保持する一貫した要約を生成します。
この機能により、モデルに長距離推論とクロスドキュメント理解を教えるトレーニングデータが可能になります。
私たちは、大規模な取り組みでは見落とされがちな専門分野で、複数の合成データセットを公開しています。これらのデータセットは、技術分野、科学分野、文化的知識をカバーし、かなりの合成コストを表しています。
これらのデータセットのオープンソース化への取り組みは、サービスが行き届いていない分野の研究を支援し、多様なモデル機能を促進します。