GenAI プロジェクトを本番環境に移行する

生成 AI と大規模言語モデル (LLM) は、人工知能の新しい革命であり、2 年前には想像もつかなかったような機能を実現しています。ディープラーニングなどの過去のマイルストーンとは異なり、現在、この領域は目まぐるしい勢いで成長しています。

多くの人々が、この新技術の発展の波に乗り遅れまいとしています。では、どうやってこの波に乗る準備をし、さらに、開発しているアプリケーションに最適な技術を選んでいると確信するにはどうすればよいのでしょうか。

遅かれ早かれ、多くのソフトウェア開発チームが生成 AI をアプリケーションに組み込むようになるでしょう。そこで、適切な技術を選び、正しい方向に向かうために注意すべき重要なポイントを確認してみましょう。

既存のソリューション

大規模言語モデル (LLM) に接続するための一般的なソリューションは、次の 3 つです。

企業独自に行う: 実装が最も簡単なソリューションの 1 つは、 OpenAI、Google、Mistral、Anthropic、Cohere、DeepSeek などの主要な開発者プラットフォームで提供されている既存のモデルに直接接続することです。
モデル統合サービス: 一部のクラウドベンダーは、Amazon Bedrock や Microsoft Azure など、マネージドサービスから複数のモデルに直接接続する AI サポートを提供しています。このオプションの利点は、単一のサービスを使用して複数のカスタマイズ可能なモデルにアクセスできることです。
オープンソース: 商用アプリケーションに使用できるモデルリポジトリが多数あります (最も人気のあるのは Hugging Face です)。これらのモデルは、要件に合わせてモデルを微調整できるという点で、高い柔軟性を備えています。また、機密データを扱うアプリケーションに対応できる唯一の選択肢でもあります。

モデルの実行や保存場所と、 JFrog Artifactory for MLOps などのソリューションを使用したモデルの管理方法も必要になります。

MaaS かセルフホストか

GenAI プロジェクトの始めるときに最初に浮かぶ疑問点は、おそらく、モデルはどこにあるかということでしょう。ディープラーニングの時代では、ほとんどの人が独自のモデルを使用していて、一般的にはクラウドサービスで配布されていました。一方で GenAI は、モデルアズアサービス (MaaS) という新しいオプションを提供します。これは、OpenAI のおかげで、多くの人々にとって主流のオプションになりました。では、どのサービスを使用すればよいのでしょうか。

検討すべき項目ごとに見ていきましょう。

費用

最も重要な点は、どれくらいの費用がかかるかということです。MaaS とセルフホストモデルのコスト比較は容易ではありません。MaaS は通常トークンを使用して課金され、セルフホストコストはコンピューティング能力と使用量によって決まるためです。つまり、サービスの予測使用量はどの程度かという問題になります。使用量が多いほど、セルフホストモードを使用する可能性が高くなります。

安全性

Web 経由でリモートホストサービスにクエリを送信すると、セキュリティリスクやポリシー違反が発生することがあります。その場合、MaaS は適切なオプションではない可能性があります。

一方、オープンソースモデルを使用する際には、Hugging Face や Kaggle などのよく知られたサイトから提供されたものであっても、セキュリティを考慮する必要があります。これらのサイトは基本的にモデルホスティングサービスであり、ある程度のセキュリティは提供されていますが、サービスによっては悪意のあるパッケージが含まれている可能性もあるため、独自のインフラストラクチャでオープンソースモデルを使用する場合は注意しましょう。

ネットワーク

MaaS を使用する最大のデメリットの 1 つは、ネットワークです。すべてのリクエストを別のサーバー (おそらく別のリージョン) に送信する必要があり、これによりレイテンシが大幅に増加します。さらに、特定のプラットフォームでは 1 時間あたりに実行できるリクエスト数が制限される場合があり、大量のリクエストを伴うコア製品を設計している場合は、問題になる可能性があります。繰り返しになりますが、使用量が多いほど、MaaS は適さないでしょう。

適切なモデルの選択

すべての LLM が同じように作られているわけではありませんが、それには十分な理由があります。各モデルにはそれぞれ長所と短所があります。最適なモデルを見つけるには、モデルのサイズと言語サポートについて考慮する必要があります。

サイズ

モデルのサイズは重要です。モデルが大きいほど、それほど重要ではないタスクを処理できるようになります。ただし、モデルが大きいほど、トークンで支払う場合や、モデルを実行するために必要なマシンのサイズに応じて、速度が遅くなり、コストも高くなります。常に目的に合う最小限のサイズを見つけるようにしましょう。不必要に大きなモデルを使用すると、コストがかさみます。

言語

タスクが英語のフリーテキストだけであれば、このセクションをスキップしても問題ありません。しかし、それ以上のことが必要な場合は、使用するモデルの再検討が必要かもしれません。一部のモデルはコードの出力に最適化されていますが、他のモデルは特定の言語に焦点を合わせています。主に英語向けに設計されていますが、追加の言語を学習できる LLM もあります。これらのモデルの問題は、言語が追加されるにつれてパフォーマンスが低下する可能性があることです。このような場合は、多言語アプリケーション専用に設計された LLM の使用をお勧めします。ターゲット言語に最適なモデルを選択すると、大きな違いが生じます。

目まぐるしく変化する AI トレンド

一般向けの NLP 生成 AI が登場してから約 18 か月が経ちました。2022 年 11 月末に実験的に始まりましたが、2023 年半ばには 15,000 を超えるモデルに進化し、現時点でもさらなる成長を遂げています。ほんの数か月前には最先端だったモデルは、オープンソースモデルの水準を引き上げた Llama 3 から、GPT-4 よりも優れたパフォーマンスを発揮する Claude 3 まで、新しい代替モデルに追い抜かれ、この記事を読んでいる間にも、より有望なテクノロジが登場しています。最新のモデルに追いつくには、AI 開発者が採用率とテクノロジシフトサイクルをこれまで以上に加速させる必要があります。

これは、現在のバージョンが完全に機能している場合でも、現在のモデルのパフォーマンスを新しいバリエーションに対して継続的に再評価し、既存のアプリケーションを新しいモデルで再トレーニングしてパフォーマンスを向上させることを意味します。パフォーマンスが期待どおりであっても、競合他社は大幅に優れた結果をもたらす新しいモデルを採用している可能性があります。