学習させる知識の追加

このページは、AIアシスタントのChaakoが運営するチャットボットChaakoBotの使用説明です。

知識を学習させなくてもBOTとして利用できますが、特定の分野に特化した知識や独自のノウハウ等を追加したり、最新の情報に対応したりするなど、知識を学習させたい場合は、このセクションをご参考ください。

ここで採用されるのはRAG(Retrieval-Augmented Generation)と呼ばれる手法です。

厳密に言えば、ファインチューニング(Fine-tuning)とは異なり、AIモデル自体に新たな知識を学習させるわけではありません。

便宜上、“学習”という言葉を使っていますが、実際にAIモデルはPrompt、Instruction、フィルの内容を一切学習していません

1.学習させたい知識のファイルを追加

ChatBotの一覧のアクションにある「編集」より、既に作成したChaako Botの設定画面に入ると、一番下に、「学習データ」というセクションが表示されるようになります。

学習資料を追加」から、学習させたい知識のファイルを追加してアップロードしてください。

アップロードが完了すると

このように、追加したファイルが「学習資料一覧」に表示されます。

追加が完了しましたら、「アシスタントを更新」をクリックします。

ChatBot一覧画面に戻り、同様に状態は「処理待ち」から「処理中」を経て、「OK」に変わります。

ファイル数とファイルのサイズによってアップロードと処理に時間が掛かります。

中々「OK」に変わらない場合や「エラー」が表示された場合は、お問い合わせください。

2.アップロードできるファイルの形式と制限

-対応しているファイルの形式

OpenAIの公式ドキュメントによれば、一般的に良く使われているファイル形式なら、ほとんど対応しているようです。

以下は対応されているファイル形式の一例です。

  • doc
  • docx
  • html
  • csv
  • json/jsonl
  • pdf
  • pptx
  • txt

詳しくは「どういうファイル形式の回答精度は高い?」で詳しく説明していますが、非構造化データならtxt、構造化データならjson/jsonlをお勧めします。

txtファイルの場合、エンコーディングは utf-8、utf-16、または ascii のいずれかである必要があります。

-アップロードできるファイルサイズの制限

OpenAIの公式ドキュメントによれば、

The maximum file size is 512 MB and no more than 2,000,000 tokens.

ファイルのサイズ制限は、512 MB200万トークンです。

-ファイル数の制限

OpenAIの公式ドキュメントでは、ファイル数の制限についての説明は見当たりませんでしたが、巷では20ファイルまでとされており、実際、OpenAIのPlaygroundでファイルをアップロードしてみると、21個目以降はエラーが発生しますので、2024年4月現在、ファイル数の上限は20ファイルまでということでしょう。

3.ファイル学習にかかる料金と注意点

OpenAIは2024年4月17日に、AssistantAPIのv2をリリースしました。主な変更点は以下の通りです。なお、まだ新しいバージョンの動作が未だに不安定なので、ChaakoBotは2024年4月23日現在において、従来通りのv1を使っています。

  • アップロードできるファイルの上限数が100ファイルに増えた
  • ファイルの単価が1GBにつき0.10ドルと従来の半額になった

2024年現在、ファイルにかかる料金は、アシスタントごとに1日あたり1GBにつき0.20ドルです。

レート150円で日本円に換算すると、アシスタントごとに1日あたり1GBにつき30円になります。

-ファイルごとの料金計算方法

「1日あたり1GBにつき」という部分は分かりやすいと思いますが、「アシスタントごと」には留意が必要です。

1アシスタント=1BOTというイメージですが、同じファイルを2つのBOTで使うと、料金も2倍になる、ということです。

OpenAIの管理画面やPlaygroundでは、一度アップロードしたファイルを複数のアシスタントで共有できるため、料金は「アシスタントごと」に発生すると強調する必要があります。一方、Chaako BOTでは、同じファイルであっても、BOT(アシスタント)ごとに個別にアップロードしなければなりません。そのため、Chaako BOTの場合は、アップロードした回数=ファイル数と考えればOKです。

-料金の目安

ファイルの内容、形式、文字数などによって大きく異なりますので、あくまで目安として参考程度にしてください。

東京都内にあるレジャー施設の情報をまとめたファイルになりますが、

  • 合計732施設
  • 施設名、URL、営業時間、紹介
  • 約24万文字数
  • 約30万トークン
  • 427ページ(A4)

というファイルの場合、形式によって料金は以下の通りになります。

なお、レートは150円で換算しています。

ファイル形式 ファイルサイズ 料金(日) 料金(月)
json 780KB 0.0234円 0.702円
pdf 5214KB 0.15642円 4.6926円
docx 317KB 0.00951円 0.2853円
doc 835KB 0.02505円 0.7515円

最も無駄なサイズ(5MB)を持つpdf形式でさえも年間100円未満です。

ちなみに、日本の(あの分厚い)民法は約22万文字(680KB@txt,3350KB@pdf)と上記のファイルよりもやや小さいです。

制限の上限まで使用した場合、1ファイルあたり0.5GB、最大20ファイルまでアップロードできるので、合計で10GBになります。1日300円、1ヶ月9,000円、年間約110,000円といったところでしょう。

-ファイルの取り扱い注意点

Chaakoでは、BOTを削除する際に、そのBOT(アシスタント)で使用されているファイルも同時に削除されます。

一方、OpenAIのPlaygroundでは、アシスタントを削除してもファイルは自動的に削除されません。そのため、不要になったファイルがストレージ上に残り続け、料金が発生し続ける可能性があります。

OpenAIのPlaygroundを利用する場合は、定期的に管理画面の「Storage」より確認し、不要なファイルを手動で削除することをおすすめします。これにより、ストレージの使用状況を適切に管理し、不要な料金の発生を防ぐことができます。

Chaakoよりファイルをアップロードする際にエラーが発生すると、ファイルがストレージ上に残り可能性はありますので、定期的に管理画面の「Storage」より確認することをお勧めします。