学習させる知識の追加
学習させる知識の追加
このページは、AIアシスタントのChaakoが運営するチャットボットChaakoBotの使用説明です。
知識を学習させなくてもBOTとして利用できますが、特定の分野に特化した知識や独自のノウハウ等を追加したり、最新の情報に対応したりするなど、知識を学習させたい場合は、このセクションをご参考ください。
ここで採用されるのはRAG(Retrieval-Augmented Generation)と呼ばれる手法です。
厳密に言えば、ファインチューニング(Fine-tuning)とは異なり、AIモデル自体に新たな知識を学習させるわけではありません。
便宜上、“学習”という言葉を使っていますが、実際にAIモデルはPrompt、Instruction、フィルの内容を一切学習していません。
1.学習させたい知識のファイルを追加
ChatBotの一覧のアクションにある「編集」より、既に作成したChaako Botの設定画面に入ると、一番下に、「学習データ」というセクションが表示されるようになります。
「学習資料を追加」から、学習させたい知識のファイルを追加してアップロードしてください。
アップロードが完了すると
このように、追加したファイルが「学習資料一覧」に表示されます。
追加が完了しましたら、「アシスタントを更新」をクリックします。
ChatBot一覧画面に戻り、同様に状態は「処理待ち」から「処理中」を経て、「OK」に変わります。
ファイル数とファイルのサイズによってアップロードと処理に時間が掛かります。
中々「OK」に変わらない場合や「エラー」が表示された場合は、お問い合わせください。
2.アップロードできるファイルの形式と制限
-対応しているファイルの形式
OpenAIの公式ドキュメントによれば、一般的に良く使われているファイル形式なら、ほとんど対応しているようです。
以下は対応されているファイル形式の一例です。
- doc
- docx
- html
- csv
- json/jsonl
- pptx
- txt
詳しくは「どういうファイル形式の回答精度は高い?」で詳しく説明していますが、非構造化データならtxt、構造化データならjson/jsonlをお勧めします。
とりわけ、OpenAIの管理画面から、ファイルのアップロードはjsonlしか受け付けていないことから、恐らく相性的にもjson/jsonlが良いかもしれません。
txtファイルの場合、エンコーディングは utf-8、utf-16、または ascii のいずれかである必要があります。
-アップロードできるファイルサイズの制限
OpenAIの公式ドキュメントによれば、
The maximum file size is 512 MB and no more than 2,000,000 tokens.
ファイルのサイズ制限は、512 MBか200万トークンです。
-ファイル数の制限
OpenAIの公式ドキュメントでは、ファイル数の制限についての説明は見当たりませんでしたが、巷では20ファイルまでとされており、実際、OpenAIのPlaygroundでファイルをアップロードしてみると、21個目以降はエラーが発生しますので、2024年4月現在、ファイル数の上限は20ファイルまでということでしょう。
3.ファイル学習にかかる料金と注意点
OpenAIは2024年4月17日に、AssistantAPIのv2をリリースしました。主な変更点は以下の通りです。なお、まだ新しいバージョンの動作が未だに不安定なので、ChaakoBotは2024年4月23日現在において、従来通りのv1を使っています。
- アップロードできるファイルの上限数が100ファイルに増えた
- ファイルの単価が1GBにつき0.10ドルと従来の半額になった
2024年現在、ファイルにかかる料金は、アシスタントごとに1日あたり1GBにつき0.20ドルです。
レート150円で日本円に換算すると、アシスタントごとに1日あたり1GBにつき30円になります。
-ファイルごとの料金計算方法
「1日あたり1GBにつき」という部分は分かりやすいと思いますが、「アシスタントごと」には留意が必要です。
1アシスタント=1BOTというイメージですが、同じファイルを2つのBOTで使うと、料金も2倍になる、ということです。
OpenAIの管理画面やPlaygroundでは、一度アップロードしたファイルを複数のアシスタントで共有できるため、料金は「アシスタントごと」に発生すると強調する必要があります。一方、Chaako BOTでは、同じファイルであっても、BOT(アシスタント)ごとに個別にアップロードしなければなりません。そのため、Chaako BOTの場合は、アップロードした回数=ファイル数と考えればOKです。
-料金の目安
ファイルの内容、形式、文字数などによって大きく異なりますので、あくまで目安として参考程度にしてください。
東京都内にあるレジャー施設の情報をまとめたファイルになりますが、
- 合計732施設
- 施設名、URL、営業時間、紹介
- 約24万文字数
- 約30万トークン
- 427ページ(A4)
というファイルの場合、形式によって料金は以下の通りになります。
なお、レートは150円で換算しています。
ファイル形式 | ファイルサイズ | 料金(日) | 料金(月) |
---|---|---|---|
json | 780KB | 0.0234円 | 0.702円 |
5214KB | 0.15642円 | 4.6926円 | |
docx | 317KB | 0.00951円 | 0.2853円 |
doc | 835KB | 0.02505円 | 0.7515円 |
最も無駄なサイズ(5MB)を持つpdf形式でさえも年間100円未満です。
ちなみに、日本の(あの分厚い)民法は約22万文字(680KB@txt,3350KB@pdf)と上記のファイルよりもやや小さいです。
制限の上限まで使用した場合、1ファイルあたり0.5GB、最大20ファイルまでアップロードできるので、合計で10GBになります。1日300円、1ヶ月9,000円、年間約110,000円といったところでしょう。
-ファイルの取り扱い注意点
Chaakoでは、BOTを削除する際に、そのBOT(アシスタント)で使用されているファイルも同時に削除されます。
一方、OpenAIのPlaygroundでは、アシスタントを削除してもファイルは自動的に削除されません。そのため、不要になったファイルがストレージ上に残り続け、料金が発生し続ける可能性があります。
OpenAIのPlaygroundを利用する場合は、定期的に管理画面の「Storage」より確認し、不要なファイルを手動で削除することをおすすめします。これにより、ストレージの使用状況を適切に管理し、不要な料金の発生を防ぐことができます。
Chaakoよりファイルをアップロードする際にエラーが発生すると、ファイルがストレージ上に残り可能性はありますので、定期的に管理画面の「Storage」より確認することをお勧めします。