Dify初心者向け30分クイックスタートでAIワークフロー構築（の補足）

お疲れ様です。tkmiです。
ノーコード・ローコードでアプリが作れちゃう時代なので、Difyを触ってみました！

Difyは、AIワークフローを構築するためのオープンソースプラットフォームです。
ビジュアルキャンバス上でAIモデルを編成し、データソースを接続し、処理フローを定義することで、ドメイン知識を直接動作するソフトウェアに変換できます。
（引用）https://docs.dify.ai/ja/use-dify/getting-started/introduction

AI使って普段の作業を自動化できます！
しかも画面上でブロックを設置してポチポチ繋げるだけで、プログラミング知らなくても作れる！
たとえば、「データを読み込む」→「AIに分析させる」→「結果をまとめる」といった流れを、視覚的に組み立てられる！
自分の持つ専門知識やアイデアを、実際に動くアプリやシステムに変換できますよ！

っていう感じでしょうか。

どんなものが作れるか？

チャットボット

たとえば社内FAQボット、マニュアル回答AIなど、何かの情報源からAIが探してきて回答するボットを作れます。

情報源はDify内で「ナレッジ」から登録することができます。

ワークフロー自動化

何かを調査するために、今まで人がやってた検索＋要約＋判断をポチポチとノードを置いて、繋げて、設定するだけでできます。

検索したいキーワードを入力するだけで対象のサイトから情報を集めて要約して結果を出力してくれます。

触ってみよう

30分チュートリアルで大体の機能を触ることができます。
指定したプラットフォーム向けに、投稿用のコンテンツを作成するワークフローになります。
基本的にはこちらを実施することで大丈夫なのですが、その中でもよく使いそうなところだけ解説したいと思います。

チュートリアルをベースに細かい設定方法について解説します。
30分チュートリアルを実施しながら、設定方法がわからないなと思ったら参考にしてください。

開始ノード：ユーザーからの入力を受付

アプリを作成する時、開始ノードを選択するので、ユーザー入力を選択します。
2つ目以降を追加する時は空白部分を右クリック→「ブロックを追加」でできます。

チュートリアルをやってみて思ったのが、大体は「ノード」＝「ブロック」の理解で大丈夫かなと思いました。
一つのワークフロー上で開始ノードは1つしか設定できません。

入力項目の設定

これらを参考にして5つの項目を開始ノードに設定していきます。

パラメータ抽出器ノード

開始ノードの「ターゲットプラットフォーム」に設定した項目を受け取って、LLMを利用して入力内容を分析します。
これは自然言語で入力されたテキストから次のノードに渡すための処理です。

基本的には英語での入力が想定されていると思いますが、「XとLinkedInの投稿」など日本語でも大丈夫です。

このノードでは自然言語の解析にLLMのモデルを選択する必要があります。モデルは多くは「プラグイン」からインストールすることができます。

プラグイン

ChatGPTなどの外部のLLM利用アプリを使う場合、多くは「プラグイン」のインストールが必要になります。

また、DifyはデフォルトでChatGPTの無料クレジットが少しついているので、試すだけなら無料でChatGPTを対象としてLLMノードを使うことができます。

無料クレジットを使い切ったり、他のプラグインを使いたい場合、外部アプリのアカウントを個別に登録して、APIキーを取得し、Difyに戻ってきてAPIキーを設定する必要があります。

「プラグインをインストールする」からマーケットプレイスを選択

欲しいプラグインを検索すると出てきます。（Geminiは例です）

APIキーの設定はプラグインの一覧から該当のインストールしたものを選択すると設定ボタンが出てきます。
右上のアカウント→設定→モデルプロバイダーからも一部見れます。

リスト演算子ノード：アップロードされたファイルをタイプ別に分離

コンテンツ作成のための情報としてファイルを複数アップロードすることができます。
画像とドキュメントで処理をわける必要があるため、2つのノードを繋げます。

ドキュメント抽出器ノード：ドキュメントからテキストを抽出

説明の通り、テキストを抽出します。
右クリック「変換」→「テキスト抽出」ノードを選択します。

ここまでまだ入力した項目の処理です。

LLMノード：すべての参考資料を統合

ようやく入力した項目からコンテンツを作成するための基盤を生成します。

ここで注意するのが、モデルの選択です。「ビジョンをサポートするモデル」を選択します。

なんて突然言われても「？？？」なので、補足すると、「テキストと画像を認識して返答ができる機能」に対応しているか、ということになります。
LLMノードには「画像」と「ドキュメント」のそれぞれから抽出した情報が渡されます。
画像の読み取り・画像の内容の説明などに対応します。