ホーム > コラム・レポート > コラム > 生成AIとDataRobotでできる新たなデータ活用の可能性【2024.5】
  • コラム

生成AIとDataRobotでできる新たなデータ活用の可能性【2024.5】

DataRobot

近年、AI技術は目覚ましい進化を遂げ、様々な分野で活用されています。その中でも、特に注目を集めているのが「生成AI」です。従来のAIが、膨大なデータからパターンを見つけて予測を行う「予測型AI」であるのに対し、生成AIは新たなデータやコンテンツを生み出すAIです。
本コラムでは、DataRobotの基礎知識を持つ方/興味のある方を対象に、生成AIの概要とプロジェクト成功の難しさについて解説し、その難しさ/課題を解決できるDataRobotの機能とDataRobotを活用したユースケースを紹介します。

目次

1.生成AIとは

昨今ビジネスの様々なシーンで、AI技術の活用が見られます。例えば、商品の需要予測を過去の売り上げや天候などのデータから導き出すことや、工場設備に取り付けられたセンサーや画像、音声データから部品や装置の異常検知を行うことが挙げられます。これらは、過去のデータに基づいて予測を行う「予測型AI」でした。そして、2022年末に登場した対話型AIを皮切りに、AIが新たなアイデアやコンテンツの創出を行う「生成AI」が台頭し、注目を集めています。
生成AIには、予測型AIとは異なる2つの特徴があります。一つ目は「創造性」です。生成AIにはディープラーニング技術が用いられており、過去のデータから学習したパターンに基づいて、新たなデータやコンテンツを生み出すことができます。二つ目は「多様性」です。文章、画像、音声など、様々な形式のデータを生成することができます。例えば、対話型AIに「2泊3日で初心者でも楽しめる海外旅行を計画して」と質問すると、旅行先の国と観光スポットなどのスケジュールを提案してくれます。その他にも、イラストを生成するAIに「猫の絵を水彩画で描いて」と指示をするとその要望に沿った絵を生成します。このように生成AIはテキストで質問や要望を投げかけると、それに沿った回答を生成してくれます。
生成AIは非常に便利なものですが、その反面、これらを自社で一から構築して活用するとなると、専門知識が必要であり、構築までに膨大な時間を要する難しさがあります。とはいえ、生成AI技術を活用したい、と考える方は多いでしょう。そこで、本コラムでは、生成AIについて取り上げます。生成AIの活用方法には3つのパターンがあります。

活用方法3パターン

活用方法3パターン

  • A)基盤モデルの構築
    基盤モデルとは、様々なタスクに適応できるように、大量かつ多様なデータで訓練された、大規模なAIモデルです。言語モデルやその他の生成モデルをゼロから構築します。ChatGPT やGoogle Geminiを一から構築することを想像してみてください。基盤モデルの構築には、大量のデータと計算リソースが必要です。OpenAI社やGoogle社のような大手テクノロジー企業や研究機関でなければ、実現は困難です。
  • B)基盤モデルのファインチューニング
    基盤モデルのファインチューニングとは、既存の大規模な基盤モデル(例えばChatGPTに用いられているGPTモデル)を利用し、新しいデータセットを用いて学習を行うことです。基盤モデルに最新の情報などのデータを学習させ、多くのタスクをこなすことができます。例えば、モデルの日本語全体の性能を向上させる、などです。この方法では既に学習されている基盤モデルを使用するため、A) 基盤モデルの構築と比べると、少ない計算リソースと時間で実現できます。これはシリコンバレーなどのAIに特化したスタートアップ企業や日本の大手IT企業などで取り組まれている手法です。とはいえ、次に紹介するC) RAGの構築と比較すると遥かにコストと時間を要し、また、大量のデータセットが必要になるため、一般企業ではなかなか難しいでしょう。
  • C)RAGの構築
    RAGとはRetrieval-Augmented-Generationの略です。日本語では検索拡張生成と呼ばれる技術であり、既存の情報検索システムと基盤モデルを組み合わせたアーキテクチャです。この方法では、図2のように前もって用意された文書の中から、質問やプロンプトに最も関連する文書を検索し、その情報を基にして回答や内容を生成します。RAGはファインチューニングとは異なり、基盤モデルを特定のタスクに特化させ、その回答精度を上昇させるものです。タスクが限定されているため、少ないデータで構築が可能です。そのため、処理に時間がかからず、コストも低く抑えることができます。

    それぞれのコストと実現可能性を考慮すると、生成AIビジネスに初めて取り組む場合はC) RAGの構築が適切でしょう。

そこで、ここからはRAGの構築に焦点を当てて説明をしていきます。

RAG構築図

活用方法3パターン

2.生成AIプロジェクト成功の難しさ

RAGを用いた生成AIプロジェクトを成功させる上で課題となるポイントを3つ、紹介します。

  • I.RAG構築の前準備-ベクターデータベース構築
    RAG構築には、プロジェクトの要件に合うよう、回答の根拠となる文書を用意し、ベクターデータベースと呼ばれる形へデータ変換を行う前準備が必要です。ベクターデータベースとは、テキストデータを大きさと向きを表すベクトル形式で保存するデータベースを意味します。テキストデータをベクトル表現することで、テキスト間の類似度を測定することができます。これにより、高度な検索や推薦などが可能になりました。身近な応用例として、Amazonのおすすめ機能やYouTubeの関連動画などがあります。
    また、埋め込みモデルと呼ばれるデータをベクトル変換する際に使用するモデルの選択も必要になります。
  • II.RAG構築
    続いてRAGの構築です。RAGを構築するにあたり使用する基盤モデルを選択します。モデルによって検索に強いモデル、要約に強いモデルなど特性が分かれています。したがって、目的に合わせてモデルを採択することが重要です。ただし、自身で複数の基盤モデルを用意し、プロジェクトの要件に合う相性の良いモデルを検証しようとすると、モデルの数だけRAGを構築することになり、手間と時間がかかってしまうという課題があります。
  • III.監視と運用
    RAGの精度パフォーマンスを維持するためには、常に品質や評価指標を確認することが重要ですが、それらを人の手で行い続けるには限界があります。
    日々情報がアップデートされる中で、RAGはⅠ.で投入した文書に基づき回答を行います。この投入される文書がアップデートされていないと、生成AIはもっともらしい誤情報(事実とは異なる内容や、文脈と無関係な内容)を生成してしまいます。この誤情報を生成してしまう現象をハルシネーションと言い、生成AIの回答精度を監視する上では重要な指標となります。
    このように回答の精度が落ちていないかを常にチェックし続ける必要がありますが、そのためには生成AIの回答根拠を理解することが求められます。何に基づいて生成AIが回答をしているかを把握することで、間違った情報源から答えが導かれていることに気がつくことができます。しかし、人力で確かめようとすると、大変骨が折れるものであり、時間とコストが大幅にかかります。
    このように生成AIプロジェクトは、それぞれのプロセスが煩雑であったり、専門知識が必要であったり、膨大な時間とコストを要します。また、ここで紹介した内容はプロジェクトのごく一部分であり、プロジェクト成功までの道のりは大変遠いものです。
    しかし、DataRobotを用いることで誰でも手軽に生成AIを利用することが可能となります。次章ではDataRobotの生成AI機能について紹介していきます。

3.DataRobot生成AI機能紹介

DataRobotは元々予測型AIの自動構築ツールとして高い評価を得ている製品ですが、生成AIの台頭に伴い、さらに生成AIの自動構築機能が実装されました。ここからは2章でお伝えした課題を解決するDataRobotの生成AI機能の特徴についてお伝えします。

  • I.RAG構築の前準備-ベクターデータベース構築
    既に2章でもお伝えしたとおり、生成AIにはベクターデータベースを構築する必要がありますが、DataRobotではコードを記述することなくマウス操作だけでベクターデータベースを作成することができます。操作手順は以下のとおりです。
    • DataRobotに検索用データをアップロードする
    • ベクターデータベースの設定を行う
      • 埋め込みモデルの選択(学習データの言語によって最適なモデルを選択)
      • チャンクの設定(学習データを区切る範囲や文字の設定)
  • 以上の操作だけで完了するため、非常に手軽に構築できます。

    ベクターデータベース


    ベクターデータベース

    図3のように埋め込みモデルの選択、チャンクの設定も自身でカスタムすることができます。
    埋め込みモデルの選択とは、言語により適切なモデルが異なるため、それに適した学習データを読み込むためのモデルを指定することです。例えば、学習データが英語であれば英語のモデルを、複数言語が用いられている場合であれば、マルチタイプのモデルを選択するなど、学習データによって使用する埋め込みモデルを変えることができます。
    チャンクの設定とは、例えば学習データが日本語の場合、句読点でテキストを区切るという指示をDataRobotに与えることです。この設定によって、意味のある単位でテキストが分割され精度の高いモデルが作成できます。図3では、カスタムルールから「。」を追加し、テキストを区切る指示を与えています。モデルによりトークンの制限とチャンクの設定を行うことが重要です。

  • II.RAG構築
    2章でお伝えした煩雑な作業である、RAG構築における相性の良い基盤モデルの選択も、DataRobotを使用すればワークベンチ上でのマウス操作だけで簡単に行うことができます。

    LLMモデル比較


    図4のように一目で複数のLLM(Large Language Models,大規模言語モデル)の回答結果を比較検討することができます。自身で基盤モデルをカスタムしたい際は、使用するモデルを外部から繋げてDataRobot上で使用することもできます。

  • III.監視と運用
    DataRobotではMLOps機能でモデルの監視と運用を行うことができます。MLOps機能を使用することで作成した生成AIモデルを簡単かつ安全安心に運用することができます。MLOpsには主に大きく2つの機能があります。
    • モデルの監視
      DataRobotでは生成AIモデルに対し、コスト、応答時間、データベース内の情報をどれくらい使用しているかなど様々な指標(最大25項目)を計算し、監視しています。例えば「ユーザーの質問内容が変わり、現在のデータベース以外の情報が必要になれば、新たな文書を追加する(又は置き換える)必要がある」ということも分かります。
      他にも入力されている文章が適切かを監視し、予測AIの活用により不適切な応答を防止するガードレール機能も備わっています。
      というのも生成AIは入力した質問によって回答を生成するため、質問内容によっては差別的な回答をすることや生成AIがマルウェアの生成などに使用されてしまいます。
      それらのリスクを減らすためにDataRobotでは質問内容や生成される回答が適切かを監視しています。
      また、生成AIが出力した回答の正確性をスコアリングするカスタムモデルを監視モデルとして組み込むことも可能です。

      モデルの監視

    • モデルの運用
      作成した生成AIモデルを様々な環境にデプロイすることができます。デプロイとは開発したソフトウェアやシステムを実際に運用環境に配置・展開して、利用可能にすることです。モデルとアプリケーションの連携はDataRobotが自動で作成してくれるAPIキーを用いることで可能です。APIキーをDataRobotから取得し、連携したいアプリケーションのプログラム上にDataRobotのエンドポイントのURLとAPIキーを入力することでアプリケーションからモデルを使用することができます。

3章ではDataRobot生成AIの3つの特徴を紹介しました。ここまでで、DataRobotを使用すれば簡単に生成AIモデルを作成できることがご理解いただけたのではないかと思います。

4.生成AI × DataRobotを使用するユースケース紹介

ここからは実際にDataRobotの生成AI機能を使って、皆さんの会社でも簡単に実現できるようユースケース“業務に関連する質疑応答ができるアプリケーションの作成”を紹介します。就業規則や社内申請などについて調べたいときに、生成AIが学習した社内文書に基づき、回答をしてくれるというイメージのものです。 2章で紹介したベクターデータベースに社内文書をアップロードし、生成AIに学習させます。そして、でき上がった生成AIモデルに利用者である社員が質問を投げかけると、生成AIはベクターデータベースに格納した社内文書の中から質問に関連した文書を検索し、質問に対する回答をします。
例えば、質問者が「有給休暇の日数と休暇取得の申請方法を教えて」と聞きます。すると、生成AIがベクターデータベースから就業規則についてのデータを検索し、「年次有給休暇の付与日数は20日です。申請は、○○から実施ができ、提出後上司から承認が下りると、休暇取得ができます。」などと回答します。
ChatGPTなどのオープンソースでは機密情報である社内情報などは学習されていないため、上記のような社内情報について質問しても回答ができません。しかし前述のようにベクターデータベースを用いたアプリケーションであれば、社内情報についての質問にも回答することができ、業務の効率化に繋がります。
DataRobotを使用すれば社内の情報を外部に漏らさず、簡単にアプリケーションの構築ができることもメリットの一つです。


ここでは、あらゆる業界に共通する社内検索を例に挙げましたが、製造業であれば、過去の製品情報や市場調査に関するレポートを学習させ、顧客のニーズに沿ったアイデアやデザインを提案させることができます。また、金融業であれば、顧客の取引履歴や資産状況などを分析し、個々の顧客に最適な資産運用プランや保険商品を提案させることができます。このように、生成AIを使用したユースケースは様々な分野や業界に当てはまります。

5.さいごに

ここまで、DataRobotを使用することで誰でも手軽にビジネスに生成AIを取り入れられる、と紹介してきました。生成AIは、社内の様々な部門で活用できれば、業務効率化、売り上げ向上、顧客満足度向上など、幅広い効果が期待できます。このコラムをきっかけに、生成AIプロジェクトに取り組まれてみてはいかがでしょうか。弊社では、プロジェクトの伴走支援からDataRobotを用いた生成AIの構築まで推進を承っております。ぜひ、お気軽にお問い合わせください。

筆者紹介

キヤノンITソリューションズ株式会社 鶴島 聡

鶴島 聡(つるしま さとし)

キヤノンITソリューションズ株式会社 デジタルビジネス統括本部
デジタルソリューション開発本部 デジタルビジネス推進部

<略歴>
2023年度よりデータサイエンス業務に従事

関連するソリューション・製品

ホーム > コラム・レポート > コラム > 生成AIとDataRobotでできる新たなデータ活用の可能性【2024.5】