ClioによるAI活用調査とユーザーデータ保護について

目次

AI技術は、今や全ての人にとても身近なものとなっており、様々なシステムやアプリケーションに広く導入されていますが、その便利さの一方で多くのプライバシー問題が発生しています。

ユーザーのデータがどのように使用されるのか、またその利用が個人のプライバシーに与える影響が懸念されており、社会的な信頼性を確保するためには個人情報の取り扱いが非常に重要です。

これに応じて、Claudeという言語モデルを開発していることでも有名なAnthropic社は、AI利用状況をプライバシーを守りながら正確に把握するためシステム「Clio」を開発しました。

今回は、Clioの概要と活用例についてご紹介します。

Clioとは

ClioとはClaude insights and observationの略でClaudeの分析結果を基に2024年12月にAnthropic社が開発したシステムになります。

以下はClioについてのレポートで、ユーザーが何にAIを使ってるのか、どのようにデータのプライバシーを保護しているのかがまとめられています。

Clio: A system for privacy-preserving insights into real-world AI use

ユーザーのデータに対して匿名性を担保しつつAIの実際の利用状況を分析することは、システムの改善点を見出し、潜在的なリスクを低減することが可能になり、開発者にとっては非常に貴重です。

言語モデルを使用すれば、人間が生データを見ることなく分析できるため、ユーザーが安心してAI技術を利用できる環境を構築することが可能になります。

今までデータ分析は事前にどのような観点でデータをみていくかというトップダウンのアプローチが取られていることが多く、一つ一つのデータを細かく見ていくことは難しいため、事前に分析の観点を決めて分析を行うというものでした。

一方で言語モデルを使えば、ユーザーの会話一つ一つを確認でき、それをグルーピングしてボトムアップ的に分析し、これまで分からなかったようなパターンも分析できるということが強みになっています。

ユーザーの個人情報を含むデータ保護について

Clioはユーザーのプライバシーを守るためにデータを完全に匿名化してから分析を行うため、個々のユーザーの情報を取り扱うことなく、大量のデータを分析することを可能にします。そのため、個人情報が漏洩するリスクが最小限に抑えられ、安全にAIの利用動向を把握することができます。ユーザーの同意の下データを収集し、その使用方法が透明性があることを保証することがClioの主な目的でもあります。

データの処理は複数の段階を経て行われます。各段階でユーザーを特定できる情報は慎重に除去され、ユーザーのプライバシーが守られます。具体的には、データが収集された後、まず初めにデータのフィルタリングが行われ、個人情報を含む部分が削除されます。次に、データを属性に基づいて分類し、匿名化された情報のみが残されます。このようなプロセスを経ることで、Clioはプライバシーとデータ分析の両立を実現しています。

Clioは、クラスター分析や抽象化技術を活用して、異なるデータを類似性に基づいてグルーピングし、特有の情報を大いに隠蔽します。例えば、特定のトピックに関連するデータの群れを識別することで、一般的な傾向を提供します。これは、データが持つ個々の特性を考慮しながらも、匿名化によってプライバシーを保つための重要なプロセスとして機能します。こうしたアプローチは、より信頼性の高いデータ洞察を生成するための基盤を提供します。

Clio_1

上の画像はAnthoropic社が公開してる具体的な分析の流れの例となります。

最初に左側からユーザーの会話履歴があり、言語モデルを使ってサマリーを作っていくというものになります。

画像の一番上のユーザーの会話履歴の例だと、ユーザーから「どのように靴紐を結べば良いか」と、個人情報がセットで入力されます。それを靴紐の結び方として要約します。上から二番目の会話履歴の例はリボンの結び方についてのもので、これらを左から三番目の項目で、様々な結び方に関するクラスターを作成します。そのときにプライベートなクラスターについては省き、最後により抽象化された日常生活でのスキルという形でグルーピングされます。

左側の3つの項目についてはプライベートという形で言語モデルを使って自動で行い、最後の抽象化されたクラスターをデータ分析者が見ながら考察をしていくという流れとなっており、ユーザーのプライベートな情報が開示されないような仕組みになっています。

分析の結果として得られた最終的なデータは、個々のユーザーを特定することなく、資質や行動パターンに関する一般的な傾向を表します。これにより、企業や研究者はユーザーのニーズや行動を適切に把握し、サービスの改善や新たな提案に活用できます。データは抽象化された形で提供されるため、個々のプライバシーが厳格に守られていることが保証されます。このように、Clioは利便性とプライバシー保護の両立を図っています。

各ステップで使っているプロンプトやクラスタリングの方法についてもClioの論文内で、生データの前処理方法や、どのようにサマリーを作るかといったプロンプトも公開されているようです。

AI活用調査について

AI活用の分析結果も公開しており、Claudeの無料版とプロ版の100万件の会話履歴を調査して、利用が一番多いのが「ウェブアプリやモバイルアプリの開発」で10.4%、二番目に「コンテンツの作成」で9.2%、三番目に「アカデミックな研究のリサーチ」で7.2%となっていました。

Clio_2

こちらはウェブアプリからの利用の分析結果となるので、APIからの利用も含めると開発等の割合がさらに多くなるかとは思います。

他にもグルーピングした結果や言語ごとの利用の違いなども公開されていました。日本語ではアニメや漫画コンテンツの分析や生成が通常の6.8倍となっており、言語ごとに特色が分かれていて面白い結果となっていました。

Clio_3

また、関連するものとして、労働市場へのAIの影響といったレポートも公開されています。

The Anthropic Economic Index

こちらはどういった職種で言語モデルが使われているか、言語モデルの使用方法からその職種がAIに置き換えられるものか等が調査されていて、単にその職種が危ないということではなく、どのようにAIを活用できるかということも分かり、こちらもとても面白い内容となってますのでぜひご一読ください。

最後に

社内利用やお客様向けにもチャットボットなどを利用してる企業も多いですが、このような分析方法を用いてユーザーデータを保護しながら今まで発見できなかった課題を見つけ、業務効率化やお客様満足に繋げることができるかと思います。

他にもレポート内の紹介しきれなかった内容もありますが、どれもとても面白いものとなってますので、ぜひご確認いただき、今後のAI利用に活用いただければ幸いです。