Apple、Apple Intelligenceの利用状況を把握する技術「差分プライバシーを用いたApple Intelligenceの集計傾向の理解」を公開
※本サイトは、アフィリエイト広告および広告による収益を得て運営しています。購入により売上の一部が本サイトに還元されることがあります。

Apple Intelligence
AppleのMachine Learning Researchが、個人の行動や固有のコンテンツをAppleに開示することなく、Apple Intelligenceを活用した機能を改善するための利用傾向や集約された洞察を発見できる新しい技術の開発について説明した「Understanding Aggregate Trends for Apple Intelligence Using Differential Privacy」を公開しています。
プライバシーを保護しながら利用状況を把握するというこのニーズは、Apple Intelligenceにも当てはまります。Appleの原則の一つは、基盤モデルのトレーニングにおいてユーザーの個人データやユーザーインタラクションを使用しないことです。また、インターネット上で公開されているコンテンツについては、社会保障番号やクレジットカード番号などの個人を特定できる情報を除去するフィルターを適用しています。
Genmojiの改善
Apple Intelligenceとの差分プライバシーに関する取り組みを応用している分野の一つがGenmojiで、ユーザーが「デバイス解析とプライバシー」を Appleと共有することに同意している場合、差分プライバシーの手法を用いて、よく使われるプロンプトやプロンプトのパターンを特定し、ユニークまたは稀なプロンプトが発見されないこと、また特定のプロンプトが個々のユーザーに紐付けられないことを数学的に保証すると説明しています。
人気のあるプロンプトを把握することは重要です。なぜなら、Appleは実際のユーザーエンゲージメントを最もよく表すプロンプトの種類に基づいて、モデルの変更や改善を評価するのに役立つからです。例えば、ユーザーが複数のエンティティ(「カウボーイハットをかぶった恐竜」など)を含むGenmojiをリクエストした際に、モデルがどのように動作するかを理解することで、そのようなリクエストへの対応を改善することができます。
Apple は現在、Genmoji を改善するために差分プライバシーを使用しており、今後のリリースでは、Apple Intelligence の Image Playground、画像マジックワンド、メモリーを作成、作文ツール、および ビジュアルインテリジェンス でも、同じプライバシー保護を備えたこのアプローチを使用する予定だそうです。
合成データによるテキスト生成の改善
Apple Intelligenceの要約機能や、長文やメール全体を扱う作文ツールといった機能では、Genmojiのような短いプロンプトの傾向を把握するために使用している方法は効果的ではありません。そのため、プライバシー基準を遵守しながら、個々のユーザーのコンテンツを一切収集せずに傾向を把握できる新しい方法が必要です。この課題に対処するために、最近の研究を発展させ、デバイスから実際のメールやテキストを収集することなく、実際のユーザーデータの集計傾向を表す有用な合成データを作成することができます。
合成データは、ユーザーデータの形式と重要な特性を模倣するために作成されますが、実際のユーザー生成コンテンツは含まれていません。合成データを作成する際の目標は、Appleがデバイスからメールを収集することなく、トピックやスタイルが実際のものと十分に類似した合成文またはメールを作成し、要約モデルの精度向上に役立てることです。合成メールメッセージを作成する方法の一つとして、大規模言語モデル(LLM)の使用が挙げられます。
差分プライバシーを使用すると、Appleは、特定のデバイスでどの合成埋め込みが選択されたかを学習することなく、すべてのデバイスで最も頻繁に選択された合成埋め込みを学習できます。これらの最も頻繁に選択された合成埋め込みは、トレーニングデータまたはテストデータの生成に使用したり、追加のキュレーション手順を実行してデータセットをさらに絞り込んだりできます。たとえば、テニスのプレーに関するメッセージが上位の埋め込みの1つである場合、「テニス」を「サッカー」または別のスポーツに置き換えた同様のメッセージを生成し、次のラウンドのキュレーションのセットに追加できます。このプロセスにより、合成メールのトピックと言語を改善できるため、プライバシーを保護しながら、メールの概要などの機能でより優れたテキスト出力を作成するようにモデルをトレーニングするのに役立ちます。
テキスト生成を改善するために合成データを作成する際に適用する中核的なプライバシー保護は、Genmoji で使用されている保護と非常によく似ています。デバイス分析情報を Apple に送信することに同意したユーザーのみが参加します。サンプルメールの内容がデバイスから外に出ることはなく、Apple と共有されることもありません。参加デバイスは、どのバリエーションがデバイス上でサンプルデータに最も近いかを示す信号のみを送信し、Apple は、選択された合成メールのうち、どのメールがすべてのデバイスで最も頻繁に選択されたかを把握しますが、個々のデバイスでどの埋め込みが選択されたかは把握しません。Genmoji で使用されているのと同じシステムがここでも使用され、適切なノイズの量が決定され、集計された統計情報のみが Apple と共有されます。これらの保護の結果、Apple はユーザーのメールのコンテンツを収集または読み取ることなく、集計された傾向を反映する合成データを構築できます。この合成データは、より代表的なデータでモデルの品質をテストし、要約などの機能の改善領域を特定するために使用できます。
ベータ版ソフトウェアリリースでは、上記の通り、メールのテキスト生成を改善するために合成データを使用しています。デバイスアナリティクスにオプトインしたユーザーに対しては、メールの要約表示を改善するために合成データの使用をまもなく開始する予定です。