Vivaldi が AI の流れに乗らない理由とは

ブラウザ業界は LLM(Large language Models 大規模言語モデル)機能を統合するというトレンドを避けるわけにはいかないようですが、Vivaldi は、この機能には本質的な問題が存在していることをユーザーに喚起したいと思います。

ChatGPT が 1 年数か月前に公に登場し、今もなお注目を浴びています。それ以来、多くの分野において、人間がするいくつかのことを ChatGPT に代替させようとしたり、疑問に思ったことに対する答えを見つけるのに役立てたりしようというトレンドの波が一気に高まりました。 ウェブブラウザ業界でも、何かにつけて LLM 機能を統合しようとするブラウザ複数見られます。

しかし、未来の構築という名目の元に行っているとしても、機能の明らかな欠陥を全く考慮していないように思われます。例えば、LLM 自体は文章要約エンジンや会話パートナーとしては全く適しておらず、また、言語生成における盗用のリスクも非常に高いと言えます。

LLM には何故このような本質的な問題があるのか、将来的な解決も難しいということを理解するため、LLM の基本部分を見ていきましょう。

LLM の細部に関する長い説明は避け、簡潔な説明に留めたいと思います。補足説明を一部省くかもしれませんが、ここで述べることはすべて、一般的に使用されている、メジャーで人気のある LLM に当てはまります。

この分野の多くの専門家が、既に問題に関する様々な発言をしています。詳しくはこちら(記事1記事2)をご覧ください。また、こちらの興味深い記事もお読みください。*英文記事になります。

LLM とは?

LLM (大規模言語モデル)は、記述された言語がどのようなものなのかを単にモデル化した、数学的記述です。多岐にわたるソースを分析して構築されており、単語の大きな集まりの後に続く可能性の高い単語の記述を目的としています。より興味深く感じられるよう、LLM にはある程度のランダム性が取り入れられています。そして、その出力内容は、クオリティの確認のために 2 段階目のプロセスでフィルタリングされます。場合により、この 2 段階目のプロセスは多くの(低賃金の)人々を使用して、最初の段階で出力されたものを調べ、好きか嫌いかを選択し、また、妥当であるかを見極めるように作成されています。

これには、以下のような根本的な問題が 2 つあります:

  • 著作権とプライバシー侵害 単語の集まりの後に続くべき言葉を予測するには、膨大な量のテキストを学習する必要があります。より多くのテキストを学習すれば、より正確に言語が表現されるように言語モデルを微調整することができるようになります。また、最近使用されている言語を反映するように、提供されるテキストの大部分が比較的新しいものでなければなりません。 これには、ソーシャルメディアや記事、本など、利用できるあらゆる最新のソースのテキストを学習しなければならないという、とてつもないインセンティブが生じます。残念なことに、言語モデルにそのようなテキストが織り込まれることで、オリジナルのテキストをそのまま出力する可能性があります。これが、一定の入力頻度で発生すれば、オリジナルのテキストが反復され、その結果、言語モデルが著作権のあるものを繰り返し出力してしまい、盗用という問題に繋がってしまう可能性があります。 同じく、ソーシャルメディアや、その他のユーザーが提供したソースの多くに機密性のある個人情報が含まれ、その情報が反復して出力される可能性があります。一部の狡猾な人々は、このような動作を引き金として利用する方法を既に編み出しており、その問題から完全に保護できる可能性は低いと言えます。個人情報が晒されるかもしれない危険を明確に理解すれば、言語モデルにそのような情報が織り込まれることを喜んで受け入れるなんてことはないでしょう。
     
  • 真実であるかのような嘘 LLM の構築に使用されているテキストは、一般的にその大部分がインターネットを元としているため、でたらめであることも少なくありません。それは、単に下手な散文や事実誤認であったり、不適切なコンテンツからのテキストにすぎなかったりします。開発の初期段階では、即座に不適切な言語を吐き出し始めるチャットボットという結果に終わってしまい、期待していた目的にはそぐわないものでした。このため、最新の LLM は、出力内容を 2 段階目のプロセスでフィルタリングすることでコントロールされています。 残念ながら、上に述べたように、プロセスの 2 段階目は 1 段階目の出力内容を精査する人々によって構築されています。実際に役立つモデルにするため、膨大な量の出力内容を精査する必要があります。世界で最も博識な人達でさえも、すべてが正確であるかを確認することは不可能です。もし可能だったとしても、生成され得るすべての出力を予測することはできません。フィルタリングは、最終的に基調を定めるのに役立っているというわけです。このような点から、出力内容が正確性とは関係なく、いかにも真実であるかのような響きを持ち、多くの人に受け入れられやすい都合の良いものになってしまうことが考えられます。そのような出力結果が、広く知られた事実に関してはほぼ正しいと言えても、それ以外では、正しいか否かはギャンブルのようなもので、大抵の場合、政治化レベルの嘘になり得ます。

正しい選択

ここまで見てきたように、LLM は基本的に信頼がおけるもののように思えても、場合によって個人情報を開示したり、既存のものを盗用したりする可能性のある、偽りのマシンだと言えます。また、膨大なエネルギーと、利用できる GPU すべてを浪費します。このような問題は、かつて、仮想通貨の分野で取り上げられたものと変わりありません。

これらの理由から、そのようなソリューションを Vivaldi に搭載するのは正しくないと考えています。さらにリスクを高める可能性のある十分な不正確な情報も出回っています。Vivaldi では、もっと厳密な方法で実現できるようになるまで、チャットボットや、要約ソリューション、フォーム入力のための検索エンジンの追加に LLM を使用することはありません。 しかし、Vivaldi ではユーザーへのオプション提供を信条としているので、今後も LLM をオンラインでは利用できるようにするつもりです。

このような問題はあるものの、一般的に機械学習の分野は興味深く、実際に役に立つ機能に結びつく可能性はあると感じています。将来的には、コンテンツの見つけやすさやアクセシビリティ―にフォーカスした、プライバシーを重視した機能をユーザーに提供できればと考えています。

Vivaldi では、多機能であると同時に、倫理にかなったブラウジング体験の提供を今後も模索していきたいと思います。

訳 – Mayumi
Team Vivaldi
Twitter | Mastodon | Facebook | Instagram | note

豊富な機能とカスタマイゼーションで、もっと自由にブラウジングを楽しもう!

Vivaldi をダウンロード