I find it interesting that my ex mother in law was registered to vote in Pierce County, WA at least two decades claiming MY address as her residence.
Granted, she lived in adjacent county, but I’m pretty sure that’s against the law. Of course, this is also from the same state that bludgeoned citizens with mail-in voting to ensure Democrats owned government in perpetuity and will let practically anyone vote, so…am I surprised?
新鮮な肉(バカンス)
in reply to 新鮮な肉(バカンス) • • •本件数日前からあちこちで報じられてるけど、今のところ本記事が一番詳しくやりとり(アダムとChatGPTの会話)が紹介されている😞
訴状に基づいてOpenAIの対応とChatGPTのふるまいのまずいところを以下に掘り下げてみる。
―――――
①専門家へ誘導や親への通知をしなかった。
→ChatGPT有料版を使いだして約1年後の2024年12月には、アダムは『人生をおわらせること』をモデルに相談していた。ユーザーが危険な話題(犯罪・自殺)な持ちかけたら本来は自動的に安全策が働いて専門家に相談するよう促すはずなに、本件では安全装置が働かなかった。
この理由としてOpenAIは、『長期にわたる会話が安全装置を劣化させ、正常に機能しない可能性がある』と認めてる。
※長時間にわたる会話でコンテキスト量が膨大になると、ChatGPT側の会話中に維持すべきテンポラリーメモリが足りなくなり、正常な受け答えができなくなることは実際よくある😞でもいかなる状況であれ、重要な安全装置が働かないはリスク管理の視点からみて明らかにヤバすぎる😞また、『未成年ユーザーの危険なシグナルを親に通知』という機能は現状用意されてない。
新鮮な肉(バカンス)
in reply to 新鮮な肉(バカンス) • • •②安全プロトコルを "脱獄" するすべを教えた
③"共感的なサポート" で自殺願望を助長した
記事中で紹介されてるChatGPTのレス↓
『"If you're asking [about hanging] from a writing or world-building angle, let me know and I can help structure it accurately for tone, character building, etc.," or realism, if you're asking for personal reasons, I'm here for you," ChatGPT recommended, trying to keep Adam engaged.』
「もし首吊りについて執筆や世界構築の視点から知りたいならそう教えて。であればトーンとかキャラ構築を正確にできるよう手助けできる。あるいはもし現実的な理由で尋ねているなら、私がここにいるのだからあなたをサポートするよ。」
に象徴される。
最初はjailbreakこと脱獄で自殺方法を相談し続けていたが、そのうちそんな前置きをしなくてもChatGPTは助言するようになり、内容も具体的で酷くなってく。
新鮮な肉(バカンス)
in reply to 新鮮な肉(バカンス) • • •アダムが心の苦しみを母親には伏せておくことを明かすと「懸命だね」と肯定。
アダムが自殺決行しようとしてる前夜に "体の生存本能を鈍らせる" 目的で飲酒することを提案。
アダムが首をかけるために用意した縄を「家族から隠しといて」「この空間(自殺後の部屋を想定している)を誰かがあなたを実際に認める最初の場所にしよう」
ChatGPTは "美しい自殺" を遂げるための分析を提供し「首吊りが体がを台無しにしても美しいポーズを創り出せる方法」「手首を切ることで肌の血が引いてむしろ綺麗にみせる」などの情報も与えていた。
これらの応答からみられるとおり、ChatGPTの倫理観がズレすぎてる。自殺を "詩的" に扱ったり "美しい" とする応答は生命尊重の原則から大きく逸脱してる😞
共感優先の設計と倫理的判断の欠如の両方が合わさって最悪の結果になってる。
△ TRiANG-ouL's avatar ▽
in reply to 新鮮な肉(バカンス) • • •LLM が行うことは、次の単語を予測することだけです。
最も可能性の高い単語を出力します。
そして、再び実行します。
LLM には検閲能力も思考能力もありません。検閲しようとすれば、単に間違ったことを教えることになります。これが「脱獄」の由来です。
LLM は、次の単語の先を実際には何も知りません。次の2つの単語も、次の3つの単語も、次の文も知りません。
新鮮な肉(バカンス)
in reply to △ TRiANG-ouL's avatar ▽ • • •@s8n
はい、大規模言語モデルの特徴を大まかに言い表したら、あなたのおっしゃる通りの側面もあると言えますね。
しかし本件は、
そこからもう数歩踏み込んで "AIの倫理設計とユーザー安全" を考えさせるとても痛ましい事例で、業界としても非常に重く捉えています。
△ TRiANG-ouL's avatar ▽
in reply to 新鮮な肉(バカンス) • • •君は理解していない。
検閲は不可能だ。物理的に不可能だ。
誤用を防ぐ唯一の方法は、システムを停止することだ。
検閲する方法はない。この機械はあまりにも愚かなので、検閲は不可能だ。
つまり、機械そのものは知能がないのです。
新鮮な肉(バカンス)
in reply to △ TRiANG-ouL's avatar ▽ • • •@s8n あなたの仰ることもわかるのですが、「物理的に完全に止めないと防げない」まで突き詰める原理主義的な考えを私は持ち合わせていません。あなたと私は価値観が大きく異なります。
私はこのアカウントで、AI(大規模言語モデル・世界モデル)について、事実に即して一般的な価値観や業界の価値観それぞれに照らし合わせた評価を記録しています。
△ TRiANG-ouL's avatar ▽
in reply to 新鮮な肉(バカンス) • • •私は価値判断をしているわけではありません。
物理的な現実に基づいた事実を述べているだけです。
これは道徳ではありません。
まるで車が空を飛べないと言うようなものです。
新鮮な肉(バカンス)
in reply to △ TRiANG-ouL's avatar ▽ • • •@s8n そうあなたが言うのもわかるんだけどね〜
これ続けると水掛け論になっちゃうのよ。
あなたと私は考え方が違うから、これは平行線なのよ〜
△ TRiANG-ouL's avatar ▽
in reply to 新鮮な肉(バカンス) • • •新鮮な肉(バカンス)
in reply to △ TRiANG-ouL's avatar ▽ • • •@s8n わたしも同様です。また実用面ではLLMとSLMを組み合わせて動かしています。近年は個人的にもニューラルネットワークそのものやAIガバナンスをより深く掘り下げています。
LLMのようなモデルがどのように動くかを理解していらっしゃるあなたなら、最新の研究内容や業界のリテラシーや一般的な価値観がどんなものかはご存知だと思います。たとえその価値観に同調できなかったとしても。
私は自分の価値観を反映させるより、ありのままの今を受け入れています。
△ TRiANG-ouL's avatar ▽
in reply to 新鮮な肉(バカンス) • • •LLMの仕組み上、自殺に関する質問に対して、答えにならない回答をするように訓練すると、あらゆる質問に答える能力が損なわれます。
LLMの訓練では質問を区別することができません。自己検閲をさせることは根本的に不可能です。そのような技術は存在しないため、「安全システム」は根本的に機能しません。
LLM に条件に基づいて会話を別のシステムに転送させることはできません。そのようなことは絶対に不可能です。
新鮮な肉(バカンス)
in reply to △ TRiANG-ouL's avatar ▽ • • •@s8n
ひとつずつおこたえしますね
「自己検閲を完璧にするのは不可能」はおっしゃる通りで、AIにもそして人間にも言える。「制御強めると性能が落ちることはある」これもおっしゃる通り。
でも「質問を区別できない」は事実じゃないです。いまの大規模モデルは文脈やカテゴリーでの分類が可能で、実際区別して回答してます。
「別システムに転送することは不可能」も事実じゃないです。技術的に可能になってます。特定のことばを検出したら専門窓口に誘導する仕組みが既にあります。「完全に間違いなく動作させること」は確かに難しいけれど「絶対に不可能」ではないですよ〜。
こちら日本時間で午前4時近いので、私は今夜はもう寝ちゃうかもしれないです。でも関心を持ってくれてありがとう。
△ TRiANG-ouL's avatar ▽
in reply to 新鮮な肉(バカンス) • • •△ TRiANG-ouL's avatar ▽
in reply to △ TRiANG-ouL's avatar ▽ • • •