ふじみクリニック

Chat GPTとか言うけれど

2023.6.26


[2023/6/25 さいたま 広瀬神社]

AI(Artificial Intelligence;人工知能)が私たちの生活の中にじわじわと浸透しつつあります。「じわじわ」どころではなく、「爆発的に」といった方が適切かもしれません。

ロボットやAIを主題とする小説や映画は、ここ数十年、枚挙に暇がないほどですが、星新一のショートショート「気まぐれロボット」(1966)などは日本におけるAI物語の嚆矢と言えるかもしれません。比較的最近では、長谷敏司の「あなたのための物語」(2011)などもぜひ読んでおきたい作品です。

映画の世界では、アンドリューNDR114(1999)、「A.I.」(2001)、「アイ・ロボット」(2004)などが有名ですね。そうそう、アーノルド・シュワルツネッカーのターミネーターシリーズも、第1作は1984年でした(もっともシュワルツネッカー扮するアンドロイドT-800が「感情体験」に基づく自律行動を取るのは1991年の「ターミネーター2」からです)。いや、もっと昔の名作、スタンリー・キューブリック監督の「2001年宇宙の旅」(1968)も見逃すことはできません。木星を目指す宇宙船ディスカバリー号に搭載されたHAL(ハル)9000型コンピュータは、自己判断型AIの先駆けといえるかもしれません。HALには乗務員には知らされていない影の指示者(人間)がいたようですが、その指示を優先的に実行するための「論理的な思考」の結果として、乗務員を何人も殺害する判断をくだしたことを忘れてはならないからです。

これらの作品はそれぞれ、ロボット(AI)に感情というものを体験させることは可能か、ロボット(AI)が人間の指示を受けずに(あるいはそれに反して)自律的に思考し、判断できるのかといった問いを立てていたようでした。しかし、SFなどにとくに関心を持たない人にもAIの力を実感させたのは、日本文化の一つともいえる将棋や囲碁が2015年から数年のうちに軽々と人類の力を超えるに至った事実のインパクトが大きかったのではないでしょうか。

梅雨の中休みとなったある日、神社の境内の中にある休み処で例の二人が縁台将棋に興じていました。対局が終わっても眉間にしわを寄せて何やら小難しいことを話しているようです。

白髪老人
(以下「白」)
おっと、飛車金取りか。つるさん銀を持ってたの忘れてたよ。まいったね。それじゃあこっちは香車を先にいただくしかないか・・・
つるりん老人
(以下「つる」)
そんなら遠慮なく飛車をいただいておくよ。
ふふ、それじゃあ今もらった香車をここに置けば、どうする?
つる そんなの歩一枚つけば守れるじゃないか。
そうかな、こっちの角道空いてるんだけどね。
つる あっ、しまった。あれ、白さんの持ち駒は桂馬と銀か・・・そうか、わざと飛車で釣ったのか。こいつはやられたね。降参、降参。相変わらず終盤の読みは鋭いね。
まあ、頭の体操代わりに詰将棋毎日解いてるからね。
つる えらいね、白さん。おれは専ら息子からもらったタブレットでAI将棋だよ。しかしAIソフトは毎回強さを自分で設定できるけど、最強レベルにするとプロ棋士の名人クラスだっていうからね。
そうだよ。ソフトが強いのは将棋だけじゃないけどね。ボードゲームの中では局面の組み合わせ数が一番多いとされる囲碁ではずっと人間優位が続いていたんだが、2016年にグーグルの子会社が “ディープ・ラーニング” とかいう技術を使って開発した「アルファ碁」というソフトが、初めてプロ棋士を圧倒したことで局面はがらりと変わった。
つる ディープ・ラーニングって、「深い学習」ってこと?
おれもまあよくわからないが、まあそんなところだと思ってたんだけど、ちょっと違うらしい。大学の何とか情報工学科とか行ってる孫に聞いた受け売りなんだけど、ディープ・ラーニングってのは、データ群の背景にあるルールやパターンを見つけるために、入力データを多層的に構造化して考える(分析する)方法なんだと。
ふつうのデータ分析(シンプルな統計学的解析)では、インプットした原因要因データ(説明変数)と結果データ(目的変数)の関係を直接分析するが、ディープ・ラーニングでは、中間層と呼ばれる複数の分析階層を設けて各データ関係を多層化することで、各データ間を関係づけるルールやパターンをより多面的に考えることができるということだ。
つる 何言ってるかぜんぜん分かんないんだけど。
おれもね、正直よくわかんないよ。今言ったことも、孫の解説そのままってわけじゃあないし。孫はいろいろ説明してくれるんだけど、どうも呑み込めない。

(孫)あのね、おじいちゃん、例えば「20年以上、タバコ20本以上吸った人は肺がんにかかりやすい」って聞いたことがあるでしょ。そういう知見(意見)はさ、タバコを吸わない人、一日何本か吸う人が何年後にどんな病気にかかったかという事実(データ)をたくさん(何千人分も)集めて(それが入力データになる)、一日当たりの喫煙本数、喫煙期間、〇年後の疾患罹患率との関係を調べた(統計学的に分析した)結果得られるものなんだよ。実際の研究では、対象とした個人の性別、過去の既往歴、人種、体格、飲酒量、運動量・・・そのほか多項目の説明変数を考慮するんだけどね。
(おれ)そんな面倒くさいことやんなきゃ、タバコが身体に良くないってことくらいわかんないのかね。
(孫)そうだね。ホントのホントに身体によくないってことを喫煙愛好家に説明するには、「印象」だけじゃ科学的とは言えない。話もとに戻すけどね、今言ったような喫煙本数や喫煙期間と肺がん罹患との関係を直接調べる、というような分析手法は、いくらたくさんの項目を統計ソフトにぶちこんだって、ディープ・ラーニングとは言わない。
ディープ・ラーニングの「ディープ」という言葉は、単に「深い」っていうのではなくて、「多層的」という意味があるんだ。細かいことは省くけどね、人間がまだ明らかにしていない隠されたルール(法則性)自体を発見するような方法なんだ。たくさんの情報、もしかしたらこっちが知りたいことと関係ないかもしれない情報までいっぺんに与えて、そこから何らかの法則性を見出すようなやり方って言ったらいいかな。人間が予め設定した仮説の正誤を検証するだけでなく、仮説そのものをコンピュータが細かく(試行錯誤的に)設定する方法っていったらいいか。
人間の脳の働き―いろんなものごとを見聞したり考えたりするうちに、意識下で過去の知識や経験がどういう具合にか照合されたり結びついたりして、あるとき「あっそうか!そうだったのか!」みたいに新たなことがわかる―ひらめき体験みたいな行き方かな。私たちはどういうプロセスでその「ひらめき」が生まれたのか、いつも明確に説明できるわけではないでしょ。ディープ・ラーニングでも、入力に対してどうしてその出力が生まれたのか、入力した人間には必ずしも明確には知らされない。
そういう意味でディープ・ラーニングの基礎になる機械学習システムをニューラル・ネットワーク・システムって言うんだ。多数の情報(変数)間の関係性(法則性)をコンピュータが自分で閾値(関係あるなしの確率的判定)を設定して明らかにしていく。これはね、実は1950年代にすでに提唱されていた理論なんだけど、当時のコンピュータの性能では、実用化できなかったんだ。
(おれ)―まだよくわからないけれど、そういうのが囲碁や将棋の名人を負かしたってことかい。
(孫)そうだよ。コンピュータに当初は過去の人間同士の棋譜を読み込ませて、勝ちパターンを精密化していった結果なんだよ。最初は外部入力に依存する「教師あり学習」。一定の情報を与えた後はコンピュータ自身の「強化学習」という方法で。
(おれ)ふーん、そういうわけか。
つる 白さんは、お孫さんの解説わかるんだ。
いやいや、よくわかんないけど、わかんないって言ったら、孫の説明いつまでも終わらなさそうだからさ。ただ、コンピュータに人間の(生物の?)脳みその働きに近い動きをさせているってこととか、多種類かつ大量の情報を入れ込んで、勝手に情報間の関係を見つけてくれるやり方みたいだっていうことはなんとなく。
つる それじゃあ囲碁や将棋だったら、コンピュータ同士が試合してその結果を自身に反映させれば、もう人の入力なんか要らなくなるってわけか。
そうそう、実際に世界一位を破ったアルファ碁は、短期間で何億回って自身で対局して性能上げてきたんだって。そういうのを強化学習って言うのらしい。
つる おれ達だって、たくさん打てばそれなりに強くなれるけど・・・
何か見つけて、覚えてもすぐに忘れちまうんだよな、悲しいことに・・・
つる そうだよ。しかも一日何局か打ったらもう疲れていやんなるし。
そういえば、最近はやりのチャット何たらって言うのはどうなんだい。
それも孫に聞いてみたことがある。
チャット(Chat)っていうのは「雑談」のこと。ネットの世界では、その場で可能な相互対話を言うんだね。GPTというのは、えーとなんだっけ、Generative Pre-trained Transformer。訳すと、「生成可能な事前学習済み変換器」ということになるようだ。
つる 「生成可能な」って・・・
こちらが何かアナログな質問(自然言語)をAIに投げかける(Chat開始)と、AIがインターネット上の膨大な情報源から関係ありそうなものを拾ってきて、組み合わせて、文章として出力してくる(Chatの回答)ってわけだ。例えば、「愛情とは何ですか?」と入力すると、短時間でそれなりの回答が文章で返ってくる。
つる ヤフーとかグーグルの検索と違うのかい。
そういうこれまでの検索機能では、ネット上の関連するサイトが列挙されるだけで、それを一つずつ自分で開いて、読んで、自分の判断で取捨選択するという流れだよね。
つる ああそうだ。最近は列挙されるサイトが多くなって、一通り読むのも大変だ。
つるさんもネットサーフィンするんだ。
つる 馬鹿にすんなよ、ホテルの予約とか新幹線の切符くらい自分でやるよ。あ、映画館のチケットも。もっともスマホは画面が小さいし、最近は手が震えて文字を打ち間違いやすいから大き目のタブレットを使うけどね。
あはは、おれも同じだよ。
それでね、チャットGPTでは、そんな手間要らずに、結論的に書いてくれる。いろんなサイトからの情報の適切性をソフトウェアの方が決めて一つのまとまった文章として提示してくれるんだ。
つる そんなら、なにか学校のレポート課題なんか打ち込んじゃえば、苦労しないで提出できるじゃないか。
まったくそうらしいんだ。楽だよね。ただ、今のところすべての問いに対して、いつも正しい回答が得られるわけではない。チャットGPTが書いてくれたレポートがいくらもっともらしくても、その正確さや質問者の知りたい内容に合致しているかどうかを判定するには、やはり質問者の知識や思考力が必要になる。
つる でもそこら辺、あとでちょこちょこっと直せばいいのかね。
まさにそうだね。一から調べるんじゃなくて、なんか「たたき台」みたいなものがあった方がかなり楽だからね。
つる なるほどね。でも・・・この世界のすべてのことがネット上に掲載されているわけじゃないし・・・
そりゃそうだ。
つる それにさ、だれか知らない人の論文やら記事やら勝手に使っちゃって自分で書いたって言ってもいいのかね。
そうだね。とくに文学(創作)とか、それから絵画とかにも使えるようだから、著作権の問題は当然出てくるだろうね。
つる そもそもネット上の情報って、閲覧者から知らぬ間に収集されているって部分もあるんだろ。
そこは大きな倫理的課題としていろんな人が警鐘を発している。
また孫の世話になるけど、アメリカのある大学の教授で、もとはグーグル社員だった某氏が言うには、世界で数えるほどの企業だけが、これらのAIを開発し、提供するリソースを持っているんだと。中立的でもなければ、民主的でもない。究極的には、特定の企業の利益につながるようにつくられているのだと。
つる ああ、GAFAとか、「ビッグデータ」のこととか。
それにしても、白さんのお孫さんよく勉強しているね。
マイクロソフトとか、中国のTik Tokなんかも入るんだろうね。
つるさんがネットサーフィンしたりネット通販使ったりすれば、つるさんの好みとか、行動範囲とか、買い物内容とかみんなグーグルとかアマゾンとかに蓄積されて、直接には入力なんかしていないはずの個人の財政事情とか家族構成なんかが結構正確に推定されてしまう。
つる それもなんかいやだね。
さっき言ったアメリカの先生曰く、「こうした企業は、膨大なデータとクラウド設備、そしてGメールやフェイスブックを通じてデータを抽出し続けるための巨大な消費者市場を持っている。話題のAIは、こうした資源と権限の集中の結果として生まれてきたもので、技術的革新の成果というだけではない。しかし、『魔法みたい』『人間より賢い』『いろんなことに使える』という誇大宣伝が、正確性も安全性もわからない実験的な技術を正当化することに利用されている」のだと。
つる ・・・でもさ、元はと言えばさ、商品やサービスをタダで得て、費用は広告主が払う、という仕組に乗っかっちゃたのはおれたち自身なんだよな。テレビやラジオの放送とかネットを見聞するだけなら無料のはずだって知らぬ間に思い込まされて、結局プライバシーとか奪われていることに気づいていなかったってことかな。
タダより高いものはない。営利企業が、善意からだけIT環境を提供してくれるはずもないだろう。
実際チャットGPTを開発して公開したOpen AI という会社はそもそもマイクロソフトから原資を得ているし、当初NPO組織だったのが、2019年には一定の利益を追求してもいい法人(capped-profit型法人)に鞍替えしていたという事実も不信感を呼び起こす。
つる たしかに。
そうは言ってもホテルの予約とか電車の「乗換案内」とか、今さら使わずに電話とか時刻表とかだけでやるのも面倒だよな。
つる ほんとうに。それにプライバシー保守のためとはいえ、広告や個人情報提供なしだけど全部有料、ということにされたてしまったら、こちとら年金生活だから大変だ。
ネットやITは便利なんだけど、おれたち年寄りにもわかるように、その都度かみ砕いた説明を誰かしてくれないとね。
つる そうだよな。白さんお孫さん今度呼んできなよ。
ああ、それもあるか。でもこういうことでいつも孫に頼るっていうのもちょっとな。それに孫の解説おれにはちょっと詳しすぎるし・・・
つる ドラえもんの「ほんやくコンニャク」みたいなのがあれば、それだけでいいんだけどね・・・

*本コラムは統計学やコンピュータソフトに関する素人の記述であり、必ずしも科学的に正確な記述とは言えないことをご了解ください。