生成AI ChatGPTの新機能とその使い方を分かりやすく説明します。

生成AI ChatGPTの新機能とその使い方を分かりやすく説明します

9月25日にて、OpenAIは以下の ChatGPTの新機能を発表しました：

AI音声チャットbot：ユーザーがプロンプトを入力すると、ChatGPTは音声で応答します
画像解析機能：ユーザが映像をアップロードしてプロンプトを入力すると、ChatGPTは映像解析により、応答します。

音声AIチャットbotや画像解析の機能の導入により、ChatGPTは、日常生活のさまざまな場合で利用することができるようになりました。例えば、ユーザーは旅行中に名所の写真を撮影すると、すぐにそれの歴史と面白いポイントに関して説明してもらえます。これらの新機能により、将来、ChatGPTはユーザーのスマートフォン内の知恵袋のパーソナルアシスタントとして活躍していくと見込まれています。

AI音声チャットbotと映像解析機能は、次の2週間以内にChatGPTのユーザーにリリースされる予定です。具体的には、iOSおよびAndroidでVoice AIチャットボットが設定のオプションとして利用可能になり、画像解析はスマホとPC両方で利用可能になります。

ChatGPTの新機能 ①：音声 AIチャットボット

ChatGPTの音声AIチャットbotは、ユーザーがテキスト・声で質問・リクエストを送信すると、テキストの代わりに、音声AIで応答する機能です。例えば、Aさんは料理する途中、急に次の材料を忘れてしまいます。そしたら、ChatGPTアプリ内のテキストボックスの隣にあるマイクのアイコンをタップして、声で「カレーライスの作り方を教えてください。」とプロンプトを送信します。すると、ChatGPTの音声AIチャットbotにカレーライスの材料と作り方を説明してもらいつつ、簡単に料理することができます。

《ChatGPTの音声 AIチャットボットのサンプル」》

本機能を使用したい場合、ChatGPTアプリで「設定」→「新機能」に移動してください。次に、「音声会話」というオプションを選択してから、ホーム画面の右上隅にあるヘッドホンボタンをタップし、5つの異なる音声タイプの中から好みの音声をすると、機能設定は完了となります。

この新しい音声機能は、テキストと数秒のサンプル音声だけから人間のようなオーディオを生成することができる最新テキスト→音声モデルによって駆動されています。OpenAIは、プロの声優と協力して、それぞれの声を作成し、ユーザーの話し言葉をテキストに転写するために、Whisperというオープンソースの音声認識システムも使用しています。

ChatGPTの新機能 ②：画像解析

本機能により、ユーザーは、ChatGPTに複数の画像をアップロードし、その映像の解析を行うことができます。例えば、グリルがなぜ起動しないのかをトラブルシューティングする、冷蔵庫の中身を探索して食事を計画する、または仕事関連のデータのために複雑なグラフを分析することなど。画像の特定の部分に焦点を当てるためには、モバイルアプリでの描画ツールを使用することができます。

ChatGPT の映像解析機能の事例

ChatGPTの画像解析機能を使用したい場合、写真ボタンをタップして写真を撮る、またはファイルから保存した映像を選択します。iOSやAndroidの場合は、まず、プラスボタンをタップします。そして、複数の画像を選択してアップロードします。また、ChatGPTに映像の各部分に注意させたい場合、描画ツールでハイライトしたい部分に落書いてからアップロードすることもできます。

ChatGPTはオブジェクトや風景に関する質問に非常に迅速に答えますが、むしろ、人間を特定するプロンプトに対しては自由に応答できなくなりがちです。例えば、ユーザーが橋本環奈さんの写真をアップロードし、「この人は誰ですか？」と質問すると、ChatGPTは「私はユーザーのプライバシーと安全を優先するようにプログラムされています。画像に基づいて実際の人々を特定することは制限されています」という警告を送信します。ChatGPTは、人間のプライバシーを守るための多くの対策を持っていますが、SotaTekのAI専門家のアドバイスによると、ユーザーが住所、電話番号、パスワードなどの個人情報を含む写真をアップロードしないように注意したほうが良いそうです。

ChatGPTにアップロードした写真をプラットフォームから１っヶ月後に削除する場合は、「設定」→「データコントロール」→「チャット履歴＆トレーニング」をオフにしてください。

まとめ

ChatGPTはもはや単なるチャットボットではなくなってきました。OpenAIの最新のアップグレードにより、ChatGPTはテキストを超えた強力な新しい能力を持つようになりました。自身のAIの声で寝る前の物語を語ったり、写真の中の物事を解析したり、音声録音に応答することができます。

画像や音声入力は、ChatGPTの能力の自然な始まりです。将来、ChatGPTはExcelのスプレッドシートや3Dモデルなど、他の形式のデータを活用するための訓練を受けることになるでしょう。

一方、多くのエンタープライズIT開発企業も独自の多モーダルAIツールを開発しています。最新で最も人気のある例の一つは、「Guide Bot」という電子文書検出AIシステムです。

Guide　Botは、使いやすいUIを持ちながら、生成AIツールの初心者でも楽に使用ができます。ユーザーが質問すると、事前に登録された電子文書ファイル内を瞬時に検索し、正確な回答を返します。質問の内容は社内データベースに履歴として保存され、根拠を伴う回答により情報の正確さも向上します。さらに、いつでも情報を再確認することができ、社内ワークフローを最適化するツールとして、多くの事務に役に立つ自動アシスタントとなります。

ユーザーはこの「Guide Bot」を使うことで、社内規則や社内の各種手続きに必要な書類のデータ、会社や業界独自の情報や法令などを検索することができ、カスタマーセンターが保有する膨大なFAQ情報から最適な回答を抽出して簡単にガイドを受けることができます。

Guide Bot及びそれにおける導入サービス、またはSotaTekのAI開発に関する詳しい情報をご希望の方は、お気軽に当社までご連絡ください。