4 ویژگی جدید GPT-5 که می خواهیم ببینیم!

24
0
ویژگی جدید GPT-5

GPT-4 OpenAI در حال حاضر بهترین ابزار هوش مصنوعی مولد در بازار است، اما این بدان معنا نیست که ما به آینده نگاه نمی کنیم. با توجه به اینکه سم آلتمن، مدیر عامل OpenAI به طور مرتب در مورد GPT-5 نکاتی را ارائه می دهد، به نظر می رسد به زودی شاهد یک مدل هوش مصنوعی جدید و ارتقا یافته خواهیم بود. 

حداقل، این همان چیزی است که ما امیدواریم. تاریخ مشخصی برای راه اندازی GPT-5 وجود ندارد، و بیشتر چیزهایی که فکر می کنیم می دانیم از جمع آوری اطلاعات دیگر و تلاش برای اتصال نقاط به دست می آید. 

با این حال، بدون توجه به تاریخ مقرر، چند ویژگی کلیدی وجود دارد که می خواهیم هنگام راه اندازی GPT-5 ببینیم. 

GPT-5 OpenAI چیست؟ 

GPT-5 جانشین بسیار مورد انتظار برای مدل GPT-4 AI OpenAI است که به طور گسترده انتظار می رود قوی ترین مدل مولد در بازار باشد. در حالی که در حال حاضر تاریخ انتشار رسمی برای GPT-5 وجود ندارد، نشانه هایی وجود دارد که می تواند در اوایل تابستان 2024 منتشر شود. جزئیات بسیار کمی در مورد این مدل در حال حاضر شناخته شده می باشد، اما چندین چیز را می توان با مقداری از آن بیان کرد. یقین – اطمینان – قطعیت: 

1.چندوجهی بیشتر

  • OpenAI یک علامت تجاری برای این نام در اداره ثبت اختراع و علائم تجاری ایالات متحده ثبت کرده است. 
  • چندین مدیر OpenAI در مورد قابلیت های احتمالی این مدل بحث کرده اند یا به آنها اشاره نموده اند. 
  • سام آلتمن، مدیر عامل OpenAI، بارها و بارها در طی مصاحبه مارس 2024 در یوتیوب با Lex Fridman به این مدل اشاره کرد. 

همه اینها به یک واقعیت هیجان انگیز اشاره می کنند: GPT-5 در راه است! گفتنی است، در این مرحله خیلی چیزها حدس و گمان هستند. اما چند چیز وجود دارد که امیدواریم ببینیم و نسبتاً از دیدن آن در مدل مطمئن هستیم. در اینجا به برخی از آنها اشاره می کنیم: 

یکی از جالب ‌ترین پیشرفت‌ ها در خانواده مدل‌های هوش مصنوعی GPT، چندوجهی بودن است. برای وضوح، چندوجهی توانایی یک مدل هوش مصنوعی برای پردازش بیشتر از متن بلکه انواع دیگر ورودی ‌ها مانند تصاویر، صدا و ویدئو می باشد. چندوجهی بودن یک معیار پیشرفت مهم برای خانواده مدل‌های GPT در آینده خواهد بود. 

با توجه به اینکه GPT-4 از قبل در مدیریت ورودی و خروجی تصویر ماهر است، بهبودهایی که پردازش صدا و تصویر را پوشش می دهند نقطه عطف بعدی برای OpenAI هستند و GPT-5 مکان خوبی برای شروع می باشد. گوگل در حال حاضر با این نوع چندوجهی با مدل Gemini AI خود پیشرفت جدی کرده است. برای OpenAI غیرمشخص است که پاسخ ندهد. اما، حرف ما را قبول نکنید. بیل گیتس در پادکست Unconfuse Me [نسخه PDF]، از سم آلتمن، مدیر عامل OpenAI پرسید که چه نقاط عطفی را برای سری GPT در دو سال آینده پیش ‌بینی کرده است. اولین پاسخ او؟ پردازش ویدئو. 

بنابراین، برای GPT-5، ما انتظار داریم که بتوانیم با ویدیوها بازی کنیم – ویدیوها را به عنوان درخواست آپلود کرده، ویدیوها را در حال حرکت ایجاد کنیم، ویدیوها را با پیام های متنی ویرایش ، بخش هایی را از ویدیوها استخراج و صحنه های خاصی را از فایل های ویدیویی بزرگ پیدا کنیم. انتظار داریم بتوانیم کارهای مشابهی را با فایل های صوتی انجام دهیم. سوال بزرگی است، بله. اما با توجه به سرعت توسعه هوش مصنوعی، انتظار بسیار منطقی می باشد. 

2. پنجره زمینه بزرگتر و کارآمدتر 

با وجود اینکه یکی از پیچیده ‌ترین مدل‌ های هوش مصنوعی در بازار است، خانواده مدل‌های هوش مصنوعی GPT یکی از کوچک‌ ترین پنجره‌های زمینه را دارد. به عنوان مثال، Claude 3 Anthropic دارای یک پنجره زمینه 200000 توکن می باشد، در حالی که Gemini گوگل می تواند 1 میلیون توکن (128000 برای استفاده استاندارد) را پردازش کند. در مقابل، GPT-4 دارای یک پنجره زمینه نسبتا کوچکتر از 128000 توکن است که تقریباً 32000 توکن یا کمتر برای استفاده در رابط هایی مانند ChatGPT در دسترس هست. 

با آمدن چند وجهی پیشرفته به تصویر، یک پنجره زمینه بهبود یافته تقریباً اجتناب ناپذیر است. شاید افزایش ضریب دو یا چهار کافی باشد، اما امیدواریم که شاهد چیزی در حد 10 باشیم. این به GPT-5 اجازه می دهد تا اطلاعات بسیار بیشتری را به شیوه ای بسیار کارآمدتر پردازش کند. اکنون، یک پنجره زمینه بزرگتر همیشه به معنای بهتر نیست. بنابراین، به جای افزایش پنجره زمینه، مایلیم افزایش کارایی پردازش زمینه را ببینیم. 

ببینید، یک مدل ممکن است یک پنجره زمینه یک میلیون رمزی داشته باشد (حدود 700000 کلمه ظرفیت دارد) اما وقتی خواسته می ‌شود یک کتاب 500000 کلمه‌ای را خلاصه کند، نمی ‌تواند یک خلاصه جامع تولید نماید، زیرا علیرغم داشتن شرایط، نمی ‌تواند به اندازه کافی کل متن را پردازش کند. ظرفیت انجام این کار در تئوری اینکه شما می توانید یک کتاب 500 هزار کلمه ای بخوانید به این معنی نیست که می توانید همه چیز را در آن به خاطر بیاورید یا آن را به طور معقول پردازش کنید. 

3. عوامل GPT 

شاید یکی از هیجان‌انگیزترین احتمالات نسخه GPT-5، اولین GPT Agents باشد. در حالی که احتمالاً اصطلاح “تغییر کننده بازی” در هوش مصنوعی بیش از حد مورد استفاده قرار گرفته است، عوامل GPT واقعاً به هر معنای عملی تغییر دهنده بازی هستند. اما این چقدر بازی را تغییر می دهد؟ 

در حال حاضر، مدل‌های هوش مصنوعی مانند GPT-4 می ‌توانند به شما در تکمیل یک کار کمک کنند. آنها می توانند یک ایمیل بنویسند، یک جوک بزنند، یک مسئله ریاضی را حل نمایند یا یک پست وبلاگ برای شما پیش نویس کنند. با این حال، آنها فقط می توانند آن کار خاص را انجام دهند و نمی توانند مجموعه ای از وظایف مرتبط را که برای تکمیل کار شما ضروری است، انجام دهند. 

فرض کنید شما یک توسعه دهنده وب هستید. به عنوان بخشی از شغل خود، از شما انتظار می رود که کارهای زیادی انجام دهید: طراحی، نوشتن کد، عیب یابی و موارد دیگر. در حال حاضر، تنها می ‌توانید بخشی از این وظایف را در یک زمان به مدل‌های هوش مصنوعی واگذار کنید. شاید بتوانید از مدل GPT-4 بخواهید که یک کد برای صفحه اصلی بنویسد، سپس از آن بخواهید که این کار را برای صفحه تماس، و سپس برای صفحه درباره و غیره انجام دهد. باید این کارها را به صورت تکراری انجام دهید. و وظایفی وجود دارد که مدل ها به سادگی نمی توانند آنها را تکمیل کنند. 

این فرآیند تکراری برای تحریک مدل‌ های هوش مصنوعی برای وظایف فرعی خاص، زمان ‌بر و ناکارآمد است. در این سناریو، شما – توسعه‌دهنده وب – عامل انسانی هستید که مسئول هماهنگی و تشویق مدل‌های هوش مصنوعی یک کار در یک زمان می باشد تا اینکه مجموعه کاملی از وظایف مرتبط را تکمیل کنید. 

GPT Agents نوید ربات ‌های خبره تخصصی را می‌ دهد که با هماهنگی GPT-5، می ‌توانند به طور مستقل تمام زیرمجموعه ‌های یک کار پیچیده را به‌طور مستقل کنترل کنند. تاکید بر “خودانگیختگی” و “خودمختار”. 

بنابراین، اگر GPT-5 با GPT Agents عرضه می ‌شود، می ‌توانید از آن بخواهید که «یک وب‌سایت نمونه کار برای Maxwell Timothy بسازد» نه اینکه فقط «یک کد برای صفحه اصلی برای من بنویسد». سپس GPT-5 از نظر تئوری قادر خواهد بود با فراخوانی عوامل خبره هوش مصنوعی برای انجام وظایف فرعی مختلف مورد نیاز برای ساخت یک وب سایت، از خود درخواست کند. ممکن است از یک GPT برای حذف وب برای اطلاعات در مورد Maxwell Timothy، یک عامل دیگر برای نوشتن کد برای صفحات مختلف، یک عامل دیگر برای تولید و بهینه سازی تصاویر و حتی یک عامل هوش مصنوعی دیگر برای استقرار سایت استفاده شود، همه بدون نیاز به انسان مکرر. برانگیختن 

4. توهم کمتر 

اگرچه OpenAI راه درازی را در مقابله با توهمات در مدل ‌های هوش مصنوعی خود پیموده است، اما آزمون تورنسل واقعی برای GPT-5 توانایی آن برای رسیدگی به موضوع دائمی توهمات می باشد، که مانع از پذیرش گسترده هوش مصنوعی در ریسک‌ های بالا شده است. حوزه های ایمنی حیاتی مانند مراقبت های بهداشتی، هوانوردی و امنیت سایبری. اینها همه حوزه هایی هستند که از دخالت سنگین هوش مصنوعی سود زیادی می برند، اما در حال حاضر از هرگونه پذیرش قابل توجهی اجتناب می کنند. 

برای وضوح، توهم در این زمینه به موقعیت‌ هایی اشاره می ‌کند که در آن مدل هوش مصنوعی اطلاعاتی با صدایی قابل قبول اما کاملاً ساختگی را با درجه بالایی از اطمینان تولید و ارائه می ‌دهد. 

سناریویی را تصور کنید که در آن GPT-4 در یک سیستم تشخیصی برای تجزیه و تحلیل علائم بیمار و گزارش های پزشکی یکپارچه شده است. یک توهم می تواند هوش مصنوعی را با اطمینان تشخیص نادرست ارائه دهد یا یک دوره درمانی بالقوه خطرناک را بر اساس حقایق تصوری و منطق نادرست توصیه کند. عواقب چنین خطایی در حوزه پزشکی می تواند فاجعه بار باشد. 

رزروهای مشابه در مورد سایر زمینه ‌های پر پیامد مانند هوانوردی، انرژی هسته‌ای، عملیات دریایی و امنیت سایبری اعمال می ‌شود. ما انتظار نداریم که GPT-5 مشکل توهم را به طور کامل حل کند، اما انتظار داریم که احتمال وقوع چنین حوادثی را به میزان قابل توجهی کاهش دهد. 

همانطور که ما مشتاقانه منتظر عرضه رسمی این مدل هوش مصنوعی بسیار مورد انتظار هستیم، یک چیز مسلم است: GPT-5 این پتانسیل را دارد که مرزهای آنچه را که با هوش مصنوعی ممکن است بازتعریف کند و عصر جدیدی از همکاری و نوآوری انسان و ماشین را آغاز نماید. 

امتیاز این مطلب
سهیل دهقانی
نوشته شده توسط

سهیل دهقانی

علاقه مند به فناوری و تکنولوژی های روز دنیا کارشناس سئو و تولید محتوا

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

گوگل فارکس آموزش تخصصی آمارکتس