ChatGPT придобива гласов чат и може да обсъжда изображения в рамките на значително подобрение от OpenAI, с което компанията се стреми да доминира в индустрията
OpenAI пусна дългоочаквани подобрения, които ще позволят на популярния чатбот ChatGPT да взаимодейства с изображения и гласове. Това стартиране представлява важна стъпка към визията на OpenAI за изкуствен общ интелект, който може да възприема и обработва информация от различни начини, а не само от текст.
"Започваме да въвеждаме нови възможности за работа с глас и изображения в ChatGPT. Те предлагат нов, по-интуитивен тип интерфейс, като ви позволяват да водите гласов разговор или да покажете на ChatGPT за какво говорите", заяви OpenAI в официалната си публикация в блога.
OpenAI заяви, че новият ChatGPT-Plus ще включва гласов чат, задвижван от нов модел за преобразуване на текст в реч, способен да имитира човешки гласове, и възможност за обсъждане на изображения благодарение на интеграцията с моделите за генериране на изображения на компанията. Новите функции изглежда са част от това, което е известно като GPT Vision (или GPT-V, което често се бърка с теоретичния GPT-5) и представляват ключови компоненти на подобрената мултимодална версия на GPT-4, за която OpenAI съобщи по-рано тази година.
Това подобрение идва веднага след като OpenAI представи DALL-E 3 - най-усъвършенствания си генератор на текст в изображение. Обявен за "луд" от първите тестери заради качеството и точността си, DALL-E 3 може да създава висококачествени изображения от текстови подсказки, като разбира сложния контекст и понятия, изразени на естествен език. Той ще бъде вграден в ChatGPT Plus - абонаментна услуга, която предлага ChatGPT, задвижван от GPT-4.
Интеграцията на DALL-E 3 и разговорния гласов чат означава стремежа на OpenAI към асистенти с изкуствен интелект, които могат да възприемат света по-скоро като хората - с множество сетива. Според компанията: "Гласът и изображението ви дават повече начини да използвате ChatGPT в живота си. Направете снимка на някоя забележителност, докато пътувате, и проведете разговор на живо за това, което е интересно в нея".
Microsoft подхранва надпреварата в областта на изкуствения интелект с интеграция на OpenAI
Най-големият поддръжник на OpenAI, Microsoft, също се стреми да интегрира усъвършенстваните възможности на генеративния изкуствен интелект на OpenAI в собствените си потребителски продукти. На неотдавнашното си есенно събитие Microsoft обяви актуализации на Windows 11, Office и търсачката Bing с използване на модели като DALL-E 3 (в програми за промяна на изображения като обновения Paint на Microsoft) и Copilot, асистента за програмиране на OpenAI.
Това е в съответствие с инвестицията на Microsoft в размер на 10 млрд. долара в OpenAI, тъй като целта е да се превърне в лидер в надпреварата за асистенти с изкуствен интелект. Дебютът на Copilot в Windows 11 на 26 септември обещава да направи AI помощника достъпен за всички платформи и устройства на Microsoft. В същото време Microsoft 365 Chat използва естествения език на OpenAI за автоматизиране на сложни работни задачи.
Както вече беше съобщено от Decrypt, Microsoft заяви, че "Microsoft 365 Chat претърсва цялата ви вселена от данни в работата, включително имейли, срещи, чатове, документи и други, както и интернет".
Предпазливи стъпки към отговорен изкуствен интелект
Въпреки това OpenAI е наясно с потенциалните рискове при по-мощните мултимодални системи за ИИ, включващи генериране на зрение и глас. Основните опасения са свързани с имитацията, пристрастията и зависимостта от визуална интерпретация.
"Целта на OpenAI е да изгради AGI, който е безопасен и полезен", пише компанията в своето съобщение. "Вярваме, че предоставяме инструментите си постепенно, което ни позволява да правим подобрения и да усъвършенстваме намаляването на рисковете с течение на времето, като същевременно подготвяме всички за по-мощни системи в бъдеще."