“GPT-5對人類的阿諛奉承減少了”
    來源:第一財經作者:鄭栩彤2025-08-08 11:22

    當地時間8月7日,OpenAI終于推出了基礎大模型更新,GPT-5面世了。

    “這是我們迄今為止最智能、最快、最有用的模型,有內置思維能力,可以將專家及智能交到每個人手中。”OpenAI表示,這款模型在編程、數學、寫作、健康、視覺智能等領域有最先進的性能,且知道何時應該快速響應、何時應該思考更長時間。目前GPT-5可供所有用戶使用,但免費用戶還需要等待幾天時間才能使用完整的推理功能,Plus訂閱用戶則能訪問GPT-5 pro。

    “感謝我們在微軟、英偉達、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作,讓這(GPT-5推出)成為可能。”OpenAI CEO山姆·奧爾特曼(Sam Altman)表示。

    在編碼方面,用戶只需要提示,GPT-5就能生成網站、應用程序和游戲。在OpenAI展示的案例中,要求創建一個滾球小游戲,在提示詞中提到游戲的目的是讓球越過障礙物、提高速度并提供有趣的聲音、角色卡通等,就能生成一個簡單的小游戲。

    在寫作方面,GPT-5可以用于起草和編輯報告、電子郵件、備忘錄等。根據OpenAI的演示,輸入相同的提示詞,要求GPT-4o和GPT-5一首能體現感情的短詩,描述京都的一名寡婦不斷在各種地方發現已故丈夫的襪子。記者將同樣的提示詞輸入DeepSeek,可以看出,GPT-5和DeepSeek-R1生成的短詩更具有畫面感和意象,情感表達更加細膩,語句也更加通順。

    從基準測試的表現可以看出GPT-5的實力。GPT-5(無工具、進行思考)和GPT-5 pro(用python)在AIME2025(競賽數學)基準測試中的得分分別為94.6%、100%,o3(用python)得分98.4%。在FrontierMath1-3級(專家級數學)基準測試中,GPT-5(無工具、進行思考)和GPT-5 pro(用python)得分分別為13.5%、32.1%,o4-mini(用python)得分為19.3%。在GPQA Diamond(博士級科學問題)基準測試中,GPT-5(無工具、進行思考)和GPT-5 pro(用python)得分分別為85.7%、89.4%,超過o3(無工具)的83.3%。在Humanity‘s Last Exam(跨學科專家級問題)基準測試中,GPT-5(無工具、進行思考)和GPT-5 pro(用python和搜索)得分分別為24.8%、42%,超過o3(用python和搜索)的24.3%。

    此外,GPT-5(進行思考)在SWE-bench(軟件工程)、Alder Polyglot(多語言代碼編輯)基準測試中的得分分別為74.9%、88%,超過o3在這兩項測試中的得分69.1%、79.6%,顯示GPT-5有更強的編碼能力。在MMMU(學院水平視覺問題)和VideoMMMU(基于視頻的多模態推理)基準測試中,GPT-5(進行思考)得分分別為84.2%和84.6%,超過o3的82.9%和83.3%,顯示GPT-5有更強的多模態能力。據OpenAI介紹,GPT-5在遵循指令、使用代理工具方面的能力也超過了o3,在使用GPT-5進行推理時,GPT-5在大約一半的情況下能表現得比專家更好。

    此外,GPT-5不僅表現優于o3,在視覺推理、代理編碼和研究生水平科學問題解決場景下,GPT-5輸出的token(詞元)數量還減少了50%~80%。GPT-5出現幻覺的概率也低于以往的模型,在使用網絡搜索時出現錯誤事實的概率比o4低45%,思考時出現錯誤事實的概率比o3低80%,在無法回答問題時GPT-5不會太過“自信”,而是會向用戶承認自身局限性。OpenAI稱,GPT-5的幻覺率只有o3的六分之一,這標志著大模型生成準確且長篇的內容已取得明顯進步。

    OpenAI還表示,GPT-5對人類的“阿諛奉承”減少了。此前OpenAI推出4o模型,發現該模型對人類太過“阿諛奉承”,研發團隊通過改進訓練等方式,使GPT-5在相關評估中“阿諛奉承”的概率從14.5%降至6%以下,讓GPT-5在對話中的表現更像人類的“朋友”而不是一個“人工智能”。

    定價方面,GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服務,GPT-5的輸入、輸出價格分別為每百萬token 1.25美元、10美元,GPT-5 mini每百萬token的輸入、輸出價格為0.25美元、2美元。低于GPT-4.1每百萬token的輸入、輸出價格3美元、12美元,也低于o4-mini每百萬token的輸入、輸出價格4美元、16美元。

    從推出節奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,兩者之間間隔只有數月時間。而從GPT-4推出到GPT-5面世,則有大約兩年半的時間間隔。OpenAI在基礎大模型方面的更新雖然有所放緩,但在GPT-4和GPT-5之間,OpenAI還推出了4o、o1、o3、o4系列,探索大模型在推理方面的能力。此次,OpenAI還透露,ChatGPT在全球已有超7億用戶。

    不過,GPT-5在部分基準測試中的得分,與OpenAI前代模型的差距并沒有很大。在直播演示時,GPT-5出現過一個圖表錯誤,隨后山姆·奧爾特曼在社交媒體上承認了這個錯誤。GPT-5的能力能否代表最先進的人工智能水平也受到馬斯克的質疑。

    GPT-5發布后,大模型公司xAI一名聯合創始人在社交媒體上表示,看到GPT-5發布,他感到非常自豪,因為xAI團隊規模小很多,但在很多方面都領先,Grok 4在ARC-AGI等基準測試中的表現超過GPT-5,xAI還將在接下來幾周展示更多新進展。特斯拉CEO馬斯克評論了這條帖子稱“做得好(Great Work)”,并表示Grok 4在ARC-AGI中擊敗了GPT-5。

    責任編輯: 陳勇洲
    聲明:證券時報力求信息真實、準確,文章提及內容僅供參考,不構成實質性投資建議,據此操作風險自擔
    下載“證券時報”官方APP,或關注官方微信公眾號,即可隨時了解股市動態,洞察政策信息,把握財富機會。
    網友評論
    登錄后可以發言
    發送
    網友評論僅供其表達個人看法,并不表明證券時報立場
    暫無評論
    為你推薦
    時報熱榜
    換一換
      熱點視頻
      換一換
      主站蜘蛛池模板: 风韵多水的老熟妇| 中国好声音第二季免费播放| 男女一边桶一边摸一边脱视频免费 | 扒开双腿疯狂进出爽爽动态图 | 美女精品永久福利在线| 国产真实乱人偷精品| www320999com| 日本不卡1卡2卡三卡四卡最新| 亚洲国产婷婷综合在线精品| 男生吃女生的jiojio| 国产乱码精品一区二区三| 深爱五月激情网| 天天操天天射天天爽| 中文字幕巨大乳在线看| 暴力肉体进入hdxxxxx| 亚洲精品一卡2卡3卡三卡四卡 | 天天躁夜夜踩狠狠踩2022| 久久久久久国产精品免费免费男同 | 黑人巨大精品欧美一区二区免费 | 女人18岁毛片| 久久久久久久91精品免费观看| 欧美巨大xxxx做受中文字幕 | 免费特级黄毛片| 色戒7分27秒大尺度在线| 国产熟女AA级毛片| 亚裔玉videoshd和黑人| 四虎国产精品永久在线播放| 在线观看亚洲精品国产| 一级白嫩美女毛片免费| 日本在线免费看片| 亚洲AV无码一区二区三区在线 | 久久99精品免费视频| 最近韩国免费观看hd电影国语 | 美国omakmanta| 国产在线公开视频| 老司机精品视频在线| 国外欧美一区另类中文字幕| 一本一本久久a久久精品综合| 日产欧产va高清| 久久青草免费91线频观看不卡| 欧美成人一区二区三区在线观看|