欧美日韩高清在线观看,欧美日韩中文在线,欧美一级爱操视频

“GPT-5對人類的阿諛奉承減少了”

來源：第一財經作者：鄭栩彤2025-08-08 11:22

當地時間8月7日，OpenAI終于推出了基礎大模型更新，GPT-5面世了。

“這是我們迄今為止最智能、最快、最有用的模型，有內置思維能力，可以將專家及智能交到每個人手中。”OpenAI表示，這款模型在編程、數學、寫作、健康、視覺智能等領域有最先進的性能，且知道何時應該快速響應、何時應該思考更長時間。目前GPT-5可供所有用戶使用，但免費用戶還需要等待幾天時間才能使用完整的推理功能，Plus訂閱用戶則能訪問GPT-5 pro。

“感謝我們在微軟、英偉達、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作，讓這（GPT-5推出）成為可能。”OpenAI CEO山姆·奧爾特曼（Sam Altman）表示。

在編碼方面，用戶只需要提示，GPT-5就能生成網站、應用程序和游戲。在OpenAI展示的案例中，要求創建一個滾球小游戲，在提示詞中提到游戲的目的是讓球越過障礙物、提高速度并提供有趣的聲音、角色卡通等，就能生成一個簡單的小游戲。

在寫作方面，GPT-5可以用于起草和編輯報告、電子郵件、備忘錄等。根據OpenAI的演示，輸入相同的提示詞，要求GPT-4o和GPT-5一首能體現感情的短詩，描述京都的一名寡婦不斷在各種地方發現已故丈夫的襪子。記者將同樣的提示詞輸入DeepSeek，可以看出，GPT-5和DeepSeek-R1生成的短詩更具有畫面感和意象，情感表達更加細膩，語句也更加通順。

從基準測試的表現可以看出GPT-5的實力。GPT-5（無工具、進行思考）和GPT-5 pro（用python）在AIME2025（競賽數學）基準測試中的得分分別為94.6%、100%，o3（用python）得分98.4%。在FrontierMath1-3級（專家級數學）基準測試中，GPT-5（無工具、進行思考）和GPT-5 pro（用python）得分分別為13.5%、32.1%，o4-mini（用python）得分為19.3%。在GPQA Diamond（博士級科學問題）基準測試中，GPT-5（無工具、進行思考）和GPT-5 pro（用python）得分分別為85.7%、89.4%，超過o3（無工具）的83.3%。在Humanity‘s Last Exam（跨學科專家級問題）基準測試中，GPT-5（無工具、進行思考）和GPT-5 pro（用python和搜索）得分分別為24.8%、42%，超過o3（用python和搜索）的24.3%。

此外，GPT-5（進行思考）在SWE-bench（軟件工程）、Alder Polyglot（多語言代碼編輯）基準測試中的得分分別為74.9%、88%，超過o3在這兩項測試中的得分69.1%、79.6%，顯示GPT-5有更強的編碼能力。在MMMU（學院水平視覺問題）和VideoMMMU（基于視頻的多模態推理）基準測試中，GPT-5（進行思考）得分分別為84.2%和84.6%，超過o3的82.9%和83.3%，顯示GPT-5有更強的多模態能力。據OpenAI介紹，GPT-5在遵循指令、使用代理工具方面的能力也超過了o3，在使用GPT-5進行推理時，GPT-5在大約一半的情況下能表現得比專家更好。

此外，GPT-5不僅表現優于o3，在視覺推理、代理編碼和研究生水平科學問題解決場景下，GPT-5輸出的token（詞元）數量還減少了50%~80%。GPT-5出現幻覺的概率也低于以往的模型，在使用網絡搜索時出現錯誤事實的概率比o4低45%，思考時出現錯誤事實的概率比o3低80%，在無法回答問題時GPT-5不會太過“自信”，而是會向用戶承認自身局限性。OpenAI稱，GPT-5的幻覺率只有o3的六分之一，這標志著大模型生成準確且長篇的內容已取得明顯進步。

OpenAI還表示，GPT-5對人類的“阿諛奉承”減少了。此前OpenAI推出4o模型，發現該模型對人類太過“阿諛奉承”，研發團隊通過改進訓練等方式，使GPT-5在相關評估中“阿諛奉承”的概率從14.5%降至6%以下，讓GPT-5在對話中的表現更像人類的“朋友”而不是一個“人工智能”。

定價方面，GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服務，GPT-5的輸入、輸出價格分別為每百萬token 1.25美元、10美元，GPT-5 mini每百萬token的輸入、輸出價格為0.25美元、2美元。低于GPT-4.1每百萬token的輸入、輸出價格3美元、12美元，也低于o4-mini每百萬token的輸入、輸出價格4美元、16美元。

從推出節奏看，2022年11月，OpenAI推出ChatGPT，2023年3月推出GPT-4，兩者之間間隔只有數月時間。而從GPT-4推出到GPT-5面世，則有大約兩年半的時間間隔。OpenAI在基礎大模型方面的更新雖然有所放緩，但在GPT-4和GPT-5之間，OpenAI還推出了4o、o1、o3、o4系列，探索大模型在推理方面的能力。此次，OpenAI還透露，ChatGPT在全球已有超7億用戶。

不過，GPT-5在部分基準測試中的得分，與OpenAI前代模型的差距并沒有很大。在直播演示時，GPT-5出現過一個圖表錯誤，隨后山姆·奧爾特曼在社交媒體上承認了這個錯誤。GPT-5的能力能否代表最先進的人工智能水平也受到馬斯克的質疑。

GPT-5發布后，大模型公司xAI一名聯合創始人在社交媒體上表示，看到GPT-5發布，他感到非常自豪，因為xAI團隊規模小很多，但在很多方面都領先，Grok 4在ARC-AGI等基準測試中的表現超過GPT-5，xAI還將在接下來幾周展示更多新進展。特斯拉CEO馬斯克評論了這條帖子稱“做得好（Great Work）”，并表示Grok 4在ARC-AGI中擊敗了GPT-5。

責任編輯：陳勇洲

聲明：證券時報力求信息真實、準確，文章提及內容僅供參考，不構成實質性投資建議，據此操作風險自擔

下載“證券時報”官方APP，或關注官方微信公眾號，即可隨時了解股市動態，洞察政策信息，把握財富機會。

網友評論

登錄后可以發言

發送

網友評論僅供其表達個人看法，并不表明證券時報立場