日本一级片在线播放_亚洲九九精品_日本一区二区三区国产_日韩免费高清视频

首頁 > 汽車生活 > 汽車生活 > 復(fù)雜推理大模型OpenAI o1亮相,數(shù)學(xué)與代碼能力飛躍

復(fù)雜推理大模型OpenAI o1亮相,數(shù)學(xué)與代碼能力飛躍

發(fā)布時間:2024-09-16 16:25:38

平安證券近日發(fā)布AI動態(tài)跟蹤系列(三):復(fù)雜推理大模型OpenAI o1亮相,數(shù)學(xué)與代碼能力飛躍。

以下為研究報告摘要:

9月13日,OpenAI正式發(fā)布并上線o1系列模型o1-preview和o1-mini。

平安觀點(diǎn):

OpenAI計數(shù)器重置回1,o1系列開啟復(fù)雜推理序幕。本次OpenAI發(fā)布的是o1-preview(預(yù)覽版)和o1-mini(擅長STEM、更快、更便宜)兩個版本,ChatGPT付費(fèi)用戶和API用戶可以使用。根據(jù)OpenAI官網(wǎng)介紹,o1系列被定位為用于解決難題的推理模型。對于復(fù)雜的推理任務(wù)來說,OpenAI認(rèn)為o1是一個重大進(jìn)步,代表了AI能力的新水平,鑒于此,OpenAI將計數(shù)器重置回1并將此系列模型命名為OpenAI o1。OpenAI研究發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)(訓(xùn)練時計算)和思考時間(測試時計算)的增加,o1的性能會不斷提高。因此在體驗上,與此前模型不同點(diǎn)在于,OpenAIo1在作出反應(yīng)之前,需要像人類一樣,花更多時間思考問題。

o1基準(zhǔn)表現(xiàn)明顯優(yōu)于GPT-4o,數(shù)學(xué)與編碼能力實現(xiàn)飛躍。OpenAI實驗結(jié)果表明,在絕大多數(shù)推理任務(wù)中,o1的表現(xiàn)明顯優(yōu)于GPT-4o。尤其是在具有挑戰(zhàn)性的推理基準(zhǔn)上,o1實現(xiàn)了能力飛躍,1)數(shù)學(xué)能力:在美國數(shù)學(xué)奧林匹克(AIME2024)預(yù)選賽題目中,GPT-4o平均只能解決12%的問題,o1正式版達(dá)到平均74%的準(zhǔn)確率,在使用學(xué)習(xí)評分函數(shù)重新排名1000個樣本后準(zhǔn)確率達(dá)到93%,相當(dāng)于美國排名前500的學(xué)生水平。2)編碼能力:在競爭性編程問題(Codeforces)比賽中,o1-preview、o1分別超越了62%、89%的人類競爭者,而對比GPT-4o僅超過11%。3)特定專業(yè)領(lǐng)域能力:GPQA diamond測試(專門用于評估模型在化學(xué)、物理和生物學(xué)等領(lǐng)域的專業(yè)知識水平)中,o1不僅成功完成了測試,更是超越了人類專家的表現(xiàn),成為首個在GPQA diamond基準(zhǔn)上擊敗人類專家的AI模型。

o1引入思維鏈優(yōu)化邏輯推理,助力模型性能與安全提升。o1優(yōu)越能力的背后,核心突破在于運(yùn)用思維鏈(chain of thought)方法來處理復(fù)雜任務(wù),OpenAI介紹到,類似于人類在回答困難問題之前可能會思考很長時間,o1在嘗試解決問題時會使用思維鏈。通過強(qiáng)化學(xué)習(xí),o1學(xué)會打磨其思維鏈并改進(jìn)它所使用的策略。o1學(xué)會了識別和糾正錯誤,學(xué)會了將棘手的步驟分解為更簡單的步驟,學(xué)會了在當(dāng)前方法不起作用時嘗試不同的方法,此過程顯著提高了模型的推理能力。在OpenAI的一個官方演示中展示了o1-preview解答復(fù)雜問題的邏輯推理過程,o1-preview在過程中逐步顯示思考、翻譯問題、定義變量、理解問題、構(gòu)建方程、解方程等與人類推理相似的步驟,最終輸出結(jié)論。同時,OpenAI認(rèn)為思維鏈推理也為大模型安全性的提升提供了新思路,o1-preview在關(guān)鍵越獄評估和用于評估模型安全拒絕邊界的最嚴(yán)格內(nèi)部基準(zhǔn)上取得了顯著的改進(jìn)。

投資建議:OpenAI推出專攻難題的o1系列大模型,應(yīng)對復(fù)雜推理任務(wù),o1引入思維鏈(Chain of Thought)提升邏輯推理能力,絕大多數(shù)基準(zhǔn)表現(xiàn)不僅明顯超越GPT-4o,而且在數(shù)學(xué)與編碼能力上實現(xiàn)了重要飛躍,在理化生等專業(yè)領(lǐng)域的知識水平也達(dá)到新高度。OpenAI的動向始終引領(lǐng)全球大模型的發(fā)展,我們認(rèn)為o1的正式亮相有望開啟復(fù)雜推理大模型的序幕,一方面對算力提出了更大需求,同時也將賦能下游AI應(yīng)用(如編程、教育)的快速迭代。我們堅定看好AI主題的投資機(jī)會:1)算力方面,推薦工業(yè)富聯(lián)、浪潮信息、中科曙光、紫光股份、神州數(shù)碼、海光信息、龍芯中科,建議關(guān)注寒武紀(jì)、景嘉微、軟通動力;2)算法方面,推薦科大訊飛;3)應(yīng)用場景方面,強(qiáng)烈推薦中科創(chuàng)達(dá)、恒生電子、盛視科技,推薦金山辦公,建議關(guān)注萬興科技、福昕軟件、同花順、彩訊股份;4)網(wǎng)絡(luò)安全方面,強(qiáng)烈推薦啟明星辰。

汽車生活更多>>

吉利銀河星耀8:以豪華平權(quán),再創(chuàng)“爆款” 奇瑞混動技術(shù)大秀,沖擊1升油耗 上汽之夜:技術(shù)平權(quán)定義出行文明,中國方案重構(gòu)全球汽車秩序 汽車智能化狂飆遭質(zhì)疑,上汽要用更懂用戶的方式步入下半場 50萬買奧迪S5,修車比保養(yǎng)還勤,奧迪售后該醒醒了! 智能化內(nèi)卷時代,英仕派的“恰到好處”才是真香 盤點(diǎn):奇瑞汽車混動之夜上發(fā)布的新技術(shù)和新產(chǎn)品 奇瑞混動之夜:中國技術(shù)定義全球標(biāo)準(zhǔn),開源計劃引領(lǐng)產(chǎn)業(yè)革命 現(xiàn)在“出海”,理想汽車能找到“理想”的海外市場嗎? 車展為何誕生于上海? Gartner預(yù)測:2025年電動汽車出貨量將增長 17% 奇瑞風(fēng)云A9即將盲訂:超5米混動四驅(qū)中大型車 加拿大電動汽車退稅計劃提前終止,資金耗盡促車企自補(bǔ) 騰勢Z9GT第1萬輛正式交付:最快交付破萬的新能源豪華轎車 委員談AI+教育,“不怕學(xué)生用得多,怕他們不會用” 運(yùn)動與生活早已密不可分,他是身體力行的“體育人” 春運(yùn)開啟,昆明長水機(jī)場應(yīng)對即將到來的出入境客流高峰 深圳二手房交易量重新站上6萬套關(guān)口,樓市新政后連現(xiàn)5個“日光盤” 點(diǎn)燃數(shù)字引擎,加大場景創(chuàng)新,蘇州工行打造數(shù)字人民幣生態(tài)體系新篇章 他從上海到西藏定日,希望一點(diǎn)點(diǎn)平息孩子們心中的“余震” 比亞迪唐L插混版的全新升級,如何重新定義家用SUV? 小米YU7純電SUV來襲,3040萬價位能否引領(lǐng)新潮流? 堅守駕駛樂趣 進(jìn)階數(shù)字智能 寶馬集團(tuán)以堅實市場表現(xiàn)邁向新世代 阿斯頓·馬丁Vantage Roadster來襲,6.8秒敞篷開合,性能與顏值并存! 換裝新發(fā)動機(jī)并增加ABS,新大洲本田NS125LA升級 多項功能升級 長安啟源E07迎1.1版本OTA升級 比亞迪夏入局MPV,GL8、塞納、夢想家等曾經(jīng)的優(yōu)勢車型該如何應(yīng)對 敞篷開/關(guān)只要6.8s?兄弟們先看看!沒準(zhǔn)今年就開上了! 2025年溫州市財稅會計學(xué)校招聘公告 2025年杭州市第三人民醫(yī)院招聘工作人員公告