最近中文字幕完整版免费,久久视频精品53在线观看,国产美女精品一区二区三区

平安證券近日發(fā)布AI動態(tài)跟蹤系列（三）：復(fù)雜推理大模型OpenAI o1亮相，數(shù)學(xué)與代碼能力飛躍。

以下為研究報告摘要：

9月13日，OpenAI正式發(fā)布并上線o1系列模型o1-preview和o1-mini。

平安觀點(diǎn)：

OpenAI計數(shù)器重置回1，o1系列開啟復(fù)雜推理序幕。本次OpenAI發(fā)布的是o1-preview（預(yù)覽版）和o1-mini（擅長STEM、更快、更便宜）兩個版本，ChatGPT付費(fèi)用戶和API用戶可以使用。根據(jù)OpenAI官網(wǎng)介紹，o1系列被定位為用于解決難題的推理模型。對于復(fù)雜的推理任務(wù)來說，OpenAI認(rèn)為o1是一個重大進(jìn)步，代表了AI能力的新水平，鑒于此，OpenAI將計數(shù)器重置回1并將此系列模型命名為OpenAI o1。OpenAI研究發(fā)現(xiàn)，隨著強(qiáng)化學(xué)習(xí)（訓(xùn)練時計算）和思考時間（測試時計算）的增加，o1的性能會不斷提高。因此在體驗上，與此前模型不同點(diǎn)在于，OpenAIo1在作出反應(yīng)之前，需要像人類一樣，花更多時間思考問題。

o1基準(zhǔn)表現(xiàn)明顯優(yōu)于GPT-4o，數(shù)學(xué)與編碼能力實現(xiàn)飛躍。OpenAI實驗結(jié)果表明，在絕大多數(shù)推理任務(wù)中，o1的表現(xiàn)明顯優(yōu)于GPT-4o。尤其是在具有挑戰(zhàn)性的推理基準(zhǔn)上，o1實現(xiàn)了能力飛躍，1）數(shù)學(xué)能力：在美國數(shù)學(xué)奧林匹克(AIME2024)預(yù)選賽題目中，GPT-4o平均只能解決12%的問題，o1正式版達(dá)到平均74%的準(zhǔn)確率，在使用學(xué)習(xí)評分函數(shù)重新排名1000個樣本后準(zhǔn)確率達(dá)到93%，相當(dāng)于美國排名前500的學(xué)生水平。2）編碼能力：在競爭性編程問題（Codeforces）比賽中，o1-preview、o1分別超越了62%、89%的人類競爭者，而對比GPT-4o僅超過11%。3）特定專業(yè)領(lǐng)域能力：GPQA diamond測試（專門用于評估模型在化學(xué)、物理和生物學(xué)等領(lǐng)域的專業(yè)知識水平）中，o1不僅成功完成了測試，更是超越了人類專家的表現(xiàn)，成為首個在GPQA diamond基準(zhǔn)上擊敗人類專家的AI模型。

o1引入思維鏈優(yōu)化邏輯推理，助力模型性能與安全提升。o1優(yōu)越能力的背后，核心突破在于運(yùn)用思維鏈（chain of thought）方法來處理復(fù)雜任務(wù)，OpenAI介紹到，類似于人類在回答困難問題之前可能會思考很長時間，o1在嘗試解決問題時會使用思維鏈。通過強(qiáng)化學(xué)習(xí)，o1學(xué)會打磨其思維鏈并改進(jìn)它所使用的策略。o1學(xué)會了識別和糾正錯誤，學(xué)會了將棘手的步驟分解為更簡單的步驟，學(xué)會了在當(dāng)前方法不起作用時嘗試不同的方法，此過程顯著提高了模型的推理能力。在OpenAI的一個官方演示中展示了o1-preview解答復(fù)雜問題的邏輯推理過程，o1-preview在過程中逐步顯示思考、翻譯問題、定義變量、理解問題、構(gòu)建方程、解方程等與人類推理相似的步驟，最終輸出結(jié)論。同時，OpenAI認(rèn)為思維鏈推理也為大模型安全性的提升提供了新思路，o1-preview在關(guān)鍵越獄評估和用于評估模型安全拒絕邊界的最嚴(yán)格內(nèi)部基準(zhǔn)上取得了顯著的改進(jìn)。

投資建議：OpenAI推出專攻難題的o1系列大模型，應(yīng)對復(fù)雜推理任務(wù)，o1引入思維鏈（Chain of Thought）提升邏輯推理能力，絕大多數(shù)基準(zhǔn)表現(xiàn)不僅明顯超越GPT-4o，而且在數(shù)學(xué)與編碼能力上實現(xiàn)了重要飛躍，在理化生等專業(yè)領(lǐng)域的知識水平也達(dá)到新高度。OpenAI的動向始終引領(lǐng)全球大模型的發(fā)展，我們認(rèn)為o1的正式亮相有望開啟復(fù)雜推理大模型的序幕，一方面對算力提出了更大需求，同時也將賦能下游AI應(yīng)用（如編程、教育）的快速迭代。我們堅定看好AI主題的投資機(jī)會：1）算力方面，推薦工業(yè)富聯(lián)、浪潮信息、中科曙光、紫光股份、神州數(shù)碼、海光信息、龍芯中科，建議關(guān)注寒武紀(jì)、景嘉微、軟通動力；2）算法方面，推薦科大訊飛；3）應(yīng)用場景方面，強(qiáng)烈推薦中科創(chuàng)達(dá)、恒生電子、盛視科技，推薦金山辦公，建議關(guān)注萬興科技、福昕軟件、同花順、彩訊股份；4）網(wǎng)絡(luò)安全方面，強(qiáng)烈推薦啟明星辰。

日本一级片在线播放_亚洲九九精品_日本一区二区三区国产_日韩免费高清视频

復(fù)雜推理大模型OpenAI o1亮相，數(shù)學(xué)與代碼能力飛躍

汽車生活更多>>