av免费网站在线观看,国产精品国产精品国产专区不,欧美日韩理论

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦！

消息一出，一個小時在X上的瀏覽熱度就達到了26萬！

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

據DeepSeek介紹，DeepSeek-V3.1是一款混合型模型，支持“思考模式”與“非思考模式”混合運行，用戶可以根據場景需求，靈活切換推理深度，效率和能力兩手抓。

得益于深度優化的訓練策略與大規模長文檔擴展，DeepSeek-V3.1在推理速度、工具調用智能、代碼和數學任務等方面均有顯著進步。

咱們先捋一下這次新版模型的幾大亮點：

·混合思考模式：通過切換對話模板，單一模型即可兼容思考與非思考兩種模式。

·更智能的工具調用：通過后訓練優化，模型在調用工具和完成Agent（智能體）任務方面的表現顯著提升。

·更高的思考效率：DeepSeek-V3.1-Think在回答質量上可與R1-0528媲美，同時響應速度更快。

官方放出的測試結果顯示，V3.1-Think AIME 2025（美國數學邀請賽2025版）得分88.4%，GPQA Diamond（高難度研究生級知識問答數據集的Diamond子集）得分80.1%，LiveCodeBench（實時編碼基準）得分74.8%，均優于老模型R1-0528的表現：87.5%、81.0%、73.3%。

而且，正如下圖所示（縱軸是輸出token數），V3.1-Think的輸出tokens反而大幅減少。

也就是說：V3.1-Think相較于老模型R1-0528，使用更少的tokens，但達到了相似或略高的準確率，在計算資源優化上的優勢很明顯。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

在軟件工程和Agent任務基準上的性能提升方面：

·SWE-Bench Verified，DeepSeek-V3.1得分66.0%，遠高于V3-0324的45.4%和R1-0528的44.6%，表明其在處理復雜代碼任務時更可靠。

·SWE-Bench Multilingual（多語言版本），DeepSeek-V3.1得分54.5%，大幅領先V3-0324的29.3%和R1-0528的30.5%。說明其在多語言支持上有很大進步，可能通過增加多樣化訓練數據實現，使其更適合全球開發場景。

·Terminal-Bench（使用Terminus 1框架的基準，量化AI Gent在終端（命令行）環境中完成復雜任務的能力，如腳本執行、文件操作或系統交互，模擬真實命令行工作流），DeepSeek-V3.1得分31.3%，優于V3-0324的13.3%和R1-0528的5.7%，在Agent框架下的效率提升，適合自動化運維或DevOps應用。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

需要注意的是，DeepSeek V3.1的本次更新，核心在于顯著增強了模型的智能體能力，尤其是在復雜推理和工具鏈協作場景下的實際表現。

此外，DeepSeek-V3.1搜索Agent、長上下文理解、事實問答和工具使用等領域的性能也表現強勢。

DeepSeek-V3.1（基于MoE架構，總參數671B，激活37B）在大多數基準上顯著優于R1-0528，在搜索Agent和長上下文任務上的平均提升約20-300%，尤其在工具使用（如xbench-DeepSearch）和事實QA（如SimpleQA）中領先，這意味著它適合構建AI Agent應用，如自動化搜索或代碼輔助。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

相比R1-0528（專注于推理但效率較低），DeepSeek-V3.1更注重平衡速度與質量，DeepSeek的“Agent時代” 正式拉開帷幕。

在Huggingface上，DeepSeek釋放出了更詳細的評估結果。

基于官方給出的與前代的測評比較，DeepSeek-V3.1在常規推理和知識問答任務（如 MMLU-Redux 和 MMLU-Pro）上，整體表現穩定提升，非思考和思考模式下的分數均高于V3舊版，基本接近行業頂尖大模型水平。

例如，在 HLE（Humanity’s Last Exam，搜索+Python 復合推理）任務上，DeepSeek-V3.1實現了 29.8% 的通過率，優于自家 R1-0528 版（24.8%），并接近 GPT-5、Grok 4 等國際一線大模型。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

雖然各大模型在評測細節上存在一定差異，但DeepSeek的表現仍具有說服力。

新版模型在網頁檢索、復合搜索和工具協同場景（BrowseComp、BrowseComp_zh、Humanity’s Last Exam Python+Search、SimpleQA）上有跨越式進步，中文網頁搜索和多模態復合推理分數顯著超越舊版本。在 SWE-Bench Verified代碼評測中，DeepSeek-V3.1以66.0%的成績大幅領先前代（44.6%），也與 Claude 4.1、Kimi K2等頂級模型保持同一水準。

在Terminal Bench終端自動化測試中，其得分也略高于GPT-5和o3等知名競品。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

與此同時，DeepSeek-V3.1在代碼生成和自動化評測（LiveCodeBench、Codeforces-Div1、Aider-Polyglot、SWE Verified、Terminal-bench）方面，得分也較前代顯著提升，特別是在智能體模式下，代碼任務通過率和自動化執行能力大幅增強。在AIME和HMMT等高級數學推理和競賽任務上，DeepSeek-V3.1的表現優于前代產品，思考模式下解題成功率大幅提升。

不過作為通用對話模型，V3.1 并未在所有維度超越前代產品——在部分常規對話和知識問答場景下，R1-0528 依然具有一定競爭力。

在具體的性能表現之外，DeepSeek發布新模型，一定會被外界密切關注的當然是價格。

這次，DeepSeek也沒有讓大家失望。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

Input API Price（輸入定價），分為兩種情況：

·Cache Hit（緩存命中）：0.07美元/百萬tokens。

·Cache Miss（緩存未命中）：0.56美元/百萬tokens。

Output API Price（輸出定價）為1.68美元/百萬tokens。

MenloVentures的風險投資人、前谷歌搜索團隊成員Deedy也發推大呼“鯨魚回來了”。（這哥們在X上有20萬粉絲，妥妥的科技界大V。）

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

除了價格良心之外，DeepSeek-V3.1還首次實現了對Anthropic API的原生兼容。

這意味著，用戶可以像調用Claude或Anthropic生態的模型一樣，將DeepSeek的集成進現有系統。無論是通過Claude Code工具鏈還是直接使用Anthropic官方SDK，開發者只需配置API地址和密鑰，即可在所有支持Anthropic API的環境下，使用DeepSeek-V3.1提供的推理和對話能力。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

從目前的反饋來看，外界對這次發布的反饋還是很好的，盡管它并非“拳打Grok4、腳踩GPT-5”的霸王龍，但它有明確的、清晰的側重點與優勢。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

更有意思的是，從兩天前DeepSeek默默發了V3.1-Base開始，網友已經再次驚嘆于DeepSeek發模型的節奏之舒適、態度之低調。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

在其他模型發布往往先炒作規格和性能數據的時候，DeepSeek反其道而行，直接放出模型文件讓開發者立即下載測試，然后再補充細節。高效、開發者友好。

DeepSeek官方剛剛突然宣布：我們發最新版本模型DeepSeek-V3.1啦

知識分享更多>>