中咨視界
包英群 等 | DeepSeek現象對中咨公司推進數智化轉型的啟示
| |||||
| |||||
DeepSeek現象對中咨公司 推進數智化轉型的啟示 包英群 李曉鳴 袁云飛 摘要:DeepSeek現象對國內外相關行業產生了巨大沖擊,相關話題熱度持續攀升。本文結合DeepSeek現象,深入分析大模型的發展歷史、底層技術機理,闡述DeepSeek的創新點及其帶來的啟示,進一步明確了中咨公司數字化項目在大模型應用、系統搭建和軟件開發方面堅持的三大系列原則,同時提出了“信息化、數字化、數智化”的發展愿景,旨在以數智化手段賦能咨詢工作,不斷鞏固國家高端智庫的戰略地位。 一、數字化項目前期工作進展和未來展望 (一)數字化項目前期進展 中咨數字化項目已取得階段性成果,主要體現在以下幾個方面: 1.基礎設施方面。完成了現有機房改造及新大樓機房建設,購置了較為先進、適度超前的基礎軟硬件。 2.數據底座方面。建設了支持綜合查詢及可視化展示的中國統計庫,構建了基于業務資料的可擴展知識庫應用,推動管理類數據的全面融通。 3.工具和應用開發。開發了可編輯的網狀圖、思維導圖、熱力地圖等工具,為供應鏈、產業演進、競合等部門級應用提供支撐。 4.量化模型方面。研發了具有自主知識產權的量化模型,避免過度依賴國外軟件的現象。 5.AI咨詢實驗室方面。開發了研究報告生成助手、制度問答助手、知識庫助手、經營統計助手等系列應用。2025年春節后的第一周,在本地部署了DeepSeek-R1蒸餾的千問32B開源大模型。 (二)數字化項目的未來展望 中咨數字化項目致力于實現從“能用”到“好用”再到“智用”的轉變,努力打造一個更加智能、高效、協同的工作環境,為公司的持續發展提供有力支撐,逐步實現從“信息化”到“數字化”再到“數智化”的跨越。未來建設效果主要體現在以下五個方面: 一是基礎設施全面升級,助力高效運營。分批次完成機房改造建設,優化運行環境;完成全部基礎軟硬件上架部署,大幅提升計算能力和存儲能力,構建AI算力平臺;建設三級等保的網絡安全體系,確保系統安全穩定。 二是構建數據中臺,實現數據共享和決策加速。完成公司40余年業務資料的數字化和向量化,完成現有管理域系統歷史數據的清理、整合和遷移,形成統計數據庫。實現統一管理和共享數據,初步解決“信息孤島”和“數據煙囪”問題,不斷豐富數據底座;實現中咨數據融合查詢與調閱,無論是公文資料、項目數據、行業數據、歷史業務資料等,員工都可以通過簡單搜索迅速獲取,提高工作效率。 三是打造算法模型庫,賦能業務創新。完成常用算法模型的雙代碼開發,打破國外技術依賴,搭建起自主知識產權的量化分析算法模型庫。提供統計分析工具,構建個性化數據分析應用,助力項目經理使用專業量化工具產出高質量研究報告,營造“不量化不研究”的環境;輸出中咨標準,提升行業話語權和影響力;利用數字化平臺,開展數智咨詢業務,成為公司高質量發展新的增長極。 四是打造中咨AI大腦,提升智能化水平。初步構建通、專融合的AI賦能應用體系,打造一批智能化應用場景,讓AI成為每位員工的智能助手,逐漸實現數據智能歸類、知識智能推薦、業務智能聯動和“事情推著人走”的事件驅動業務模式,提升管理和業務工作的智能化水平。 五是全方位優化各類應用,打造個性化工作環境。基于共性支撐平臺和系列工具集,充分集成和融合AI能力。打造“千人千面”工作臺,依角色和場景需求,自主搭建數據看板,管理層可實時查看經營指標、業務人員聚焦項目進度,實現精準賦能;實現知識傳承體系化,打造個人、部門、公司三級知識庫,促進知識積累沉淀,借助智能搜索縮短人才培養周期,輔助快速開展咨詢服務;靈活響應管理與業務需求,利用自定義流程引擎、自定義表單、低代碼平臺等共性構件和工具集自主搭建各類應用,減少系統二次開發。 二、DeepSeek現象 (一)背景情況 2023年5月,幻方量化基金創始人梁文鋒投資成立人工智能企業DeepSeek。2024年5月,該公司開源發布第二代大語言模型(V2),該舉措直接引發行業大模型市場價格跳水。同年12月發布的第三代模型(V3)在大模型主流評測榜單中位居前列。2025年1月20日,DeepSeek宣布推出對標GPT-o1的DeepSeek-R1模型,并同步了開源模型權重、公布了模型技術方案。同日,梁文鋒出席了李強總理主持的座談會并發言。 DeepSeek-R1發布后,引發AI大模型行業震動,歐美AI產業主要公司股票紛紛下跌,尤其是英偉達(NVIDIA)單日市值下跌近17%(約6000億美元),創美股最高記錄。2025年1月28日,前谷歌CEO埃里克?施密特表示DeepSeek的崛起是全球AI競賽的轉折點,OpenAI CEO山姆?奧特曼同期表態認可其技術路線。此后,歐美AI巨頭紛紛宣布上線DeepSeek服務。 (二)DeepSeek現象分析 DeepSeek僅用了幾分之一的成本做出了與GPT-o1性能接近的大模型,這一成果對全球而言無疑是一個震撼,有人稱之為國運級科技成果,但隨之而來的是圍繞“DeepSeek是國運級成果還是抄襲造假”的討論: 支持觀點認為,DeepSeek是國運級科技成果。DeepSeek已經開源,在美國對英偉達芯片限售、基礎算力不足的前提下,通過技術創新以低成本實現了接近OpenAI的效果。雖然低成本并非像網傳的那樣,不是550萬美元對幾百億和幾千億美元的差別,但DeepSeek訓練成本僅為美國人的幾分之一基本屬實。 反對觀點認為,DeepSeek涉嫌抄襲、數據造假、數據安全。但經分析研判,對于這些指控應該不成立。一是關于抄襲指控不成立。DeepSeek論文中公布的參數量為671B,如此巨大的參數量使其難以直接抄襲現有模型。GPT-3及后續產品均為閉源,源代碼不可見,無法直接復制。DeepSeek可能從OpenAI的產品中蒸餾數據用于訓練,此舉名義上違反了OpenAI的商業協議。然而,這更像是口水仗,例如OpenAI擁有《紅樓夢》的知識,并不擁有《紅樓夢》等公共知識的知識產權。二是數據造假指控不成立。DeepSeek的論文和模型已開源,科研人員可以輕松驗證其低成本訓練的真實性。雖然未計算數十億元的基礎設施投入、人工費等成本,但相對較低的訓練成本是事實。三是數據安全指控不成立。這方面指控可能更多出于政治方面的考慮,例如華為、字節跳動此前也遭遇過同樣的指控。 (三)DeepSeek現象對國內咨詢行業的沖擊 早在2023年,以GPT-3為代表的人工智能大模型的出現,對全球各行業帶來了顯著沖擊。美國編劇協會甚至在紐約和洛杉磯舉行了抗議游行。在大模型出現后,用戶需求質量的提高和咨詢效率的提升都是必然的,就像從馬車到汽車的轉變,從紙筆手寫報告到電腦文檔處理的轉變,不適應新技術終將被淘汰。 三、人工智能發展歷程和大模型的技術原理 (一)發展歷程 從人工智能的發展來看,最初可以分為兩個主要陣營:符號人工智能和以感知機為雛形的亞符號人工智能。 符號人工智能其基本假設是智能問題可以通過“符號推理”過程解決,這一理論可追溯至法國科學家帕斯卡和德國數學家萊布尼茨。帕斯卡于1642年設計并制作了世界上第一臺數字計算器,而萊布尼茨完善了二進制。智能機器的概念起源于英國的查爾斯?巴貝奇和艾倫?圖靈的開創性工作,尤其是圖靈提出的邏輯機通用模型——圖靈機,奠定了現代計算機的理論基礎,并提出了評估機器是否智能的標準,即圖靈測試。 亞符號人工智能其出現歸功于行為主義認知理論的崛起,其思想基礎是“刺激-反應理論”。美國心理學家羅森布拉特在神經元模型的基礎上提出了感知機模型,奠定了神經網絡的基礎。 算法是計算能力和符號演算的邏輯基礎。人工智能模型的訓練需要訓練集和驗證集:訓練集用于灌入海量知識,驗證集則用于在已知答案的情況下讓模型進行判斷。如果模型輸出正確,則強化獎勵;如果錯誤,則修正模型的輸出,這一過程即為調參。 面對一個未知內部構造的對象,如何推斷其特征?信號處理領域已提出有效方法,其中最著名的是傅里葉變換。傅里葉提出,黑箱的輸入函數與特征函數的卷積等于輸出函數。傅里葉變換將復雜的積分求解轉化為頻域中兩個函數的乘積,從而通過逆運算推算黑箱的特征函數。200年后,人工智能深度學習在傅里葉變換基礎上,構建多層神經網絡,參考傅里葉變換的逆運算思想求解特征函數。人工智能的核心依賴于算力和算法,對于世界究竟是什么樣的,機器自己是沒有真實感知的。學者們找到了一個退而求其次的路徑,即通過構建“目標函數”對真實問題建模,通過機器求解特征函數。 2023年,GPT-3通過分析網絡上的海量文字,預測單詞間的關聯,表現出令人驚嘆的能力。盡管有報道稱它能“直接理解”自然語言,但其實它只是通過“見多識廣”快速生成文本,并不具備真正的理解能力,無法像人類一樣認知復雜的語義或文化背景,也缺乏超越語言的生活常識和全人類共識。 1956年由約翰·麥卡錫聯合香農、明斯基、羅徹斯特等人共同發起的達特茅斯會議是計算機科學的一個里程碑,也是人工智能發展史的重要事件。麥卡錫在會上首次提出“人工智能”概念,確立了研究目標,使其成為計算機科學中一門獨立的學科。盡管當時計算機性能落后,但麥卡錫等人仍對人工智能的實現充滿信心。會上,數學家主張用數學邏輯和演繹推理作為理性思維的語言,另一些人則支持通過歸納法從數據中提取統計特征并用概率處理不確定性,還有人主張從生物學和心理學中汲取靈感。這些爭論持續至今,其成果的融合形成了現代人工智能技術。達特茅斯會議后,符號人工智能陣營占據主導地位。20世紀60年代初,明斯基、麥卡錫、西蒙與紐厄爾分別在麻省理工、斯坦福和卡內基梅隆創建了具有影響力的實驗室,這些機構至今仍是全球人工智能研究的高地。 1969年,明斯基與同事出版了《感知機》一書,指出感知機的能力有限,但通過增加神經元“層”可顯著增強其能力,從而形成多層神經網絡。然而,由于缺乏通用算法和算力支持,多層神經網絡的研究未能廣泛展開。1971年,感知機理論的提出者羅森布拉特去世后,相關研究陷入停滯。計算能力不足曾使多層神經網絡發展受阻,但硬件算力的持續進步為人工智能注入了新動力。1975年,19歲的比爾?蓋茨從哈佛大學退學,與保羅?艾倫共同創立微軟,正是看準了計算機硬件快速發展的潛力。2025年是摩爾定律提出60周年,硬件能力每1.5年翻一番,60年來算力提升顯著。2010年后,深度學習成為人工智能主流范式,谷歌創始人拉里?佩奇和謝爾蓋?布林通過“谷歌大腦”團隊推動了這一技術的發展。 (二)人工智能的主要技術點 1.神經網絡 神經網絡是人工智能的核心技術,通過多層神經元的連接,神經網絡能夠捕捉復雜的模式。以手寫數字識別為例,假設要識別一個28×28像素的手寫數字,傳統方法會先分析圈和線段的特征,比如9可以切分成一個o和一個線段,但直接從784個像素判斷這些o和線段的特征跨度較大。于是,可以將圈拆分為小弧線,線段拆分為更小的線段,逐層分析。神經網絡的工作原理可以分為幾步:第一層處理784個像素的灰度值,第二層提取小弧線和小線段的激活度,第三層提取圈或線段的激活度,最后一層輸出0-9的識別結果。一個四層神經網絡的參數量約為13000個。 圖1 神經網絡識別示意 與傳統技術不同,神經網絡的中間隱藏層(如第二層和第三層)的工作機制并不完全可知,科學家們無法明確解釋隱藏層如何處理信息,但通過大量訓練,神經網絡能夠自動學習并識別模式。在訓練過程中,輸入已知的像素值和正確的輸出結果,利用傅里葉逆變換思想求解黑箱的特征函數,這相當于大模型通過訓練集和驗證集進行學習。整個神經網絡可以看作一個函數,其參數(權重和偏差)通過矩陣計算捕捉特定模式。大模型的基本原理也與此類似。 2.Transformer框架 傳統自然語言處理技術存在梯度消失、無法支持長序列、信息衰減等問題,限制了其發展。2017年,谷歌大腦團隊提出了Transformer框架,其核心是自注意力機制,能夠捕捉長距離依賴關系并支持并行計算。 例如,在處理“下雨了,出門記得帶雨傘”時,傳統技術會因詞序衰減而降低了“下雨”與“雨傘”之間的關聯度,而Transformer框架通過自注意力機制記錄位置信息,使相關詞在向量空間中靠近,從而準確關聯。此外,GPU在處理Transformer提出的并行計算這類任務時表現出色,這也是GPU在AI領域爆火的原因。 3.大模型機器學習 大模型應用分為三個環節:預訓練、微調和推理。預訓練方面,通過訓練集賦予模型通用知識,類似于學校教育。使用的模型架構、訓練數據、訓練方法不同,模型能力也會有差異,這一階段成本較高,例如OpenAI訓練GPT-3的成本高達1200萬美元。微調方面,在預訓練基礎上針對特定任務(如法律、醫學)進行的進一步訓練,成本一般不到預訓練的10%,但微調成果難以復用至其他模型,不同模型通常需要多次微調,效果和性價比等方面還存在一定的爭議。推理方面,是使用訓練好的模型對新數據進行預測的過程,成本在一千萬以內即可起步。 圖2 大模型應用環節示意 4.RAG和向量數據庫 RAG(檢索增強生成)是一種結合檢索和生成機制的技術,適用于需要高準確性場景。其核心是通過向量庫構建私有數據庫,實現基于語義和上下文的檢索,而非關鍵詞匹配。公司數字化項目中已經開發了資料向量化軟件,項目經理可以將資料存入向量庫,構建可擴展的個人、公開知識庫。 5.算力卡和工具集 在算力服務器領域,全球主要有兩個生態:英偉達和華為。英偉達的生態在全球范圍內廣泛采用,國內許多GPU和算力服務器廠商也以英偉達為標桿;華為的昇騰系列則因技術封鎖等限制,需自主研發工具和協議,生態體系明顯受到了很多制約,相對規模較小。例如,英偉達使用PyTorch、CUDA和InfiniBand,而華為則自主開發MindSpore、CANN和RoCE。 截至2023年底,中國眾多企業聲稱自主研發的大模型數量達200余個,這一現象被稱為“百模大戰”。然而,多數公司僅購買算力服務器,對開源模型(如LLaMA2)進行微調或不做微調,僅開發Agent智能體,便宣稱“自研國產大模型”,利用品牌口碑占領市場、尋求政策支持。斯坦福2024年報告顯示,中國僅有20個基礎模型,遠低于美國的109個。有專家指出,所謂“自研”大模型不少是套殼。 相比之下,DeepSeek成為一股清流,其開源技術和大模型為科研人員提供了驗證和重現的機會,有助于整個行業降低成本、提高效率。在OpenAI閉源、英偉達限制芯片供應、特朗普政府星門計劃的背景下,DeepSeek以較小成本打造全球第二的大模型,證明“技術壁壘沒有想象的那么大,錢也不一定那么花?!?/p> 四、DeepSeek的技術創新點 DeepSeek的創新點眾多,主要體現在以下幾個方面: 1.多頭潛在注意力機制 這是一種減少計算量和壓縮訓練內存的機制。如圖書檢索,傳統方法是為每本書都建立完整的索引和摘要,而DeepSeek的方法則像是建立了一個智能分類系統,先記一個簡單的“標簽”,需要時再從標簽還原出詳細信息,類似于將“計算機技術、三樓右側第二排”簡化為“C2-3”編碼。 2.混合專家模式 根據任務的需要,模型會動態地激活專家子集,共享專家處理通用特征,路由專家處理特定任務,未被激活的專家不會占用計算資源。以數學問題為例,傳統模式中可能整個數學內容都由同一個“數學專家”處理。在DeepSeek的混合專家模式中,共享專家會處理句子的語法結構和通用特征,不同的路由專家則分別處理方程識別、判別式計算、求根公式相關的數學特征等。 3.多Token預測機制 傳統方法逐個Token預測,導致文本生成不連貫,且效率較低。DeepSeek同時預測多個Token,可以有效提升生成文本語義上的連貫性和輸出的流暢度。 4.PTX連接底層GPU CUDA是英偉達的框架,而PTX是CUDA的底層指令集架構。DeepSeek通過直接編寫PTX代碼,顯著提升了GPU的利用率和傳輸效率,不僅有助于減少對英偉達GPU數量的依賴,更在硬件層調度上積累了進一步推動國產GPU產業鏈發展的經驗。 嚴格說,DeepSeek的創新模式,在本質上未展現出超越現有Transformer框架的原始理論,仍然只是在既有的技術體系內的深耕和打磨。但是DeepSeek的創新極具工匠精神,為全球人工智能技術的推進起到了極大的促進作用。 五、DeepSeek現象帶來的啟示和數字化項目推進的原則 (一)DeepSeek帶來的啟示 一是開源大模型不一定比閉源大模型或者商用大模型差。 二是大模型應用不一定依賴天量的、高配的算力;大模型本地化部署是具備可能性的。 三是人工智能技術迭代迅猛,數字化發展中心寧愿多花力氣、以我為主、打好基礎,追求將來可以靈活選擇和切換,而不應綁死在某個大模型或者硬件上。 (二)中咨公司大模型應用原則 中咨公司數字化項目的大模型應用原則是:支持多種開源大模型、適配多種算力服務器、構建本地的知識庫、不斷豐富和擴展個人知識庫、聚焦開發Agent應用和低代碼平臺。 在中咨公司的數字化項目建設中,數字化發展中心堅持將大模型和數據采用本地化部署策略,確保數據安全和核心競爭力。部署商用大模型部署成本高昂,且會在當前大模型技術日新月異的階段過早鎖死技術路線,因此項目最終選擇了開源大模型本地化部署,并采用松耦合設計,可以靈活地選擇任一大模型進行應用。目前,項目已經適配了多種開源大模型和算力服務器。這次DeepSeek現象表明,數字化項目確定的大模型使用的一系列原則是正確的。 (三)數字化項目的其他原則 按照同樣的思路,數字化發展中心制定了公司數字化項目其他兩個系列的原則: 1.系統搭建方面 構建由關系型數據庫、圖數據庫和向量庫等組成的大規模數據底座,構建可擴展知識庫,提升知識庫應用價值;建設泛構件化平臺和數據中臺,將應用軟件工具化,研發多工具和小應用,搭建低代碼或零代碼平臺,實現快速搭建各類應用。 2.軟件開發方面 定制軟件開發需掌握源代碼和知識產權,軟件開發需兼容國產芯片、國產數據庫和國產操作系統等國產化環境,模型可遷移、可復用、可共享。 六、結束語 本項目應用大模型的路線規劃:第一階段,即當前項目處于此階段,聚焦免費開源大模型的本地化部署,在確保數據不外流的前提下,可以輔以對接商用大模型的流量訪問。第二階段,在大模型市場競爭格局明朗后,挑選持續更新且性價比高的大模型,進行商用本地化部署,視情況開展微調工作。生成式大模型存在局限性,“生成”與“幻覺”像硬幣的正反面相伴而生。開發中發現,允許發散的研究報告生成助手較易實現,但需要嚴格精確的制度問答助手在消除幻覺時難度大,正逐步探索解決方案。 公司數字化工作需要全體員工共同參與,積極搭建個性化應用,分享經驗并提出優化建議;構建可擴展的知識庫,豐富公司數據庫;積極使用圖譜工具和量化模型,形成“不量化不研究”的工作習慣。 數字化發展中心將繼續做好技術支撐工作,以期盡早實現“人人可構建知識庫,人人可開發應用”的愿景。 注:文中部分圖片來源于網絡,版權歸原作者所有,若有侵權請聯系刪除。 | |||||
相關鏈接
- 王爽 甄霖 李文君 | 典型生態...2025-04-27
- 楊凱越 | 構建“戰略和價值”二...2025-04-22
- 楊凱越 | 構建“戰略和價值”二...2025-04-16
- 央視《焦點訪談》| 破壁壘 疏堵...2025-04-09
- 楊凱越 | 構建“戰略和價值”二...2025-04-07