刊登日期 : 2025-02-05
素来由美国强势主导的人工智能(AI)发展,业界近来出现一位超新星,它就是来自中国的DeepSeek。
DeepSeek的AI模型一改主流的“大力出奇迹”,走出“小而强”新路线,性能持平下,据称成本只有主流的30分之一。
DeepSeek的崛起,也令“80后”创办人梁文锋的风头一时无两,他有什么特别呢?
DeepSeek硬撼OpenAI

2025年1月底,默默无名、总部位于浙江杭州的AI公司“DeepSeek”(深度求索)发布了推理模型“DeepSeek-R1”,在测试中媲美“地表最强”OpenAI的AI模型,开发成本却只有数百万美元,性价比极高。
要知道,现时主流AI模型的发展堪称是“军备竞赛”,为追求更高性能,体积不断膨胀,参数数量指数级增加,并且需要非常惊人的能源消耗和训练成本,耗费动辄数以十亿美元计。
但DeepSeek另辟蹊径,不依赖最先进的硬件,通过聪明的工程设计及高效的训练方法,利用剪枝、量化、知识蒸馏等一系列创新技术,成功实现“瘦身”。
DeepSeek创办人梁文锋是谁?

DeepSeek的创办人是“80后”的梁文锋,他还有另一个身份,就是对冲基金“幻方量化”的创办人。
梁文锋自幼就展现出卓越的数学才能,大学时期已经编写涉及人工智能的演算法去选股投资。2013年,梁文锋成立投资公司,2年后再与同学一同创办幻方量化,后者迅速成为中国最大的量化基金之一,致力于透过人工智能进行量化投资。
幻方量化的资产管理规模在2021年一度突破1000亿元人民币大关,跻身国内量化私募领域龙头之列。
到了2023年,AI热潮在全球爆发,梁文锋宣布转变赛道进军AI,DeepSeek在同年7月正式成立。
DeepSeek以独特管理方式推动创新

据指,DeepSeek共有百多名研发人员,但人才密度极高,且大多是在中国本土培养,例如是清华、北大等高校的应届生、在读生,被形容是“只招1%的天才,去做99%中国公司做不到的事情。”
事实上,“DeepSeek-R1”的诞生过程亦非常有趣,其降低成本的关键架构“MLA”,最初竟是来自一位年轻研究员的个人兴趣。
据梁文锋透露,原来公司架构全都是自下而上,实行“自然分工”,组内成员没有上下级关系,各自负责最擅长的部分。当事情有新进展的时候,才会自上而下地去调配资源。
此外,该公司对于AI晶片和人手的调集非常灵活。如果有想法,每个人随时都可以调用AI晶片,无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人手。
梁文锋表示,之所以能够推行如此松散的制度,是取决于筛选到一批由热爱驱动工作的人,公司选人标准一直都是热爱和好奇心,所以不少员工会有一些奇特的经历,很有意思,很多人更是对研究有强大的渴望,远超对金钱的在意。