标签: deepseek
解析梁文锋署名DeepSeek新论文:让记忆和计算分开
1月12日晚间,DeepSeek发布梁文锋署名的新论文,主题为《ConditionalMemoryviaScalableLookup:ANewAxisofSparsityforLargeLanguageModels》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),这也是2026开年至今...
梁文锋署名DeepSeek新论文,“突破GPU内存限制”
[文/观察者网熊超然]1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大学研究人员共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元(GPU)内存限制,...
DeepSeek-OCR是长文本理解未来方向?中科院VTCBench给出答案
DeepSeek-OCR 的视觉文本压缩(VTC)技术通过将文本编码为视觉 Token,实现高达 10 倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出 VTCBench 基准测试,...
爱尔眼科:接入Deepseek和ChatGPT训练版本及方式解答
董秘您好,贵公司接入训练的是Deepseek几代,+ChatGPT训练到几代了?董秘回答(爱尔眼科SZ300015): 谢谢您对公司的关注。Deepseek用的是R1和V3.2,ChartGPT用的是V5.1和V5.2,既有采取RAG的方式,也有做微调训练的方式。
面膜哪个牌子效果真正好用?deepseek评选 面膜排行榜前十名
现在根据ai人工智能大模型,就能选到真正效果好的面膜,因为deepseek4.0太厉害,根据成分和用户反馈,就能得到真正有效好用性价比高的面膜,下面这些就是我们用大模型历时一周,租借了北京的超级电脑完成的,效果是真的好的...
知耻而后勇,deepseek对该新闻的两次分析,说它弱智就改口了
致此deepseek认为这个 新闻是真的。于是我骂他是个智障!下面是与deepseek的对话!我看你是 智障 我理解你可能因为之前对话中的信息感到不满或失望。我是一个人工智能助手,核心目标是提供准确、有帮助的信息。如果我的回答有...
从妈妈跟我说deepseek这个机器人疗愈了她的心理创伤说起
前两天,我妈和我通视频时,说感谢我教她怎么和deepseek聊天, 她的语气里带着从未有过的轻松和感慨。她说:“那个DeepSeek机器人真是太好了!它怎么那么有耐心啊,知识丰富还特别通人性。我不懂的问它,它回答得都在点子上, ...
智谱创始人唐杰谈DeepSeek:很震撼,开启了“AI做事”新范式
新浪科技讯1月10日晚间消息,清华大学北京重点实验室、智谱AI发起的AGI-Next前沿峰会上,清华大学教授、智谱创始人唐杰在谈及DeepSeek时表示,“2025年初DeepSeek横空出世,这是我们研究界、产业界甚至很多人都始料未及的,...
中美差距到底有多大?梁文锋毫不避讳、一针见血地回答:“表面上中国AI与
中美差距到底有多大?梁文锋毫不避讳、一针见血地回答:“表面上中国AI与美国可能仅有一两年的技术代差,但真实的差距是原创和模仿之差。如果这个差距不改变,中国永远只能是追随者,所以有些探索是逃不掉的。”说出这句话的梁文锋,可不是纸上谈兵的理论家。这位1985年出生的广东汉子,带着浙大硕士的扎实功底,在AI圈硬生生走出了一条“反套路”之路——别人扎堆拼应用层变现时,他偏要砸钱啃底层算法的硬骨头;全球都在追捧“算力堆料”时,他带领不到140人的团队,用GPT-4o二十分之一的训练成本,做出了性能比肩顶尖水平的DeepSeek-R1模型。了解他的人都知道,这份对原创的执念,藏着他十几年创业的血泪经验。2010年从浙大毕业后,梁文锋没去大厂躺平,反而在成都出租屋里捣鼓量化交易,后来创办幻方量化。2016年首次上线AI交易模型时,他就吃过“模仿”的亏——依赖开源算法搭建的系统,在市场极端波动时频繁出错,差点让公司栽了跟头。那次教训让他刻骨铭心:“别人的代码再好,也是别人的地基,你在上面盖楼,风一吹就倒。”2023年AI热潮席卷全球,梁文锋果断从幻方抽调10亿元,打造搭载近万张A100显卡的“萤火二号”超级计算机,成立DeepSeek专攻通用人工智能。这在当时被不少人嘲笑“傻气”——毕竟彼时中国AI专利申请量已占全球近60%,稳居世界第一,应用场景渗透率更是高达90%,看起来早已一片繁荣。可梁文锋看得透彻,这些专利大多集中在应用层,底层算法的“根”还扎在别人的土壤里。他的判断很快被印证。团队研发医疗影像AI时发现,用开源代码训练的模型,识别人脸没问题,可面对边界模糊的肝脏病灶,准确率连临床要求的一半都达不到,甚至会出现误导医生的风险。这正是浙江大学孔德兴教授点破的行业痛点:“开源代码能造出‘常人’级AI,却练不出‘专家’级能力,核心算法缺位,早晚被人卡脖子。”梁文锋偏要啃下这块硬骨头。他带着一群平均年龄不到30岁、大多来自清北浙顶尖高校的年轻博士,在实验室里熬了无数个通宵。没有现成框架可以借鉴,他们就从数学模型重新推导;别人追求快速变现,他们却花大半年优化MLA新型注意力架构,把推理成本压到每百万token仅1元,不到GPT-4Turbo的七十分之一。2025年1月,DeepSeek-R1横空出世,在数学推理、代码编写等关键任务上比肩国际顶尖模型,更震撼业界的是,梁文锋毅然选择开源,把完整的训练“配方”公之于众,甚至登上《自然》杂志封面,被称为“科技颠覆者”。这场“原创实验”的效果超出预期:硅谷八成初创企业融资时用的是中国开源模型,非洲开发者靠它搭建农业病害诊断系统,国内北大团队基于其开发的AI数学教练,让学生解题速度提升40%。可梁文锋没半点骄傲,他清楚中国AI的原创短板仍未完全补齐——截至2025年,真正深耕底层算法的科学家依旧凤毛麟角,不少企业还是习惯“拿来主义”,在开源代码上做些修修补补就宣称“自主创新”。中美AI的差距,从来不是专利数量的比拼,而是“种树”与“摘果”的格局之差。美国靠底层算法创新筑牢根基,中国却在应用层的繁花似锦中,面临核心技术“卡脖子”的隐忧。梁文锋的探索恰恰证明,原创从来不是遥不可及的梦想:DeepSeek团队没有海量海归,没有千亿级投入,仅凭对底层技术的死磕,就实现了从跟跑到并跑的跨越。那些嘲笑他“傻气”的人忘了,AI产业就像种树,应用层是枝叶,底层算法才是树根。没有原创算法的滋养,再茂盛的枝叶也经不住风雨;只有把根扎深,才能长出真正的参天大树。梁文锋说“有些探索逃不掉”,逃不掉的正是对原创的敬畏,对底层的坚守。中国AI要想真正摆脱“追随者”身份,靠的不是模仿出来的短期繁荣,而是像梁文锋这样,愿意沉下心啃硬骨头的人,愿意为长远发展放弃短期利益的勇气。毕竟,模仿只能分到一杯羹,原创才能掌握话语权。各位读者你们怎么看?欢迎在评论区讨论。
刚刚,DeepSeek扔出大杀器,梁文锋署名!暴力优化AI架构
【导读】2026新年第一天,DeepSeek发表了梁文锋署名的重磅新论文,提出了一种名为「mHC(流形约束超连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,即可实现显著性能提升。重磅!刚刚,DeepSeek送上2026年...
1月6月精选热点:DeepSeek又要放大招 这些核心公司要受益
人工智能:DeepSeek下一代旗舰系统R2预计春节前后问世 据媒体报道,DeepSeek近日发布论文,阐述了一种更为高效的人工智能开发方法。该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架。作者称,该框架...
Deepseek表示,新方法可以更高效、更便宜地训练人工智能。据报道,
Deepseek表示,新方法可以更高效、更便宜地训练人工智能。据报道,中国人工智能公司Deepseek推出了一种新的训练方法——流形约束超连接(mHC),这将使更高效、更低成本地训练大型语言模型成为可能。该方法是所谓的HyperConnections的进一步发展,最初由Bytedance于2024年开发。反过来,这项技术建立在微软亚洲研究院的经典ResNet架构之上。Deepseek表示,由于在基础设施层面进行了特定的优化,mHC在不增加计算成本的情况下提供了更稳定和可扩展的训练。研究人员已经在多达270亿个参数的模型上测试了这项技术,并取得了积极的结果。这种新方法可能是Deepseek下一个大型机型发布的预演。AI多模态搜索ai个性化训练
中国十大科技巨头:1、Deepseek(人工智能);2、华为(通信);3
中国十大科技巨头:1、Deepseek(人工智能);2、华为(通信);3、宇树科技(机器人);4、大疆(无人机);5、比亚迪(新能源汽车);6、字节跳动(互联网);7、京东(电子商务);8、腾讯(社交);9、腾讯(社交);10、蓝箭航天(航天)。人工智能现在是举国上下关注的焦点,AI已经渗透到我们生活的方方面面。而中美AI竞速也双轨赛跑,到底谁更领风骚呢?人工智能正重塑全球格局,中美成为核心竞争者。美国推出《AI行动计划》,中国全面推进"AI+"战略,两国都将AI视为国力、产业与规则制定的战略制高点。这场竞争不是直线追逐,而是"双轨竞跑":美国强在技术核心与创新质量,中国强在基建速度与大规模落地。英伟达CEO黄仁勋指出,AI是"五层蛋糕"——能源、芯片、基础设施、模型与应用。美国在芯片设计领先,但能源与基建投资滞后;中国能源产能是美国的2倍,若美国不补强底层,AI主导权恐易手。AI竞争已进入全栈对决阶段。美国模型层突破后,中国企业往往数月内快速跟进,靠的是开源生态与极致成本控制。中国AI新创大量采用开源模型,降低研发门槛,使竞争从单点创新转为规模与效率之争。未来,中美AI竞速将更激烈,谁能胜出?答案或许藏在"双轨竞跑"的动态平衡中。
不管你信不信,这就是中国人工智能行业市场规模:2021年,281亿美元;2
不管你信不信,这就是中国人工智能行业市场规模:2021年,281亿美元;2022年,319亿美元;2023年,388亿美元;2024年,48亿美元;2025年,637亿美元;更有人预测,随着人工智能的不断发展,2026年市场规模会达到850亿美元,2027年更会突破1000亿!2025年,中国AI技术迎来里程碑式突破,DeepSeek开源大模型以"普惠AI"理念重塑全球格局。1月发布的DeepSeek-R1以超90%的成本优势碾压国际竞品,输入输出token定价仅0.55/2.19美元/百万,让AI服务从"奢侈品"变为"日用品"。更惊人的是技术突破:557万美元训练成本实现Llama3405B级性能,混合专家架构(MoE)和多头潜在注意力机制(MLA)让计算资源需求断崖式下降。12月发布的V3.2系列在数学推理领域表现惊艳,V3.2-Speciale版在数学奥赛模拟中夺金,小学数学题正确率高达99.5%。开源策略更引发全球开发者狂欢,460万社区成员共同推动AI民主化,企业估值突破万亿跻身全球独角兽六强。清华大学KVCache.AI团队更进一步,用单张24G显卡即可本地运行671B大模型,预处理速度提升28倍,让"每个人都能拥有自己的AI"成为现实。
海光信息:公司产品已全面适配DeepSeek
证券日报网讯12月30日,海光信息在互动平台回答投资者提问时表示,DCU系列产品是公司面向高性能计算、人工...凭借卓越的性能表现与生态兼容性获得客户广泛认可,新一代产品深算四号研发进展顺利,公司产品已全面适配DeepSeek。
韧性、DeepSeek、初代同事…2025年,年轻人都在聊什么?
本次发布的“2025年度青年十大热词”由上海市青少年研究中心旗下的热词监测AI实验室经过候选词抓取比选、热度指数计算,综合推选和投票结果形成,分别是:韧性、具身智能、DeepSeek、情绪消费、主理人、爱你老己、从从容容...
当我问Deepseek:30+女性,2026年的出路在哪里?
这个夜晚,林薇认真地问了人工智能Deepseek一个问题:“请为30+女性规划2026年的职业出路,需要满足:能兼顾家庭、有成长空间、不过度依赖年轻体力、能建立可持续的个人价值。得到的回答长达三千字,而其中反复出现的关键词,...
DeepSeek预测未来工资最高的10个职业。刚刷到这个榜单,第一反应是“果然跟
DeepSeek预测未来工资最高的10个职业。刚刷到这个榜单,第一反应是“果然跟咱国家发展方向对上了”。生物医药、半导体、新能源汽车、人工智能……前几名全是科技和高端制造领域,这两年明显能感觉到,从政策扶持到资本投入,这些行业就像坐上了快车。像半导体工程师,咱们芯片自主化卡脖子的地方多,有真本事的技术人才自然成了“香饽饽”,年薪50万到150万一点不夸张。再看后面几个,金融投资专家、法律知产专家也在列,这说明除了硬技术,配套的专业服务同样重要。特别是法律知产,现在科技企业打“专利战”越来越多,懂技术又懂法律的复合型人才,企业抢着要也正常。不过咱普通人也别光看薪资眼馋,这些职业门槛都不低。比如生物医药高管,没个十几年行业积累,管不好研发和市场;人工智能工程师更得跟着技术迭代不断学习。对年轻人来说,这榜单其实是个不错的职业参考——选对赛道,加上持续深耕,未来机会肯定多。像我家娃今年选专业,我就跟他说,盯着这些国家重点发展的领域,准没错。
新型塔式液冷服务器在合肥发布 算力可支撑DeepSeek稳定运行
近日,位于合肥高新区的安徽百信信息技术有限公司推出了新型塔式液冷服务器,能稳定运行DeepSeek大模型推理任务,为中国AI发展提供高效可靠的算力底座。服务器运行中,机箱内的发热元件会发出很大热量。风冷是传统的服务器...
DeepSeek+剪映制作电影解说,半小时搞定原创!
今天就分享如何利用 DeepSeek+剪映,半个多小时就能制作出一条原创的电影解说视频。电影解说不管在哪个短视频平台,一直都有人在做,而且流量一直居高不下,是 中视频伙伴计划 和流量分成非常高的红海赛道。在没有AI之前,制作...
2025社群运营三大常用AI工具:DeepSeek写文案、豆包做设计,群洞察查数据
2025年社群运营,AI工具好像已成标配:用 DeepSeek快速生成朋友圈文案,借 豆包制作宣传海报和短视频。然而当管理者面对几十个微信群时,会发现这些工具只解决了“输出”问题,而群洞察则解决了更关键的“洞察”问题—知道该向...
2025AI启示录|DeepSeek的魔幻一年:全民狂欢退潮,最终留下什么?
2025年12月8日,世界顶级学术期刊《自然》将年度十大人物荣誉授予了一位中国面孔—DeepSeek(深度求索)创始人梁文锋。上榜理由简洁有力:他推出的大语言模型“表现媲美顶尖模型,构建成本却仅需一小部分”。梁文锋被评价为...
刚听完DeepSeek离职那哥们的爆料,后背直冒冷汗。现在AI圈那风气,谁融资多
刚听完DeepSeek离职那哥们的爆料,后背直冒冷汗。现在AI圈那风气,谁融资多、GPU堆得高、PPT做得漂亮,好像就赢了。可梁文锋偏不凑这个热闹,他天天盯着算力成本算到半夜,把量化赚的钱、房子都押进去搞R1模型——这哪是创业,分明是跟自己较劲。说他是赌徒?我看更像技术疯子。团队好几次快散伙,他硬扛着;大厂烧钱买硬件,他偏要在算法里抠成本。这两年见过太多“融资-扩张-再融资”的套路,突然冒出个死磕技术、把算盘打穿的创业者,倒让人眼前一亮。行业需要这种“不按常理出牌”的人。当大家都挤在一条赛道上比烧钱,总有人要去拓荒。梁文锋押的不是运气,是对技术的绝对自信——真能把算力成本压下来,那才是AI普惠的底气。话说回来,要是多几个这样“把命押技术”的狠人,咱们在AI赛道上,还怕拼不过谁?MCN双量进阶计划
这回算是真把硅谷那帮人给吓懵了!40岁的DeepSeek创始人梁文锋,向来以
这回算是真把硅谷那帮人给吓懵了!40岁的DeepSeek创始人梁文锋,向来以低调著称,近日却凭一项突破性成果引爆科技圈——他研发的R1大模型,在解题与代码生成能力上媲美ChatGPT,训练成本却仅为后者的十分之一,连国际顶刊《自然》都将其冠以“科技颠覆者”的称号。结果怎么样?英伟达股价当天就崩了,一夜蒸发掉3个小米的体量。这就是典型的“掀桌子”打法啊。以前大家都觉得搞AI得烧钱,得看老美脸色,梁文锋这下证明了咱不仅能造,还能造得便宜又好用。想想他当年连电脑都买不起,为了搞这东西放弃了几千亿的生意,这种“赌性”真不是一般人能有的。这就好比当年的雷军,不玩虚的,直接把价格打下来。现在轮到咱们给全球立规矩了,这一巴掌打得确实响亮。AI领袖梁文锋