佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

查看: 329|回复: 11

DeepSeek走紅引發全球轟動 開發者是「95後」天才少女

  [复制链接]
发表于 28-1-2025 09:51 AM | 显示全部楼层 |阅读模式

【本報訊】中國AI新創公司DeepSeek近來迅速走紅,引發全球轟動令矽谷十分緊張。中國的神秘AI公司、被稱為「AI界拼多多」的人工智慧初創企業深度求索(DeepSeek)刷屏全球各大主流媒體和社交網站,尤其讓美國AI科技圈極為震撼。該公司創辦人梁文鋒首次在大陸《央視》新聞聯播亮相時表示,DeepSeek之所以震撼美國,是因為它來自中國公司,中國AI要發展,必然需要有人站到技術的前沿。DeepSeek-V2的關鍵開發者之一是被稱為95後AI「天才少女」羅福莉。小米創始人雷軍以人民幣千萬元年薪招攬羅福莉,領導小米AI大模型團隊。

紅星資本局報導,2024年底,DeepSeek發布了新一代大語言模型DeepSeek-V3,同時宣布開源。1月20日,DeepSeek發佈新模型DeepSeek-R1並同步開源模型權重,再次引發全球AI科技圈關注。

DeepSeek26日曾出現短時閃崩現象,DeepSeek回應稱,當天下午確實出現了局部服務波動,但問題在數分鐘內就得到了解決。此次事件可能是由於新模型發布後用戶訪問量激增,伺服器一時無法滿足大量用戶的併發需求。紅星資本局指,在多項基準測試中,V3的成績超越了主流開源模型,並和世界頂尖的閉源模型不分伯仲。同時,由於其極低的訓練成本,DeepSeek-V3被稱為「AI界拼多多」。

公開資料顯示,DeepSeek來自杭州「深度求索人工智慧基礎技術研究有限公司」(下稱「深度求索公司」),專注於開發先進的大語言模型和相關技術,由中國知名量化資管巨頭「幻方量化」於2023年7月創立,也因此獲得資本市場的廣泛關注。

而DeepSeek-V2的關鍵開發者之一羅福莉也迅速走紅,她被稱為95後(1995年以後出生)AI「天才少女」。羅福莉本科就讀於北京師範大學電腦專業,碩士畢業於北京大學計算語言學專業。

碩士畢業後,羅福莉先是進入阿里達摩院做人工智慧研究,從事預訓練語言模型相關的工作,負責阿里達摩院AliceMind開源專案,主導開發了多語言預訓練模型VECO。

2022年,羅福莉加入「幻方量化」從事深度學習相關策略建模和演算法研究,後又跳槽到DeepSeek擔任深度學習研究員,參與研發MoE大模型DeepSeek-V2。

就在DeepSeek-V3發布前幾天,小米創始人雷軍已開出千萬年薪招聘羅福莉,領導小米AI大模型團隊。

DeepSeek的爆火後,登頂蘋果中國和美國應用商店免費APP下載排行榜,超越了ChatGPT。

澎湃新聞報導,在國外大模型排名榜Chatbot Arena上,DeepSeek-R1的基準測試排名已經升至全類別大模型第3,與OpenAI的ChatGPT-4o最新版並列。不過,DeepSeek-R1的預訓練費用為557.6萬美元,不到OpenAI GPT-4o模型訓練成本的十分之一。

紅星資本局稱,DeepSeek公司的北京子公司正在招人,現共釋出52個崗位,包括深度學習研究員、核心系統研發工程師以及資深ui設計師等。其中,薪資最高的為核心系統研發工程師(校招),薪資範圍人民幣6至9萬元;大部分崗位的起薪在人民幣2萬元及以上。

DeepSeek以其研發的極低成本優勢,引起美國矽谷等AI公司的緊張。澎湃新聞27日引述Information網站報導,臉書母公司Meta已成立了4個專門研究小組來研究量化巨頭「幻方量化」旗下的國產大模型DeepSeek的工作原理,並基於此來改進旗下大模型Llama。

其中2個小組正在試圖了解「幻方量化」如何降低訓練和運行DeepSeek的成本;第3個研究小組則正在研究「幻方量化」可能使用了哪些資料來訓練其模型;第4個小組正在考慮基於DeepSeek模型屬性重構Meta模型的新技術。

據DeepSeek介紹,R1的預訓練費用只有557.6萬美元,在2048塊英偉達(輝達)H800 GPU(針對中國市場的低配版GPU)集群上運行55天完成,僅是OpenAI GPT-4o模型訓練成本的不到十分之一。一經推出,DeepSeek-R1便憑藉其物美價廉的特性在海外開發者社區中引發了轟動,更是憑藉極低的訓練成本震撼了矽谷。

數日前,有Meta的工程師們在匿名社交平台TeamBlind上吐露心聲,表示DeepSeek所研發的AI模型為其帶來了巨大壓力。
回复

使用道具 举报


ADVERTISEMENT

发表于 28-1-2025 10:33 AM | 显示全部楼层
很好,可惜我们马来没有这样的人才,但在我们伟大的安华领导下,我相信马来西亚的ai很快就能超越他们。
回复

使用道具 举报

发表于 28-1-2025 01:29 PM 来自手机 | 显示全部楼层
这个deepseek的推出相当于六代机的那种震悍! 给美国造成很大的压力!

评分

参与人数 1人气 +5 收起 理由
dalap + 5 我很赞同

查看全部评分

回复

使用道具 举报

发表于 28-1-2025 02:00 PM | 显示全部楼层
Ai 的意义是什么?
不用我讲ai的结果就是反垄断,而且也是所有的东西只要经过ai什么东西都会变成白菜价而不是垄断。。
中国是做到了也正在的继续和演变。
将来将会是很多人失业但也会造成很多人没有工作也不会饿饭的将来。。

只要能源自由,人类就会朝着这个目标前进。。。

评分

参与人数 1人气 +5 收起 理由
dalap + 5 谢谢分享

查看全部评分

回复

使用道具 举报

 楼主| 发表于 31-1-2025 09:13 AM | 显示全部楼层
中国最新AI技术“神速突破”!  矽谷巨头震惊


中国AI新创企业DeepSeek(深度求索)近期推出“DeepSeek-V3”与“DeepSeek-R1”两款最新的AI模型。这两款模型具备低廉的制造成本,且采用运算能力相对低阶的英伟达H800晶片,却拥有与全球顶尖AI语言模型匹敌的表现(例如OpenAI 的 ChatGPT-4),让矽谷巨头相当震惊。

《观点财经》报导,据美国匿名职场论坛TeamBlind上,一位自称Meta员工的贴文,自DeepSeek发布DeepSeek-V3以来,Meta旗下的Llama 4在各项测试中落后,让公司的生成式AI部门陷入恐慌。

更令人忧虑的是,这间鲜为人知的中国公司仅耗资557万美元(约2437万令吉)就达成这项技术成就。

该Meta员工指出,公司内部生成式AI部门的高阶主管薪资都超过DeepSeek的开发成本,而Meta目前拥有数十位此类高管,令人质疑部门庞大成本的合理性。

Meta试图复制技术

该员工透露,目前Meta工程师正疯狂研究分析DeepSeek的成功秘诀,试图复制任何可复制的技术。然而,当DeepSeek-R1发布时,情况变得更加严峻。该员工表示,虽然无法透露具体细节,但一些资讯将很快公开。

DeepSeek-V3于去年12月26日发布后,随即成为开源模型的领头羊。DeepSeek公布的技术报告数据显示,Meta的Llama 3.1-405B仅在 MMLU-Pro大规模多任务理解数据集上接近DeepSeek-V3的水平,而在其他项目中表现几乎都不及八成。

今年1月20日,DeepSeek正式发表DeepSeek-R1,官方技术报告中的对照模型,仅包含OpenAI公司的闭源模型OpenAI o1以及自家模型DeepSeek-v3。

在前次DeepSeek-V3测试中被拿来做对照的Meta、Anthropic等公司模型在本次报告中已销声匿迹。

回复

使用道具 举报

 楼主| 发表于 31-1-2025 11:41 AM | 显示全部楼层
美中研发AI竞争 DeepSeek智取美国 竟是靠一群菜鸟工程师


中国人工智慧(AI)新创公司DeepSeek靠著一群初生之犊的年轻工程师,加上美国对于先进晶片出口管制存有漏洞,在研发人工智慧的竞争当中智取美国。(欧新社)

华尔街日报(WSJ)28日报导,中国人工智慧(AI)新创公司DeepSeek靠著一群初生之犊的年轻工程师,加上美国对于先进晶片出口管制存有漏洞,在研发人工智慧的竞争当中智取美国。特朗普总统便说,DeepSeek给美国AI一记当头棒喝。

DeepSeek共同创办人梁文锋(Liang Wenfeng)选择在杭州成立公司,杭州也是中国电商巨头阿里巴巴(Alibaba)所在地。梁文锋2023年接受中国科技媒体“36氪”采访时说,DeepSeek核心技术岗位大多由应届毕业生或具有一、两年工作经验者担任。

梁文锋说,工作经验反而可能变成潜在障碍。他表示,做某件事情的时候,有经验的人毫不犹豫便说该怎么做,没经验的人则要反复摸索、认真思考怎么做,才能为眼前状况找出解决对策。

DeepSeek策略是减少训练AI模型时需要的数据处理,改用自行研发的计划,并且采用其他中国AI公司使用的技术,训练AI的成本只须竞争对手花费的一小部分。

另外一点是美国当初推出出口管制时不顺,让DeepSeek有时间买到高效能的美国晶片。拜登政府2022年开始管制对中国出口的晶片,规定卖到中国的晶片需要取消某一功能。AI晶片主要厂家辉达设计出一个给中国的产品,既能符合规定 ,又以其他方式保持晶片的高效能,结果一些分析员说,成品几乎和当时最好的辉达晶片一样强大 。

政府官员抱怨辉达虽未违法,却违背规定的精神。管制出口一年后,政府收紧规定。不过,这仍让DeepSeek有一年的时间买到辉达为中国市场生产、名为H800的晶片。在去年12月公布的研究论文中,DeepSeek说它用了2048片这种晶片来训练其中一个AI模型 。

科技股受到DeepSeek震撼27日全面走跌,28日止跌回升,史坦普500(S&P 500)小涨0.92%,为6067.70点。那斯达克综合指数上涨2.03%,为19733.59点。

回复

使用道具 举报

Follow Us
发表于 31-1-2025 02:06 PM | 显示全部楼层
看了很多deepseek的回复例子,可以说给我很深刻和震撼的感触。。
而且非常有层次感的内涵与知识。
如果再给他多一两年沉淀,我相信是非常的人性化的灵魂。

评分

参与人数 1人气 +5 收起 理由
dalap + 5 谢谢分享

查看全部评分

回复

使用道具 举报

发表于 31-1-2025 02:54 PM | 显示全部楼层
deepseek的老总说

“让偏远山村的孩童,
能和硅谷工程师用上同样聪明的ai助教”。


很明显的吊打资本主义的垄断。
回复

使用道具 举报


ADVERTISEMENT

发表于 31-1-2025 03:03 PM | 显示全部楼层
祈s 发表于 28-1-2025 02:00 PM
Ai 的意义是什么?
不用我讲ai的结果就是反垄断,而且也是所有的东西只要经过ai什么东西都会变成白菜价而不 ...

现在中国大陆没有工作的人会饿死吗?
回复

使用道具 举报

发表于 31-1-2025 03:04 PM | 显示全部楼层
祈s 发表于 31-1-2025 02:54 PM
deepseek的老总说

“让偏远山村的孩童,

很明显这个老总没有去过偏远山村。
回复

使用道具 举报

发表于 1-2-2025 02:52 PM 来自手机 | 显示全部楼层
据说天朝AI降临至今

Open AI用户uninstall人数达到2个亿

US大势已去
回复

使用道具 举报

发表于 1-2-2025 05:06 PM | 显示全部楼层
祈s 发表于 31-1-2025 02:06 PM
看了很多deepseek的回复例子,可以说给我很深刻和震撼的感触。。
而且非常有层次感的内涵与知识。
如果再给 ...


看了这些DEEPSEEK的回复例子,可以说给偶很深刻和震撼的感触。。
没想到连小学生都会回答的问题,DEEPSEEK居然无法回答








回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2023 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 2-2-2025 07:45 AM , Processed in 0.111081 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表