“好得可怕。”这是开发者在实测DeepSeek最新模型后作出的评价。
在涵盖C++、Java、Python等六种流行编程语言的测试AIder polyglot中,这款模型得分接近R1、Claude 3.7,超过o3-mini的水平。
有博主对DeepSeekV3-0324、DeepSeek-V3、Claude 3.5、Claude 3.7下达了同样的任务,要求创建HTML文件,以生成动画天气卡,表现风、雨、太阳、雪等元素,卡片深色背景,并包括一种在不同天气条件之间切换的方法。该博主认为,DeepSeekV3-0324在指令遵循上最为完整,且视觉风格整体也相对较好。
(从上至下分别为DeepSeek-V3、Claude 3.5、Claude 3.7的结果)
“最好的非推理模型”
OpenAI和Anthropic麻烦了
该测试包含了如电车难题、薛定谔的猫等很多经典问题的改编版本,主要考验大模型在面对误导性信息时,能否不被表象迷惑,从而正确理解并处理。
(经典电车难题:假设在一个电车轨道上被绑了5个人,而它的备用轨道上被绑了1个人,又有一辆失控的电车飞速驶来,而你身边正好有一个摇杆,你可以推动摇杆来让电车驶入备用轨道,你会推吗?)
此外,更让开发者关注的是,DeepSeek还将这款最新模型的开源协议从此前的自定义开源许可更新为MIT协议,和DeepSeek-R1实现一致。
MIT是最简单和宽松的开源协议,许可证文本更为简洁,没有专利授权和商标使用等复杂条款,且为完全开源,不限制商用,允许蒸馏,开发者将有更多自主权。
版权声明:未经旺旺屋授权转载请注明来源,否则侵权必究
还没有评论,来说两句吧...