分类分类
关注+2024-09-10作者:xy
现在的大模型榜单上,真的都是水分。
全是作弊的考生,真的。
上周,AI圈有个很炸裂的大模型发布,在全网引起了山呼海啸,一众从业者和媒体尊称它为开源新王。
就是Reflection70B。
fmt=png&from=appmsg" data-type="png" data-w="595" data-original-="" data-index="1" src="https://pic.chinaz.com/2024/0910/2024091008381521960.jpg" _width="595px" alt="图片" data-fail="0" style="margin: 0px auto; padding: 0px; box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block;"/>
在每项基准测试上都超过了 GPT-4o,还只用70B的参数,就击败了405B的Llama3.1,模型中还有一个叫「Reflection-Tuning」的技术,能让模型能够在最终回复之前,先识别自己有没有错误,如果有,纠正以后再回答。
FMt=png&from=appmsg" data-type="png" data-w="1080" data-original-="" data-index="2" src="https://pic.chinaz.com/2024/0910/2024091008381521961.jpg" _width="677px" alt="图片" data-fail="0" style="margin: 0px auto; padding: 0px; box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block;"/>
其实这个东西当时我就很存疑,因为在我的理解里,这玩意,就是个CoT,就是个纯Prompt,一个Prompt把70B模型直接带的螺旋升天?
你这玩意,真要是能做到,奥特曼就真的直接原地给你磕头了。。。
最关键的是,还有一个很离谱的点,这个模型就两个人做,而且,从一拍即合、到找数据集、到模型微调完成并正式发布,一共就花了3周。
这效率,这速度,直接卷的螺旋升天,国内大厂速度没卷到这个地步...
于是我就观望了几天。
直到昨天,发现这模型底都快被人扒掉了。
模型结果造假,提供给开发者的API,还是造假。
先是跑分评测上面,这是他们老板Matt自己发出来的跑分结果,勇夺第一。
qqIPxXYRDcTTw/640?wx_fmt=jpeg&from=appmsg" data-type="jpeg" data-w="1080" data-original-="" data-index="3" src="https://pic.chinaz.com/2024/0910/2024091008381521972.jpg" _width="677px" alt="图片" data-fail="0" style="margin: 0px auto; padding: 0px; box-sizing: border-box; outline: 0px; border: 1px solid rgb(238, 238, 238); --tw-shadow: 0 0 #0000; --tw-ring-inset: var(--tw-empty, ); --tw-ring-offset-width: 0px; --tw-ring-offset-color: #fff; --tw-ring-color: rgba(41, 110, 228, 0.5); --tw-ring-offset-shadow: 0 0 #0000; --tw-ring-shadow: 0 0 #0000; max-width: 700px; background: url("../img/bglogo2.svg") center center no-repeat rgb(247, 248, 249); box-shadow: rgba(27, 95, 160, 0.1) 0px 1px 3px; display: inline-block;"/>
看这个结果,你就说屌不屌吧,拳打Claude3.5,脚踢GPT-4o,还把Gemini1.5Pro和Llama3.1405B给摁在地上摩擦。
你很难想象这只是一个两个人花三周训的70B的模型能干出来的事。
直到7号,Artificial Analysis用他们自己的标准评测集跑了一通,发现这事不对啊,你这么多项评测集都登顶了,你应该很牛逼才对啊,这得分什么情况???
他们是这么说的:
“哥们,我们测完了咋感觉你比Llama3.170B更拉了呢?老实说,你是不是在骗兄弟们。”
Matt看到了以后,开始说卧槽不对劲啊,我们内部是好的啊,怎么你们测试结果这么烂?
花了好半天,Matt终于说,哦是Hugging Face 权重出现了问题,我也不知道咋回事,你们等一等。
说完还不忘凡尔赛一下,说:
翻译一下就是:我们是在太太太太火啦,你们再等等啊,乖。
直到今天凌晨,最骚的事情来了,Matt说,我们终于解决了问题,开放了新的API。
他们提供了一个私有接口,说这个才是Reflection70B完全体。
大家一测,卧槽,果然牛逼,牛逼炸了。
真的好像比GPT4o还有那些大厂的模型强哎。
就差点直接给Reflection70B开香槟了。
2个人,3周时间,创了AI行业的奇迹。
但是大家香槟刚开一半,就被生生的摁回去了。
大家发现,这个所谓的“Reflection70B”的API,怎么跟Claude3.5回复的东西,一模一样。。。
相关文章
更多+相同厂商
热门推荐
点击查看更多
点击查看更多
点击查看更多
说两句网友评论