【图片】揭秘龙芯是如何优化实现3a6000=十代酷睿四核不等式【中国芯吧】

昨天的帖子无故被删，今天再发一次。
龙芯以及某位G字头网友在评测中直接表示3a6000对标十代酷睿四核处理器10100，但通过评测数据研究发现，3a6000实际性能（spec 2006 int rate1）离十代酷睿10100处理器有较大差距，先说结论：
这位G字头网友通过将10100降频17%，再通过定制化的GCC la664架构优化编译参数提升12.9%，最后再通过龙芯官方提供的未公开源码的GCC特定优化版本提升7%的跑分性能，实现和降频后的10100相似性能水平。而使用官方版本的GCC，3a6000单核性能为10100的71%，10900K的61%。
一、10100最高睿频4.3G，全核睿频4.1G。这位G字头网友的评测文章中，10100 spec 2006 int 跑分仅为42.5，并标注10100频率为3.6G。而其他网友以及评测博主显示10100的spec 2006 int rate1跑分在50分左右，G字头网友解释为需要中高端主板和热管或水冷散热10100才能达到49.x分（详情请参考图片1）。但实际上10100的TDP是65瓦，spec 2006 int rate1为单核跑分，单核TDP为16瓦，我们即使认为单核睿频功耗翻倍，最多也就32瓦，即使是供电最烂的寨板，也不至于无法提供32瓦的CPU供电，铝制散热器也是可以轻松解决32瓦散热问题。显然这位G字头网友是非常清楚的，但是毕竟不能直接造假，所以调出一个和3a6000优化后相似性能的频率，至于读者由于自己不清楚10100是4.3G这显然是读者自身的问题。
二、三级缓存问题，十代酷睿中10100为6M三级缓存，10900K为20M三级缓存，3a6000为16M三级缓存，spec2006跑分是一个三级缓存敏感的测试。通过查阅资料可以知道10900K在不超频的情况下spec 2006 int单核跑分在58分以上，所以究竟10900K单核性能能代表十代酷睿，还是10100单核性能能代表十代酷睿？
三、编译优化，3a6000在下面两个编译优化参数下有两种不同的跑分，其中Test1 spec 2006 int单核跑分为35.7，Test2跑分为40.1（参考图片2，目前3a6000已有开发板在某宝发售，也欢迎各位龙粉用数据来挑战，挑战时请附带编译参数和sepc截图）：
loongson 3A6000 Test1 ->
GCC 8.3 -Ofast -static -flto -march=loongarch64 -mtune=loongarch64 -mlsx -mlasx -funroll-all-loops
loongson 3A6000 Test2 ->
GCC 8.3 -Ofast -static -flto -mcond-move-int -mforce-drap -mvecarg -march=la664 -mtune=la664
-msimd=lasx -ftree-vectorize -funroll-all-loops
两者的编译优化差异主要在一个mtune使用loongarch64，另外一个使用la664，查阅架构资料可以知道la664为3a6000微架构代号，而在GCC 8.3的官方版本中，我们是无法使用la664参数的，使用该参数需要使用龙芯官方提供的GCC版本：网页链接
通过龙芯提供的GCC源码以及GCC更新记录，可以知道龙芯的mtune参数主要有：loongarch64、LA464、LA664。LA664编译选项主要开启了SIMD向量化并行等一系列优化选项，从而能高效地从大L1和L3进行数据预取，造成缓存性能高。龙芯通用的设置为-mtune=loongarch64，LA464为3a5000 微架构的优化参数，LA664为3a6000微架构优化参数。
但是，如果仅用龙芯官方提供的GCC源码，以及开启微架构优化，spec 2006 int单核跑分仍然只有40分左右，这位G网友实际的43分是使用龙芯在评测机器中提供的已编译完成的spec工具完成的，我们可以推测这个未发布的GCC版本采用了更加激进的优化策略，而这种优化策略可能会带来计算结果的不可靠（Intel的ICC在某几个版本中就存在计算结果错误的情况）。

在测试中，同样采用-mtune=alderlake进行针对性优化的Zen3或酷睿同代微架构处理器也可以做到与同样的性能增益幅度，性能提升在10.8%左右（参考图片3，5800x使用-mtune=alderlake的5800x spec 2006 int单核跑出75.9的高分，而使用core-avx2情况下跑分是68.5分）。
R7-5800X Test 1 ->
GCC 12.2 -Ofast -fomit-frame-pointer -march=x86-64 -mtune=core-avx2 -mavx -mavx2
R7-5800X Test 2->
GCC 12.2 -Ofast -march=alderlake -mtune=alderlake
同样的事情发生在兆芯的陆家嘴架构上，如果使用-mtune=lujiazui的编译选项，陆家嘴架构的spec性能同样会提高很多。

被删除的帖子可以在后台尝试申诉一下。

其实很简单，spec06龙芯的gcc是有定向优化的，这一点胡伟武在业绩说明会上自己亲口承认的。

胡伟武同时也说spec17的“优化”还在进行中。这也解释了为啥guee跑了spec17 rate1 却死活不敢放出来。因为目前怂芯的spec17还没有优化到spec06的程度，rate1成绩跟spec06的成绩对不上。

对比3a5000提升多少？按照3a5000单核等同于t7800算的话

打不过就跑这儿来造谣，你要是不服，你也可以跑一个成绩来看看，不过我估计你没有那实际行动能力

总感觉龙芯的人跟个XJ 组织似的，就他们牛，就不能说他们。。。。就你03年开始做，你没点积累我是不信，但是吹的太多。。。就没意思了。。。你只是把十几年的技术成果一起拿出来了，不代表能超英赶美。。。。

7zip早就跑了，2600k水平

有龙粉对我的数据有异议，认为我10100的50分是假的，10100不可能单核睿频到4.3G，龙粉可能不相信其他人的数据，guee的数据龙粉总得信吧
Guee亲测的数据，10100使用最垃圾的主板H510（注意guee的说辞，guee在回复中描述的是中高端主板，实际他测48.5用的是低端主板）+风冷+不开启微架构优化跑出了48.5的成绩：
https://gitee.com/guee/CPU-benchmarks/blob/master/2023-06/SPEC%20CPU%202006/i3-10100F%EF%BC%88UOS%E4%B8%93%E4%B8%9A%E7%89%88%EF%BC%89H510M-2666%E5%8F%8C%E9%80%9A%E9%81%93-%E5%BC%BA%E5%8A%9B%E9%A3%8E%E5%86%B7/int-base-speed/CPU2006.023.log
编译参数：
gcc -c -o av.o -DSPEC_CPU -DNDEBUG -DPERL_CORE -m64 -mavx2 -march=native -mtune=native -funroll-all-loops -ftree-vectorize -flto -static -Ofast

另外目前3a6000的主板也陆续发货了，也欢迎其他龙粉使用龙芯官方gcc版本+以下编译参数，看看我的35.7是否是造假，随时欢迎各位龙粉拿截图来打脸：
GCC 8.3 -Ofast -static -flto -march=loongarch64 -mtune=loongarch64 -mlsx -mlasx -funroll-all-loops
另外也欢迎龙粉用-mtune=la664编译参数去测试5000，看看我说的微架构优化对la464不生效或副作用是否正确（注意一个是la664 一个是la464）
附件是Guee测试10100的各种成绩，低端主板+风冷测出48.5，虽然比b站部分数码博主的51分要低，但是基本相差不太大，guee用z490测出49.3：

还有龙CC内置jemalloc，对比x86公版GCC，已经是很不要脸了，要是用icpx能把龙芯打得妈都不认识

消化，连龙芯发布会都不敢发消息，这里怕龙芯怕得要死

你看看吧，这里发个3A6000的发布会信息，都会被删帖，你和人家玩技术，人家和你玩封锁，简直就是川普统治的世界啊

来看看龙芯吧的删帖记录吧：
1、提示对方讨论技术问题不能靠骂，删帖
2、发一下guee的某个测试数据（guee在其他网站发的），删
3、发一下guee的链接，删（guee可是他们小吧主啊）
4、讨论下rv不可能被禁用，删
5、讨论下兆芯下一代CPU性能，删

日	一	二	三	四	五	六

揭秘龙芯是如何优化实现3a6000=十代酷睿四核不等式

扫二维码下载贴吧客户端