发布于2020-11-14 09:10 阅读(1613) 评论(0) 点赞(14) 收藏(1)
这是一段C ++代码,显示了一些非常特殊的行为。出于某些奇怪的原因,奇迹般地对数据进行排序使代码快了将近六倍:
#include <algorithm>
#include <ctime>
#include <iostream>
int main()
{
// Generate data
const unsigned arraySize = 32768;
int data[arraySize];
for (unsigned c = 0; c < arraySize; ++c)
data[c] = std::rand() % 256;
// !!! With this, the next loop runs faster.
std::sort(data, data + arraySize);
// Test
clock_t start = clock();
long long sum = 0;
for (unsigned i = 0; i < 100000; ++i)
{
// Primary loop
for (unsigned c = 0; c < arraySize; ++c)
{
if (data[c] >= 128)
sum += data[c];
}
}
double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;
std::cout << elapsedTime << std::endl;
std::cout << "sum = " << sum << std::endl;
}
std::sort(data, data + arraySize);
,代码将在11.54秒内运行。最初,我认为这可能只是语言或编译器异常,所以我尝试了Java:
import java.util.Arrays;
import java.util.Random;
public class Main
{
public static void main(String[] args)
{
// Generate data
int arraySize = 32768;
int data[] = new int[arraySize];
Random rnd = new Random(0);
for (int c = 0; c < arraySize; ++c)
data[c] = rnd.nextInt() % 256;
// !!! With this, the next loop runs faster
Arrays.sort(data);
// Test
long start = System.nanoTime();
long sum = 0;
for (int i = 0; i < 100000; ++i)
{
// Primary loop
for (int c = 0; c < arraySize; ++c)
{
if (data[c] >= 128)
sum += data[c];
}
}
System.out.println((System.nanoTime() - start) / 1000000000.0);
System.out.println("sum = " + sum);
}
}
具有类似但不太极端的结果。
我首先想到的是排序将数据带入缓存,但是后来我想到这是多么愚蠢,因为刚刚生成了数组。
该代码总结了一些独立的术语,因此顺序无关紧要。
您是分支预测失败的受害者。
考虑一个铁路枢纽:
Mecanismo的图片,通过Wikimedia Commons。在CC-By-SA 3.0许可下使用。
现在,为了争论起见,假设这是在1800年代-在进行长距离或无线电通信之前。
您是路口的操作员,并且听到火车驶入。您不知道应该走哪条路。您停下火车,问司机他们想要哪个方向。然后您适当地设置开关。
火车很重,惯性很大。因此,它们花了永远的时间来启动和减速。
有没有更好的办法?您猜火车将朝哪个方向行驶!
如果您每次都猜对了,火车将永远不会停止。
如果您经常猜错,火车将花费大量时间停止,备份和重新启动。
考虑一个if语句:在处理器级别,它是一条分支指令:
您是处理器,并且看到一个分支。您不知道它将走哪条路。你是做什么?您停止执行并等待之前的指令完成。然后,您沿着正确的路径继续。
现代处理器很复杂,而且流程很长。因此,他们需要永远“热身”和“放慢脚步”。
有没有更好的办法?您猜分支将朝哪个方向前进!
如果您每次都猜对了,执行将永远不会停止。
如果您经常猜错,那么您将花费大量时间来拖延,回滚和重新启动。
这是分支预测。我承认这不是最好的类比,因为火车可以只用一个标志来指示方向。但是在计算机中,处理器直到最后一刻才知道分支的方向。
那么,您如何从战略上猜测如何将火车必须倒退和走另一条路的次数降至最低?您看看过去的历史!如果火车有99%的时间向左行驶,那么您就猜到了。如果它交替出现,那么您将交替猜测。如果它每三回去一次,您会猜到相同...
换句话说,您尝试识别一个模式并遵循它。这或多或少是分支预测变量的工作方式。
大多数应用程序具有行为良好的分支。因此,现代分支预测器通常将达到90%以上的命中率。但是,当面对没有可识别模式的不可预测分支时,分支预测变量实际上是无用的。
进一步阅读:Wikipedia上的“分支预测器”文章。
if (data[c] >= 128)
sum += data[c];
请注意,数据在0到255之间均匀分布。对数据进行排序时,大约前半部分的迭代将不会进入if语句。之后,他们都会进入if语句。
这对分支预测器非常友好,因为分支连续多次朝同一方向前进。即使是简单的饱和计数器也可以正确预测分支,除了在切换方向后进行几次迭代外。
快速可视化:
T = branch taken
N = branch not taken
data[] = 0, 1, 2, 3, 4, ... 126, 127, 128, 129, 130, ... 250, 251, 252, ...
branch = N N N N N ... N N T T T ... T T T ...
= NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT (easy to predict)
但是,当数据完全随机时,分支预测器将变得无用,因为它无法预测随机数据。因此,可能会有大约50%的错误预测(没有比随机猜测好)。
data[] = 226, 185, 125, 158, 198, 144, 217, 79, 202, 118, 14, 150, 177, 182, 133, ...
branch = T, T, N, T, T, T, T, N, T, N, N, T, T, T, N ...
= TTNTTTTNTNNTTTN ... (completely random - hard to predict)
那该怎么办呢?
如果编译器无法将分支优化为有条件的迁移,那么如果您愿意牺牲可读性来提高性能,则可以尝试一些破解。
更换:
if (data[c] >= 128)
sum += data[c];
与:
int t = (data[c] - 128) >> 31;
sum += ~t & data[c];
这消除了分支,并用一些按位运算将其替换。
(请注意,这种破解并不完全等同于原始的if语句。但是在这种情况下,它对于的所有输入值均有效data[]
。)
基准:Core i7 920 @ 3.5 GHz
C ++-Visual Studio 2010-x64版本
// Branch - Random
seconds = 11.777
// Branch - Sorted
seconds = 2.352
// Branchless - Random
seconds = 2.564
// Branchless - Sorted
seconds = 2.587
Java-NetBeans 7.1.1 JDK 7-x64
// Branch - Random
seconds = 10.93293813
// Branch - Sorted
seconds = 5.643797077
// Branchless - Random
seconds = 3.113581453
// Branchless - Sorted
seconds = 3.186068823
观察结果:
一般的经验法则是避免在关键循环中避免依赖数据的分支(例如在此示例中)。
更新:
x64上-O3
或-ftree-vectorize
x64上的GCC 4.6.1能够产生条件移动。因此,已排序和未排序的数据之间没有区别-两者都很快速。
(或者有点快:对于已经排序的情况,cmov
可能会变慢,特别是如果GCC将其放在关键路径上而不是仅仅在add
,尤其是在Broadwell之前cmov
有2个周期延迟的Intel上:gcc优化标志-O3会使代码比-O2慢)
VC ++ 2010即使在.NET下也无法为该分支生成条件移动/Ox
。
英特尔C ++编译器(ICC)11起到了神奇的作用。它互换两个循环,从而将不可预测的分支提升到外部循环。因此,它不仅可以避免错误预测,而且还比VC ++和GCC生成的速度快两倍!换句话说,ICC利用测试循环击败了基准测试...
如果您给英特尔编译器提供无分支代码,那么它就直接对其进行矢量化处理……并且与分支(通过循环交换)一样快。
这表明即使是成熟的现代编译器,其优化代码的能力也可能存在巨大差异。
作者:黑洞官方问答小能手
链接:http://www.javaheidong.com/blog/article/496/ca095d9b041cea5532a3/
来源:java黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 java黑洞网 All Rights Reserved 版权所有,并保留所有权利。京ICP备18063182号-2
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!