1. 消除循环的低效率
如:
for (i = O ; i < vec_length (v); i++)
可改为:
long length = vec_length (v) ;
for (i = O ; i < length ; i++)
这样就不会每次循环时都调用vec_length函数,每次函数调用的开销很大。
2. 减少过程调用
如:
for (i = O ; i < length ; i++) {
data_t val ;
get_vec_element (v , i , &val) ;
*dest = *dest OP val ;
}
可改为:
data_t *data = get_vec_start (v) ;
*dest = IDENT ;
for (i = O ; i < length ; i++) {
*dest = *dest OP data [i] ;
}
这样每个循环中通过数组还引用具体数据,而不是在循环中进行函数调用。
3. 消除不必要的内存引用
如:
data_t *data = get_vec_start (v) ;
*dest = IDENT ;
for (i = O ; i < length ; i++) {
*dest = *dest OP data [i] ;
}
可改为:
data_t •data = get_vec_start (v) ;
data_t acc = IDENT ;
for (i = O ; i < length ; i++) {
acc = acc OP dat a [i) ;
}
*dest = acc ;
这样在循环中直接引用变量,该变量会存放在寄存器中,能够快速访问,最后循环结束再将结果写回内存,从而减少了内存访问。
4. 提高并行性
如:
for (i = O ; i < length ; i++) {
acc = acc OP dat a [i) ;
}
可改为:
data_t accO = !DENT;
data_t acc1 = !DENT;
I* Combine 2 elements at a time *I
for (i = O; i < limit; i+=2) {
accO = accO OP data[i];
acc1 = acc1 OP data[i+1];
}
I* Finish any remaining elements *I
for (; i < length; i++) {
accO = accO OP data[i];
}
*dest = accO OP accl;
首先, 它减少了不直接有助于程序结果的操作的数量, 例如循环索引计算和条件分支。 第二,它可以充分利用CPU的多个功能单元以及它们的流水线能力,在一个循环体中同时并行执行多个操作,提高并行计算能力。
5. 书写适合用条件传送实现的代码
如:
fo r ( i = O; i < n; i++) {
if (a[i] > b[i] ) {
long t = a[i];
a[i] = b[i];
b[i] = t;
}
}
可改为:
for ( i = O; ]. < n; i++) {
long min = a[i] < b[i] ? a[i] : b[i]
long max = a[i] < b[i] ? b[i] : a[i]
a[i] = min;
b[i] = max;
}