Pourquoi 2 * (i * i) est-il plus rapide que 2 * i * i en Java ?

Question

Détails

Question

Pourquoi 2 * (i * i) est-il plus rapide que 2 * i * i en Java ?

Le programme Java suivant prend en moyenne entre 0,50 et 0,55 secondes pour s'exécuter :

public static void main(String[] args) {
    long startTime = System.nanoTime();
    int n = 0;
    for (int i = 0; i < 1000000000; i++) {
        n += 2 * (i * i);
    }
    System.out.println((double) (System.nanoTime() - startTime) / 1000000000 + " s");
    System.out.println("n = " + n);
}

Si je remplace 2 * (i * i) par 2 * i * i, il met entre 0,60 et 0,65 secondes à s'exécuter. Comment cela se fait-il ?

J'ai exécuté chaque version du programme 15 fois, en alternant entre les deux. Voici les résultats :

 2*(i*i)  |  2*i*i
----------+----------
0.5183738 | 0.6246434
0.5298337 | 0.6049722
0.5308647 | 0.6603363
0.5133458 | 0.6243328
0.5003011 | 0.6541802
0.5366181 | 0.6312638
0.515149  | 0.6241105
0.5237389 | 0.627815
0.5249942 | 0.6114252
0.5641624 | 0.6781033
0.538412  | 0.6393969
0.5466744 | 0.6608845
0.531159  | 0.6201077
0.5048032 | 0.6511559
0.5232789 | 0.6544526

L'exécution la plus rapide de 2 * i * i a pris plus de temps que l'exécution la plus lente de 2 * (i * i). S'ils étaient tous deux aussi efficaces, la probabilité que cela se produise serait inférieure à 1/2^15 * 100% = 0,00305%.

Peter Mortensen

Question modifiée 24 avril 2019 в 3:03

java

jit

Catégories

Toutes

Technologie

Culture / Loisirs

Vie / Arts

Science

Professionnel

Entreprises

Utilisateurs

Tous

Nouveau

Populaire

1

Ксения Комарова

Enregistré il y a 4 semaines

2

Артур «Апер»

Enregistré il y a 2 mois

3

Viktor Malyutin

Enregistré il y a 2 mois

4

Viktor Malyutin

Enregistré il y a 2 mois

5

Syahputra Zhedenk

Enregistré il y a 2 mois

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

DSchmidt · Answer 1 · 2018-11-23T21:19:06+00:00

Codes d'octets : https://cs.nyu.edu/courses/fall00/V22.0201-001/jvm2.html Visualisateur de codes d'octets : https://github.com/Konloch/bytecode-viewer

Sur mon JDK (Windows 10 64 bit, 1.8.0_65-b17) je peux reproduire et expliquer :

public static void main(String[] args) {
    int repeat = 10;
    long A = 0;
    long B = 0;
    for (int i = 0; i < repeat; i++) {
        A += test();
        B += testB();
    }

    System.out.println(A / repeat + " ms");
    System.out.println(B / repeat + " ms");
}

private static long test() {
    int n = 0;
    for (int i = 0; i < 1000; i++) {
        n += multi(i);
    }
    long startTime = System.currentTimeMillis();
    for (int i = 0; i < 1000000000; i++) {
        n += multi(i);
    }
    long ms = (System.currentTimeMillis() - startTime);
    System.out.println(ms + " ms A " + n);
    return ms;
}

private static long testB() {
    int n = 0;
    for (int i = 0; i < 1000; i++) {
        n += multiB(i);
    }
    long startTime = System.currentTimeMillis();
    for (int i = 0; i < 1000000000; i++) {
        n += multiB(i);
    }
    long ms = (System.currentTimeMillis() - startTime);
    System.out.println(ms + " ms B " + n);
    return ms;
}

private static int multiB(int i) {
    return 2 * (i * i);
}

private static int multi(int i) {
    return 2 * i * i;
}

Sortie :

...
405 ms A 785527736
327 ms B 785527736
404 ms A 785527736
329 ms B 785527736
404 ms A 785527736
328 ms B 785527736
404 ms A 785527736
328 ms B 785527736
410 ms
333 ms

Alors pourquoi ? Le code d'octet est le suivant :

 private static multiB(int arg0) { // 2 * (i * i)
     <localVar:index=0, name=i , desc=I, sig=null, start=L1, end=L2>

     L1 {
         iconst_2
         iload0
         iload0
         imul
         imul
         ireturn
     }
     L2 {
     }
 }

 private static multi(int arg0) { // 2 * i * i
     <localVar:index=0, name=i , desc=I, sig=null, start=L1, end=L2>

     L1 {
         iconst_2
         iload0
         imul
         iload0
         imul
         ireturn
     }
     L2 {
     }
 }

La différence étant : Avec les parenthèses (2 * (i * i)) :

push const stack
pousse le local sur la pile
pousse le local sur la pile
multiplie le haut de la pile
multiplie le haut de la pile

Sans parenthèses (2 * i * i) :

push const stack
pousse le local sur la pile
multiplie le haut de la pile
pousse le local sur la pile
multiplie le haut de la pile

Charger tout sur la pile et ensuite redescendre est plus rapide que de passer de la mise sur la pile à l'opération sur celle-ci.

paulsm4 · Answer 2 · 2018-11-23T21:10:06+00:00

J'ai obtenu des résultats similaires :

2 * (i * i): 0.458765943 s, n=119860736
2 * i * i: 0.580255126 s, n=119860736

J'ai obtenu les résultats SAME si les deux boucles se trouvaient dans le même programme, ou si chacune se trouvait dans un fichier .java/.class distinct, exécuté séparément.

Enfin, voici une décompilation javap -c -v <.java> de chacune :

     3: ldc           #3                  // String 2 * (i * i):
     5: invokevirtual #4                  // Method java/io/PrintStream.print:(Ljava/lang/String;)V
     8: invokestatic  #5                  // Method java/lang/System.nanoTime:()J
     8: invokestatic  #5                  // Method java/lang/System.nanoTime:()J
    11: lstore_1
    12: iconst_0
    13: istore_3
    14: iconst_0
    15: istore        4
    17: iload         4
    19: ldc           #6                  // int 1000000000
    21: if_icmpge     40
    24: iload_3
    25: iconst_2
    26: iload         4
    28: iload         4
    30: imul
    31: imul
    32: iadd
    33: istore_3
    34: iinc          4, 1
    37: goto          17

vs.

     3: ldc           #3                  // String 2 * i * i:
     5: invokevirtual #4                  // Method java/io/PrintStream.print:(Ljava/lang/String;)V
     8: invokestatic  #5                  // Method java/lang/System.nanoTime:()J
    11: lstore_1
    12: iconst_0
    13: istore_3
    14: iconst_0
    15: istore        4
    17: iload         4
    19: ldc           #6                  // int 1000000000
    21: if_icmpge     40
    24: iload_3
    25: iconst_2
    26: iload         4
    28: imul
    29: iload         4
    31: imul
    32: iadd
    33: istore_3
    34: iinc          4, 1
    37: goto          17

FYI -

java -version
java version "1.8.0_121"
Java(TM) SE Runtime Environment (build 1.8.0_121-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)

Jorn Vernee · Answer 3 · 2018-11-23T20:54:45+00:00

Les deux méthodes d'ajout génèrent un code d'octet légèrement différent :

  17: iconst_2
  18: iload         4
  20: iload         4
  22: imul
  23: imul
  24: iadd

Pour 2 * (i * i) vs :

  17: iconst_2
  18: iload         4
  20: imul
  21: iload         4
  23: imul
  24: iadd

Pour "2 i i".

Et quand on utilise un repère JMH comme celui-ci :

@Warmup(iterations = 5, batchSize = 1)
@Measurement(iterations = 5, batchSize = 1)
@Fork(1)
@BenchmarkMode(Mode.AverageTime)
@OutputTimeUnit(TimeUnit.MILLISECONDS)
@State(Scope.Benchmark)
public class MyBenchmark {

    @Benchmark
    public int noBrackets() {
        int n = 0;
        for (int i = 0; i < 1000000000; i++) {
            n += 2 * i * i;
        }
        return n;
    }

    @Benchmark
    public int brackets() {
        int n = 0;
        for (int i = 0; i < 1000000000; i++) {
            n += 2 * (i * i);
        }
        return n;
    }

}

La différence est claire :

# JMH version: 1.21
# VM version: JDK 11, Java HotSpot(TM) 64-Bit Server VM, 11+28
# VM options: <none>

Benchmark                      (n)  Mode  Cnt    Score    Error  Units
MyBenchmark.brackets    1000000000  avgt    5  380.889 ± 58.011  ms/op
MyBenchmark.noBrackets  1000000000  avgt    5  512.464 ± 11.098  ms/op

Ce que vous observez est correct et n'est pas simplement une anomalie de votre style d'évaluation (par exemple, pas de réchauffement, voir Comment écrire un micro-benchmark correct en Java ?).

Exécution à nouveau avec Graal :

# JMH version: 1.21
# VM version: JDK 11, Java HotSpot(TM) 64-Bit Server VM, 11+28
# VM options: -XX:+UnlockExperimentalVMOptions -XX:+EnableJVMCI -XX:+UseJVMCICompiler

Benchmark                      (n)  Mode  Cnt    Score    Error  Units
MyBenchmark.brackets    1000000000  avgt    5  335.100 ± 23.085  ms/op
MyBenchmark.noBrackets  1000000000  avgt    5  331.163 ± 50.670  ms/op

Vous voyez que les résultats sont beaucoup plus proches, ce qui est logique, puisque Graal est un compilateur globalement plus performant et plus moderne.

Il s'agit donc simplement de la capacité du compilateur JIT à optimiser un morceau de code particulier, sans qu'il y ait nécessairement une raison logique à cela.