¿Por qué se permite la ejecución de código Java en comentarios con determinados caracteres Unicode?

Question

Más

Question

¿Por qué se permite la ejecución de código Java en comentarios con determinados caracteres Unicode?

El siguiente código produce la salida "¡Hola Mundo!" (no, en serio, pruébalo).

public static void main(String... args) {

   // The comment below is not a typo.
   // \u000d System.out.println("Hello World!");
}

La razón de esto es que el compilador de Java analiza el carácter Unicode \u000d como una nueva línea y se transforma en:

public static void main(String... args) {

   // The comment below is not a typo.
   //
   System.out.println("Hello World!");
}

Por lo tanto, el resultado es un comentario que se "ejecuta".

Dado que esto puede ser utilizado para "ocultar" código malicioso o cualquier cosa que un programador malvado pueda concebir, ¿por qué se permite en los comentarios?

¿Por qué está permitido por la especificación de Java?

Peter Mortensen

Pregunta editada 11º julio 2015 в 3:26

Programación

java

unicode

comments

Popular videos

« Anterior

zwol

9º junio 2015 в 3:16

Más

El escape \u000d termina un comentario porque los escapes \u se convierten uniformemente en los caracteres Unicode correspondientes antes de que el programa sea tokenizado. También se puede usar "u0057" en lugar de "//" para "comenzar" un comentario.

Esto es un error de su IDE, que debería resaltar la línea para dejar claro que el \u000d termina el comentario.

Esto es también un error de diseño en el lenguaje. No puede ser corregido ahora, porque eso rompería los programas que dependen de él. Los escapes \u deberían ser convertidos al correspondiente carácter Unicode por el compilador sólo en contextos en los que eso "tiene sentido" (literales de cadena e identificadores, y probablemente en ningún otro lugar) o deberían haber sido prohibidos para generar caracteres en el rango U+0000-007F, o ambos. Cualquiera de esas semánticas habría evitado que el comentario terminara con el escape \u000d, sin interferir con los casos en los que los escapes \u son útiles -nótese que eso incluye el uso de los escapes \u dentro de los comentarios como una forma de codificar los comentarios en una escritura no latina, porque el editor de texto podría tener una visión más amplia de dónde los escapes \u son significativos que el compilador. (Sin embargo, no conozco ningún editor o IDE que muestre los escapes \u como los caracteres correspondientes en cualquier contexto).

Hay un error de diseño similar en la familia C,¹ donde la barra invertida-nueva línea se procesa antes de que se determinen los límites de los comentarios, así que, por ejemplo

// this is a comment \
   this is still in the comment!

Traigo esto a colación para ilustrar que resulta fácil cometer este error de diseño en particular, y no darse cuenta de que es un error hasta que es demasiado tarde para corregirlo, si estás acostumbrado a pensar en la tokenización y el análisis sintáctico de la forma en que los programadores de compiladores piensan en la tokenización y el análisis sintáctico. Básicamente, si usted ya ha definido su gramática formal y luego alguien viene con un caso sintáctico especial — trigrafos, backslash-newline, codificación de caracteres Unicode arbitrarios en archivos de origen limitados a ASCII, lo que sea — que necesita ser encajado, es más fácil añadir un pase de transformación antes del tokenizador que redefinir el tokenizador para prestar atención a donde tiene sentido usar ese caso especial.

¹ Para los pedantes: Soy consciente de que este aspecto de C fue 100% intencionado, con el razonamiento — no me lo estoy inventando — de que te permitiría forzar mecánicamente el código con líneas arbitrariamente largas en tarjetas perforadas. Aun así, fue una decisión de diseño incorrecta.

zwol

Respuesta editada 15º junio 2015 в 5:43

65

0

Comunidades relacionadas 4

FULL STACK: Angular & Spring Boot 👉 ES

976 usuarios

Gracias por unirte! al grupo 🔥 _FULL STACK : Angular & Spring Boot ES_🔥 comunidad LATAM, donde podrás consultar dudas, compartir material y proyectos sobre esta tecnología. Invita a tus amigos ... 👇👇👇 https://t.me/SpringBootFtJAVA

Abrir telegram

Java | Spring Boot Español

122 usuarios

Abrir telegram

JAVA SE ESPAÑA

65 usuarios

JAVA SE Español

Abrir telegram

Java - Comunidad española

62 usuarios

Q&A: https://es.kzen.de Java, Spring Framework, Hibernate, Play, Apache Struts, Vaadin ... @php_es @js_es @vue_es @es_angular @kotlinve

Abrir telegram

Añadir pregunta

Categorías

Todo

Tecnología

Cultura / Recreación

Vida / Artes

Ciencia

Profesional

Negocios

Usuarios

Todo

Nuevo

Popular

1

Ксения Комарова

Registrado hace 1 mes

2

Артур «Апер»

Registrado hace 2 meses

3

Viktor Malyutin

Registrado hace 2 meses

4

Viktor Malyutin

Registrado hace 2 meses

5

Syahputra Zhedenk

Registrado hace 2 meses

¿Tiene alguna pregunta? Añádela en el sitio y obtén una respuesta al instante

es.kzen.dev

aioobe · Accepted Answer · 2015-06-09T09:13:50+00:00

La decodificación de Unicode tiene lugar antes de cualquier otra traducción léxica. El beneficio clave de esto es que hace que sea trivial ir y venir entre ASCII y cualquier otra codificación. Ni siquiera es necesario averiguar dónde empiezan y terminan los comentarios.

Como se indica en JLS Sección 3.3 esto permite que cualquier herramienta basada en ASCII pueda procesar los archivos fuente:

[...] El lenguaje de programación Java especifica una forma estándar de transformar un programa escrito en Unicode a ASCII que cambia un programa a una forma que puede ser procesada por herramientas basadas en ASCII. [...]

Esto proporciona una garantía fundamental para la independencia de la plataforma (independencia de los conjuntos de caracteres soportados) que siempre ha sido un objetivo clave para la plataforma Java.

El hecho de poder escribir cualquier carácter Unicode en cualquier lugar del archivo es una característica muy interesante, y especialmente importante en los comentarios, cuando se documenta código en lenguajes no latinos. El hecho de que pueda interferir con la semántica de maneras tan sutiles es sólo un (desafortunado) efecto secundario.

Hay muchas trampas sobre este tema y Java Puzzlers de Joshua Bloch y Neal Gafter incluye la siguiente variante:

¿Es este un programa Java legal? Si es así, ¿qué imprime?

\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020\u0020 \u0063\u006c\u0061\u0073\u0073\u0020\u0055\u0067\u006c\u0079 \u007b\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020 \u0020\u0020\u0020\u0020\u0073\u0074\u0061\u0074\u0069\u0063 \u0076\u006f\u0069\u0064\u0020\u006d\u0061\u0069\u006e\u0028 \u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d\u0020\u0020 \u0020\u0020\u0020\u0020\u0061\u0072\u0067\u0073\u0029\u007b \u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074 \u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0020 \u0022\u0048\u0065\u006c\u006c\u006f\u0020\u0077\u0022\u002b \u0022\u006f\u0072\u006c\u0064\u0022\u0029\u003b\u007d\u007d

(Este programa resulta ser un simple programa "Hola Mundo").

En la solución del rompecabezas, señalan lo siguiente:

Más seriamente, este rompecabezas sirve para reforzar las lecciones de los tres anteriores: Los escapes Unicode son esenciales cuando necesitas insertar en tu programa caracteres que no pueden ser representados de ninguna otra manera. Evítalos en todos los demás casos.

Fuente: Java: ¡¿Ejecución de código en los comentarios?!