Работает ли двойной слэш в предикате XPath так же, как и в самом пути

Question

Дополнительно

Вопрос

Работает ли двойной слэш в предикате XPath так же, как и в самом пути

Я играл с различными XPath-запросами с помощью XPather (работает только в старых версиях firefox) и заметил разницу между результатами следующих запросов

Этот показывает некоторые результаты

//div[descendant::table/descendant::td[4]]

Здесь показан пустой список

//div[//table//td[4]]

Они отличаются из-за каких-то правил или это просто неправильное поведение конкретной реализации интерпретатора XPath? (Кажется, что XPather используется из движка FF, это просто отличный простой GUI для запросов).

Программирование

xpath

Решение / Ответ

CiaPan

28-го февраля 2014 в 11:45

Дополнительно

В документе W3C по XPath есть важное замечание:

XML Path Language (XPath) Version 1.0 2 Location Paths 2.5 Сокращенный синтаксис

NOTE: Путь расположения //para[1] означает не то же самое, что путь расположения /descendant::para[1]. Последний выбирает первый элемент-потомок para; первый выбирает все элементы-потомки para, которые являются первыми дочерними элементами para своих родителей.

Это означает, что двойная косая черта внутри пути является не только сокращением для /descendant-or-self::node()/, но и отправной точкой для следующего уровня итерации XML-дерева, что подразумевает, что выражение шага справа от // повторно выполняется на каждом потомке текущего контекстного узла.

Таким образом, точное значение предиката в этом пути

//div[ descendant::table/descendant::td[4] ]

это:

построить последовательность всех узлов <table>, нисходящих к текущему <div>,
для каждой такой <table> построить последовательность всех элементов-потомков <td> и объединить их в одну последовательность,
отфильтруйте эту последовательность для четвертого элемента.

Наконец, путь возвращает все элементы <div> в документе, которые имеют по крайней мере четыре ячейки данных во всех своих вложенных таблицах. А поскольку в документе есть таблицы, которые имеют 4 ячейки или более (включая ячейки во вложенных таблицах, конечно), все выражение выбирает их соответствующих <div> предков.

С другой стороны, предикат в

//div[ //table//td[4] ]

означает:

просканировать все дерево документов на наличие элементов <table> (точнее, проверить корневой узел и каждого потомка корня, если у него есть дочерний элемент <table>),
для каждой найденной таблицы проверить ее поддерево на наличие элементов, имеющих четвертый <td>подэлемент (т.е. проверить, имеет ли таблица или любой из ее потомков как минимум четыре <td>детища).

Обратите внимание, что подвыражение предиката не зависит от узла контекста. Это глобальный путь, разрешающийся в некоторую последовательность узлов (возможно, пустую), поэтому булево значение предиката зависит только от структуры документа. Если оно истинно, то весь путь возвращает последовательность всех элементов <div> в документе, иначе - пустую последовательность.

Наконец, предикат будет true, если в любой таблице есть элемент, имеющий 4 (как минимум) ячейки данных.
Насколько я могу судить, все строки <tr> содержат две или три ячейки - нет элемента с 4 или более дочерними <td>, поэтому подвыражение предиката возвращает пустую последовательность, предикат false и весь путь отфильтровывается. Результат: ничего (пустая последовательность).

CiaPan

Редактировал ответ 30-го марта 2016 в 10:39

4

0

Добавить вопрос

Категории

Все

Технологий

Культура / Отдых

Жизнь / Искусство

Наука

Профессии

Бизнес

Пользователи

1

Зарегистрирован 1 месяц назад

2

Ксения Комарова

Зарегистрирован 3 месяца назад

3

Артур «Апер»

Зарегистрирован 5 месяцев назад

4

Viktor Malyutin

Зарегистрирован 5 месяцев назад

5

Viktor Malyutin

Зарегистрирован 5 месяцев назад

Хотите что-то узнать? Задавайте Ваш вопрос на нашем сайте

ru.kzen.dev

Martin Honnen · Accepted Answer · 2012-04-07T11:15:48+00:00

В XPath 1.0 // является сокращением для /descendant-or-self::node()/, поэтому ваш первый путь будет /descendant-or-self::node()/div[descendant::table/descendant::td[4]], в то время как второй путь будет совсем другим /descendant-or-self::node()/div[/descendant-or-self::node()/table/descendant-or-self::node()/td[4]]. Основная разница заключается в том, что в первом предикате вы ищете потомков относительно элемента div, а во втором предикате вы ищете потомков от корневого узла / (также называемого узлом документа). Вам может понадобиться //div[.//table//td[4]], чтобы второе выражение пути было ближе к первому.

[edit]. Вот пример:

<html>
  <body>
    <div>
      <table>
        <tbody>
          <tr>
            <td>1</td>
          </tr>
          <tr>
            <td>2</td>
          </tr>
          <tr>
            <td>3</td>
          </tr>
          <tr>
            <td>4</td>
          </tr>
        </tbody>
      </table>
    </div>
  </body>
</html>

В этом примере путь //div[descendant::table/descendant::td[4]] выбирает элемент div, поскольку у него есть дочерний table, у которого есть четвертый потомок td.

Однако с //div[.//table//td[4]] мы ищем //div[./descendant-or-self::node()/table/descendant-or-self::node()/td[4]], который является сокращением для //div[./descendant-or-self::node()/table/descendant-or-self::node()/child::td[4]] и нет элемента, имеющего четвертый td дочерний элемент.

Надеюсь, это объясняет разницу, если вы используете //div[.//table/descendant::td[4]], то вы должны получить тот же результат, что и с вашей оригинальной формой.