从 XPath 到 SPL

XML可灵活表达数据，又有跨平台的特点，广泛应用于Web交换服务和数据服务，比如WebService。但多层的XML结构复杂，计算起来不方便，这种情况下就要用到XML计算语言。在XML标准被W3C提出的第二年，首款XML计算语言XPath（XQuery）就应运而生了。XPath在XML计算方面可以显著提高开发效率，这使它迅速受到了开发者的热捧，很快被引入主流XML解析类库中，比如XOM/Xerces-J/Jdom/Dom4J。

下面让我们看两个例子，体会一下XPath当年的计算能力。

文件Employees_Orders.xml存储一批员工信息，以及属于员工的多个订单，部分数据如下：

<?xml version="1.0" encoding="UTF-8"?>
 <xml>
 <row>
 <EId>2</EId>
 <State>"New   York"</State>
 <Dept>"Finance"</Dept>
 <Name>"Ashley"</Name>
 <Gender>"F"</Gender>
 <Salary>11000</Salary>
 <Birthday>"1980-07-19"</Birthday>
 <Orders>[]</Orders>
 </row>
 <row>
 <EId>3</EId>
 <State>"New   Mexico"</State>
 <Dept>"Sales"</Dept>
 <Name>"Rachel"</Name>
 <Gender>"F"</Gender>
 <Salary>9000</Salary>
 <Birthday>"1970-12-17"</Birthday>
 <Orders>
 <OrderID>32</OrderID>
 <Client>"JFS"</Client>
 <SellerId>3</SellerId>
 <Amount>468.0</Amount>
 <OrderDate>"2009-08-13"</OrderDate>
 </Orders>
 <Orders>
 <OrderID>39</OrderID>
 <Client>"NR"</Client>
 <SellerId>3</SellerId>
 <Amount>3016.0</Amount>
 <OrderDate>"2010-08-21"</OrderDate>
 </Orders>
 <Orders>
 </row>
 …
 <xml>

条件查询：针对该XML文件，用Dom4J解析类库的XPath查询出所有价格在1000-3000，且客户名包含bro字样的订单。核心代码如下：

…
         SAXReader saxReader =   SAXReader.createDefault();
         Document doc =   saxReader.read("file:\\D:\\xml\\Employees_Orders.xml");
         List   list=doc.selectNodes("/xml/row/Orders[Amount>1000 and Amount<=3000   and contains(Client,'bro')]")
         int i=0;
         System.out.println("--------------count of the current   resultSet="+list.size());
        for(Node n:list){
            String   OrderID=n.selectSingleNode("./OrderID").getText();
            String   Client=n.selectSingleNode("./Client").getText();
            String   SellerId=n.selectSingleNode("./SellerId").getText();
            String   Amount=n.selectSingleNode("./Amount").getText();
            String   OrderDate=n.selectSingleNode("./OrderDate").getText();
System.out.println(++i+":"+OrderID+"\t"+Client+"\t"+SellerId+"\t"+Amount+"\t"+OrderDate);
        }

XPath语句中里/xml/row/Orders 是查询范围，Amount>1000 and Amount<=3000 and contains(Client,'bro')是查询条件，函数contains可进行模糊查询。XPath的函数分四类，数学函数有abs、floor，字符串函数如compare、substring，日期函数如year-from-date、timezone-from-time，还有一种聚合函数，下面正要讲到。

聚合计算：针对该XML文件，计算出总的订单金额。核心代码如下：

…
 list=doc.selectNodes("sum(/xml/row/Orders/Amount)");
 Object sumResult=list.get(0);
 System.out.println((Double)sumResult);

代码中使用了聚合函数sum，类似的函数XPath还有4个，分别是count\max\min\avg。

从上面两个例子可以看到XPath在XML计算方面的优点：代码简短直观，可以用点号方便地访问多层结构；对条件查询和聚合计算的支持较为完善，提供了较为丰富的库函数。

在计算需求较弱的互联网应用早期，XPath凭借上述优点深受开发者的追捧，但随着计算需求越来越多样化和复杂化，XPath的缺点也逐渐显露出来。

计算能力不足是XPath很致命的缺点。前面提到XPath支持条件查询和聚合，换个说法就是XPath只支持这两种很简单的计算，其他大量的常规计算则全都不支持，比如排序、归并、唯一、分组汇总、关联计算、分组后计算（含窗口函数）等等。再说XPath的库函数，表面上虽然数量不少，但真正可用于计算的函数就只有5个聚合函数，可以用少得可怜来形容。由于XPath不支持子查询和分步骤计算，对较复杂的计算目标更是无能为力。事实上，对于近几年的XML计算需求而言，XPath只能起到辅助的作用，大量的计算都要用硬编码完成。

除了计算能力之外，XPath还有数据源接口少的问题。XPath只有文件数据源接口，不支持WebService/HTTP，而后者才是XML的主要来源。

如今的计算需求越来越多样化和复杂化，难道开发者只能忍受计算能力不足的XPath，难道就没有计算能力更强的XML计算语言了吗？

集算器 SPL是个更好的选择。

集算器 SPL是专业的结构化/半结构化数据计算语言，内置丰富的计算函数，可以用简短的代码实现所有的常规计算，可将大计算目标分解为多个小步骤，支持多种数据源接口，同时提供JDBC集成接口。SPL可以用统一的语法和数据结构计算各类数据源，其中就包括XML。

对于前面的条件查询，只需如下SPL代码即可实现：

	A
1	=xml(file("D:\\xml\\Employees_Orders.xml").read(),"xml/row")
2	=A1.conj(Orders)
3	=A2.select(Amount>100 && Amount<=3000 && like@c(Client,"bro"))

上面代码先将XML读为多层的序表对象，再用conj函数合并所有订单，之后用select函数完成条件查询。

这段代码可在SPL的IDE中调试/执行，也可存为脚本文件（比如condition.dfx），通过SPL的JDBC接口在JAVA中调用，具体代码如下：

package Test;
  import java.sql.Connection;
  import java.sql.DriverManager;
  import java.sql.ResultSet;
  import java.sql.Statement;
  public class test1 {
      public static void main(String[]   args)throws Exception {
            Class.forName("com.esproc.jdbc.InternalDriver");
          Connection connection   =DriverManager.getConnection("jdbc:esproc:local://");
          Statement statement =   connection.createStatement();
          ResultSet result =   statement.executeQuery("call condition()");
          printResult(result);
          if(connection != null)   connection.close();
      }
…
}

再看几个例子。聚合计算：

=A2.sum(Amount)

排序：

=A1.sort(Dept,-Salary)

分组汇总：

=A2.groups(year(OrderDate);sum(Amount))

关联计算：

=A1.new(Name,Gender,Dept,Orders.OrderID,Orders.Client,Orders.SellerId,Orders.Amount,Orders.OrderDate)

从上面代码可以看出，SPL计算能力更强，不仅可以完成常用的计算，且代码简短易懂，与JAVA集成时耦合性更低。特别地，序表类型天然支持多层数据，可以用点操作符直观表达层级关系，特别适合XML。

SPL计算能力更强，经常可以简化多层XML的计算。比如文件book1.xml存储图书信息，其中作者节点有作者名、国籍这两个属性，且有些书有多个作者，部分数据如下：

<?xml version="1.0"?>
 <library>
 <book   category="COOKING">
 <title>Everyday Italian</title>
 <author   name="Giada De Laurentiis" country="it" />
 <year>2005</year>
 <info>Hello   Italian!</info>
 </book>
 <book   category="CHILDREN">
 <title>Harry Potter</title>
 <author name="J K.   Rowling" country="uk"/>
 <year>2005</year>
 <info>Hello   Potter!</info>
 </book>
 <book   category="WEB">
 <title>XQuery Kick Start</title>
 <author name="James McGovern" country="us"   />
 <author name="Per Bothner" country="us"/>
 <year>2005</year>
 <info>Hello   XQuery</info>
 </book>
 <book   category="WEB">
 <title>Learning XML</title>
 <author name="Erik   T. Ray" country="us"/>
 <year>2003</year>
 <info>Hello   XML!</info>
 </book>
 </library>

将这个XML整理成结构化二维表，其中作者字段以“作者名[国籍]”的格式呈现，如果某本书有多个作者，则以逗号分隔。最后查询该表，选出2005年的图书信息。结果应当如下：

title	category	year	Author	info
Everyday Italian	COOKING	2005	Giada De Laurentiis[it]	Hello Italian!
Harry Potter	CHILDREN	2005	J K. Rowling[uk]	Hello Potter!
XQuery Kick Start	WEB	2005	James McGovern[us],Per Bothner[us]	Hello XQuery

这道题有一定难度，用SPL来计算可以明显简化，具体代码如下：

	A
1	=file("D:\\xml\\book1.xml")
2	=xml@s(A1.read(),"library/book").library
3	=A2.new(category,book.field("year").ifn():year,book.field("title").ifn():title,book.field("lang").ifn():lang,book.field("info").ifn():info,book.field("name").select(~).concat@c():name,book.field("country").select(~).concat(","):country)
4	=A3.new(title,category,year,(lang,name.array().(~+"[")++country.array().(~+"]")).concat@c():author,info)
5	=A4.select(year==2005)

除了计算能力，SPL对WebService/HTTP等数据源的支持也较好，比如从WebService取天气预报的接口描述，再根据接口描述查询省份列表，并返回XML结果：

	A
1	=ws_client("http://www.webxml.com.cn/WebServices/WeatherWebService.asmx?wsdl")
2	=ws_call(A1,"WeatherWebService":"WeatherWebServiceSoap":"getSupportProvince")

作为第一款XML计算语言，XPath曾经做出过突破性的贡献，但计算能力不足始终是致命缺点。在计算需求日益多变的今天，唯有SPL这种能力更强的XML计算语言，才能继续提供较高的开发效率。

从 XPath 到 SPL

文章栏目

最新文章