安装ANTLR和入门

426次阅读  |  发布于2年以前

1.安装

ANTLR是由Java写成的,所以在安装ANTLR前必须保证已经安装有Java 1.6或以上版本。你可以到这里下载ANTLR的最新版本,或者也可使用命令行工具下载:

$ curl -O https://www.antlr.org/download/antlr-4.7.1-complete.jar

归档文件包含运行ANTLR工具的所有必要依赖,以及编译和执行由ANTLR生成的识别器所需的运行库。简而言之,就是ANTLR工具将文法转换成识别程序,然后识别程序利用ANTLR运行库中的某些支持类识别由该文法描述的语言的句子。此外,该归档文件还包含两个支持库:TreeLayout(一个复杂的树布局库)和StringTemplate(一个用于生成代码和其它结构化文本的模板引擎)。现在来测试下ANTLR工具是否工作正常:


ANTLR Parser Generator  Version 4.7.1
 -o ___              specify output directory where all output is generated
 -lib ___            specify location of grammars, tokens files
 -atn                generate rule augmented transition network diagrams
 -encoding ___       specify grammar file encoding; e.g., euc-jp
 -message-format ___ specify output style for messages in antlr, gnu, vs2005
 -long-messages      show exception details when available for errors and warnings
 -listener           generate parse tree listener (default)
 -no-listener        don't generate parse tree listener
 -visitor            generate parse tree visitor
 -no-visitor         don't generate parse tree visitor (default)
 -package ___        specify a package/namespace for the generated code
 -depend             generate file dependencies
 -D<option>=value    set/override a grammar-level option
 -Werror             treat warnings as errors
 -XdbgST             launch StringTemplate visualizer on generated code
 -XdbgSTWait         wait for STViz to close before continuing
 -Xforce-atn         use the ATN simulator for all predictions
 -Xlog               dump lots of logging info to antlr-timestamp.log
 -Xexact-output-dir  all output goes into -o dir regardless of paths/package

每次运行ANTLR工具都要输入这么长的命令是不是有些痛苦?写个脚本来解放我们的手指吧!


#!/bin/sh
java -cp antlr-4.7.1-complete.jar org.antlr.v4.Tool $*

把它保存为antlr,以后就可以使用下列命令来运行ANTLR工具:

$ ./antlr

2.入门

先看下面这段用于识别像hello world那样的短语的简单文法:


grammar Hello;               // 定义文法的名字

s  : 'hello' ID ;            // 匹配关键字hello和标志符
ID : [a-z]+ ;                // 标志符由小写字母组成
WS : [ \t\r\n]+ -> skip ;    // 跳过空格、制表符、回车符和换行符

把以上文法保存为Hello.g,然后执行以下命令来生成识别器:

$ ./antlr Hello.g

该命令会在相同目录下生成后缀名为tokens、interp和java的8个文件:

$ ls Hello*
Hello.tokens  HelloLexer.interp  HelloLexer.java   HelloBaseListener.java  Hello.g
Hello.interp  HelloLexer.tokens  HelloParser.java  HelloListener.java

现在开始准备编译由ANTLR生成的Java代码。先写个脚本把编译命令包装起来:


#!/bin/sh
javac -cp antlr-4.7.1-complete.jar $*

把它保存为compile文件,然后你就可以用以下命令编译代码:

$ ./compile Hello*.java

到此,我们已经有一个可以被执行的识别器,只缺一个主程序去触发语言识别。ANTLR运行库有提供一个称之为TestRig的测试工具,可以让你不创建主程序就能测试文法。TestRig使用Java反射调用编译后的识别器,它能显示关于识别器如何匹配输入的大量信息。同样地,创建一个脚本grun来简化以后的打字数:


#!/bin/sh
java -cp .:$PWD/antlr-4.7.1-complete.jar org.antlr.v4.gui.TestRig $*

现在,让我们来打印出识别期间创建的那些记号(记号是指像关键字hello和标识符world那样的词汇符号):

$ ./grun Hello s -tokens  # Hello是文法的名字。s是开始的规则名字。

敲入上述命令并按回车,接着输入以下内容:

hello world  # 输入并按回车
EOF          # Linux系统输入Ctrl+D或Windows系统输入Ctrl+Z并按回车

TestRig会打印出记号的列表,每一行输出表示一个记号以及它的相关信息:

[@0,0:4='hello',<1>,1:0]
[@1,6:10='world',<2>,1:6]
[@2,13:12='<EOF>',<-1>,2:0]

这里详细讲解下[@1,6:10='world',<2>,1:6]的意义。@1表示记号索引(从0开始计数);6:10表示记号开始与结束的位置(从0开始计数);<2>表示记号类型,具体数值和类型存储在后缀名为tokens的文件中;最后的1:6表示记号在第一行(从1开始计数),从第6个字符开始(从0开始计数,制表符作为单个字符计算)。或者以LISP风格的文本形式查看记号:

$ ./grun Hello s -tree

它会输出如下形式的记号:

(s hello world)

最直观的就是以可视化的方式查看语法分析树:

$ ./grun Hello s -gui

以下是TestRig可用的所有参数:

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8