《编译原理》实验报告——TINY语言的词法分析
TINY語言的詞法分析
實驗目的
(評價依據,描述是否準確到位)
構造tiny語言的詞法分析器(掃描器),要求利用第三方的lex工具進行構造。
構造出的掃描器,能夠讀入教材樣例中給出的tiny語言的示例代碼,分解成token輸出。
?
?
實驗設計
(評價依據實驗方案設計是否合理)
詞法分析
1、關鍵字: if, then, else, end, repeat, until, read, write.
所有的關鍵字都是保留字,且全部小寫。
2、專用符號: + ?- * / = < ( ) ; :=
這里只用了<, 沒有使用>,:=為賦值符號
3、其它標記是ID和NUM, 通過下列正則表達式定義:
ID = letter+ NUM = digit+ letter = [a-zA-Z] digit = [0-9]大寫和小寫是有區別的
4、空格是由空白、制表符和新行組成。它通常被忽略,除了它必須分開ID、NUM關鍵字
5、注釋用{...}圍起來,且不能嵌套。
DFA
TINY掃描程序的DFA如下圖所示:
內容和步驟
1、代碼:
/************************* tiny.l* @author stzg* 2015-9-21 23:08************************/ %{ #include "stdio.h" #include "stdlib.h" %}INT_DEX [1-9][0-9]*|[0] INT_HEX [0][Xx]([1-9][0-9]*|[0]) INT_OCT [0][0-7] FLOAT [0-9]*[.][0-9]+([eE][+-]?[0-9]*|[0])?f? SEMI [;] COMMA [,] ASSIGNOP [=] RELOP [>]|[<]|[>][=]|[<][=]|[=][=]|[!][=](^[=]) PLUS [+] MINUS [-] STAR [*] DIV [/] AND [&][&] OR [|][|] DOT [.] NOT [!] TYPE int|float LP \( RP \) LB \[ RB \] LC \{ RC \} STRUCT struct RETURN return IF if ELSE else WHILE while SPACE [ \n\t] ID [a-zA-Z_][a-zA-Z_0-9]* /*end of definition*/%% {SEMI} {printf("get semmi : %s\n", yytext);}{COMMA} {printf("get comma : %s\n", yytext); } {ASSIGNOP} {printf("get assignop : %s\n", yytext); }{INT_DEX} | {INT_HEX} | {INT_OCT} {printf("get an integer: %s\n", yytext); }{FLOAT} {printf("get a float: %s\n", yytext); }{PLUS} | {MINUS} | {DIV} | {STAR} {printf("get an operator: %s\n", yytext); }{RELOP} {printf("get a relop: %s\n", yytext); }{AND} | {OR} | {NOT} {printf("get a logic operator: %s\n", yytext); }{DOT} {printf("get a dot: %s\n", yytext); } {STRUCT} | {RETURN} | {IF} | {ELSE} | {WHILE} {printf("get keyword: %s\n", yytext); }{TYPE} {printf("get type: %s\n", yytext); }{LP} | {RP} | {LB} | {RB} {printf("get brackets : %s\n", yytext); }{SPACE} { /*ABANDON THESE CHARACTORS*/ }{ID} {printf("get an ID: %s\n", yytext); } {LC} { char c;do{ c = input();if (c == EOF) break;//if (c == '\n') lineno++;} while (c != '}'); }%% int yywrap() {return 1; }int main(int argc, char** argv) {if (argc > 1) {if (!(yyin = fopen(argv[1], "r"))) { perror(argv[1]);return 1;}}while (yylex());return 0; }2、結果:
輸入:
{ Sample programin TINY language -computes factorial } read x; { input an integer } if 0 < x then { don't compute if x <= 0 }fact := 1;repeatfact := fact * x;x := x - 1until x = 0;write fact { output factorial of x } end輸出:
實驗結論:
1、理論基礎(評價依據 理論知識非常清楚)
我們采用flex進行詞法分析。flex是一個用來生成掃描器(scanners)的工具,其中掃描器就是可以識別文本中詞法模式的程序。具體流程為:flex讀取給定的輸入文件,或標準輸入(當沒有給定文件名時)讀取信息來生成一個掃描器。信息以正則表達式和C代碼組成,這種形式稱為規則(rule)。flex生成C源代碼文件lex.yy.c,其中定義了一個函數yylex()。這個文件通過編譯,并用-lfl 鏈接生成可執行文件。當可執行文件被執行時,它分析輸入中可能存在的符合正則表達的內容。當找到任何一個與正則表達式相匹配內容時,相應的C 代碼將被執行。
flex輸入文件由三段組成:定義(definitions),規則(rules),用戶代碼(user code)
2、分析和總結(評價依據:是否能夠對實驗結果作出完整和準確的描述,是否能夠捕捉到實驗中的各種現象,是否有強的信息綜合能力,是否能得出正確的結論。)
實驗過程中需要配置flex和bison的環境變量,在對原輸入串進行分析的預處理在嵌套判斷上出現了問題,調試了幾次后才發現是計數值應該減少2。通過這次實驗對詞法分析器的運行機制有了更深的了解,狀態轉換圖讓我了解了一些編程語言的詞法分析器是怎么書寫的。
3、對工具的評價(優缺點及其局限性的總結)
flex的設計目標就是生成一個高性能的掃描器。它已經對處理大量rule 做了優化。除了用-C 選項進行表格壓縮之外,還有一些option/action 會影響到掃描器的速度。
比如JavaScript,就不適合使用flex作為詞法分析器,JavaScript 正則表達式字面量和除法操作符的二義性, 很難用 lex 解決, 一般只用 lex 做很少的事情, 然后把真正含義的辨清延遲到 parse 階段.
真正復雜的問題是bison搞不定的,譬如說C++需要語義分析和語法分析同時做,讓語義分析的結果來指導語法分析到底要選擇哪條grammar rule來resolve conflict
flex ++是一個類似于C ++的詞法掃描程序,它作為flex包的一部分包含在內。 生成的代碼不依賴于任何運行時或外部庫,除了內存分配器(malloc或用戶提供的替代),除非輸入也依賴于它。 這在傳統操作系統或C運行時,設施可能不可用的嵌入式和類似情況下非常有用。
Flex只能為C和C ++生成代碼。要使用flex從其他語言生成的掃描程序代碼,可以使用SWIG等語言綁定工具。
?
參考文章
Windows環境下lex入門
LEX/FLEX詞法分析器
自己動手寫編譯器之TINY編譯器詞法分析
Yacc 與 Lex-詞法分析器工具
編譯原理實驗一 TINY語言的詞法分析
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的《编译原理》实验报告——TINY语言的词法分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JAVA——GZIP压缩与解压缩
- 下一篇: 《编译原理》实验预习报告——TINY语言