/models/language/wsj/prep.awk
https://bitbucket.org/noelnv/csc575 · AWK · 9 lines · 8 code · 1 blank · 0 comment · 1 complexity · 8cede8dff5c18124db9a6175941f776c MD5 · raw file
- {
- gsub(/<s[0-9\.\-]+>/, "<s>");
- gsub(/<p[0-9\.\-]+>/, "");
- gsub(/<\/p>/, "");
- if (length($0) > 0) {
- print;
- }
- }