参考 Oracle 建立全文索引的步骤,全文索引建立的过程模型可简单分为“文本输入->词法分析(Lexer Analyzer)->建立索引”三大步骤。
文本输入:文本输入的方式有多种,需要根据实际情况确定,比如读取数据库内容做为输入文本、扫描磁盘文件做为输入文本,或者用户输入文本等等 词法分析:词法分析阶段是全文索引的关键,词法分析的质量关系到索引的质量和后期的搜索效果,词法分析包括以下几方面内容: [*]选择词法分析器 - 不同的语言,不一定可以使用相同的词法分析器。比如英文在绝大多数情况下可以直接使用空格做为单词分隔符,对于中文,而需要先进行分词操作。 [*]过滤停用词 - 停用词(Stop Word)是指那些在文本中经常出现做无意义的字词,如英文中的 "the", "a", "an",中文中的“的”,“了”,“在”等等 [*]分词 [*]词根化 |
|