NLTK是构建处理人类语言数据的Python程序的领先平台。
该平台提供易于使用的接口,可连接超过50个语料库和词汇资源(如WordNet),同时配备一套文本处理库,覆盖分类、分词、词干提取、词性标注、解析及语义推理等功能,还包含工业级NLP库的包装器,并有活跃的讨论论坛。
NLTK适用于语言学家、工程师、学生、教育者、研究者及行业用户,支持Windows、Mac OS X和Linux系统,是免费、开源、社区驱动的项目。
平台配套有《Natural Language Processing with Python》书籍,由NLTK创作者编写,是语言处理编程的实用入门指南,引导读者学习Python程序编写基础、语料库使用、文本分类、语言结构分析等内容。其在线版本已更新适配Python 3和NLTK 3,原始Python 2版本可通过链接https://www.nltk.org/book_1ed访问。
通过NLTK可实现多种简单功能:
分词和词性标注:导入nltk后,对句子进行分词处理,能将句子拆分为单词及标点符号等 tokens,再通过pos_tag函数得到每个token的词性标注结果;
命名实体识别:利用ne_chunk函数对标注后的结果进行处理,可识别出人名等命名实体;
显示解析树:从treebank语料库中获取解析后的句子,通过draw函数可展示 parse tree。
若发布使用NLTK的作品,需引用NLTK书籍,引用格式为:Bird, Steven, Edward Loper and Ewan Klein (2009), Natural Language Processing with Python. O’Reilly Media Inc.
此外,用户可注册获取发布通知,或加入讨论论坛参与交流。
