如何让像 *ologist和*ology这样的词干/lemmatize到同一个根

我一直在玩一堆关于NLTK的 stemmers 和 lemmatizer,但是没有一个能达到我想要的效果。我有一堆单词,例如“放射科医生”,“放射科医生”,“心脏科医生”等...我想让 * ology 与 * ology 一起去同一个桶。我已经尝试过 PorterStemmer,SnowballStemmer 和 WordNet 的单词如何在

我一直在玩一堆关于NLTK的 stemmers 和 lemmatizer,但是没有一个能达到我想要的效果。我有一堆单词,例如“放射科医生”,“放射科医生”,“心脏科医生”等...我想让 * ology 与 * ology 一起去同一个桶。我已经尝试过 PorterStemmer,SnowballStemmer 和 WordNet 的单词如何在

1

你看过 Morfessor 吗?它具有一堆变形分割算法。显然,你正在寻找的那种分析可以使用这个工具。这里是链接 [1]:http://asr.aalto.fi/morfessordemo/

0

像这样吗?

>>> s = 'cardiology'
>>> s = s[:-5] if s.endswith('ology') else s
>>> s = s[:-7] if s.endswith('ologist') else s
>>> s
'cardi'
>>> s = 'cardiologist'
>>> s = s[:-5] if s.endswith('ology') else s
>>> s = s[:-7] if s.endswith('ologist') else s
>>> s
'cardi'
0

词干化 / 词素化的过程假定仅删除屈折后缀(即从单词radiologists中删除-s后缀),而您也要删除派生后缀。

尝试Lingua Robot。它还能够将单词分割为词素。例如,单词simplifications被分割为基本单词simple(我假设这是您要检索的)和派生后缀(-ify-ation-s)。

本站系公益性非盈利分享网址,本文来自用户投稿,不代表码文网立场,如若转载,请注明出处

(622)
二次公式AppInventor2
上一篇
在WindowsFormAPP中打开 WPF窗口
下一篇

相关推荐

发表评论

登录 后才能评论

评论列表(67条)