中文字符的编码范围是:
\u4e00-\u9fa5
使用正则匹配中文
# -*- coding:utf-8 -*- import re ''' python 3.5版本 正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大学' regex_str = ".*?([\u4E00-\u9FA5]+大学)" match_obj = re.match(regex_str, words) if match_obj: print(match_obj.group(1)) 结果:山海大学