正则提取编码解码问题
生活随笔
收集整理的這篇文章主要介紹了
正则提取编码解码问题
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
p = re.compile(u'《(.*?)》') # 使用unicode編碼
vid_drama_list = p.findall(info_util.get_id_field(vid,"name_cn").decode("utf8")) # utf8解碼為unicode
vid_drama_list = [x.encode("utf8") for x in vid_drama_list] # unicode再編碼為utf8,防止輸出亂碼。
注意:
pattern和string中,都需要使用unicode,否則編碼不同,結果有誤(如:《推拿》,《一切都好》等)。
總結
以上是生活随笔為你收集整理的正则提取编码解码问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: awk打印第一个字母
- 下一篇: Hadoop Streaming二次排序