Thứ Ba, 11 tháng 6, 2019

Xóa dấu tiếng việt bằng python, unaccent in python

s1 = u'ÀÁÂÃÈÉÊÌÍÒÓÔÕÙÚÝàáâãèéêìíòóôõùúýĂăĐđĨĩŨũƠơƯưẠạẢảẤấẦầẨẩẪẫẬậẮắẰằẲẳẴẵẶặẸẹẺẻẼẽẾếỀềỂểỄễỆệỈỉỊịỌọỎỏỐốỒồỔổỖỗỘộỚớỜờỞởỠỡỢợỤụỦủỨứỪừỬửỮữỰựỲỳỴỵỶỷỸỹ'
s0 = u'AAAAEEEIIOOOOUUYaaaaeeeiioooouuyAaDdIiUuOoUuAaAaAaAaAaAaAaAaAaAaAaAaEeEeEeEeEeEeEeEeIiIiOoOoOoOoOoOoOoOoOoOoOoOoUuUuUuUuUuUuUuYyYyYyYy'
def remove_accents(input_str):
 s = ''
 print input_str.encode('utf-8')
 for c in input_str:
  if c in s1:
   s += s0[s1.index(c)]
  else:
   s += c
 return s


Nguồn: https://gist.githubusercontent.com/J2TEAM/9992744f15187ba51d46aecab21fd469/raw/85942b0406f565f4b02b3d899a1478dbbdccb575/remove_accents.py

Không có nhận xét nào:

Đăng nhận xét