網頁

python 字串的Unicode編碼

python 字串的Unicode編碼

Unicode(中文:萬國碼、國際碼、統一碼、單一碼)是電腦科學領域裡的一項業界標準。它對世界上大部分的文字系統進行了整理、編碼,使得電腦可以用更為簡單的方式來呈現和處理文字。

在python 2.7版中,預設的字串格式為ASCII編碼,如果要以unicode的編碼格式來儲存字串,必須在字串的最前面加上 'u' 的前置字元,如:
>>> z='Hello, Eric'

>>> r=u'Hello, Eric'
>>> r
u'Hello, Eric'

>>> z
'Hello, Eric'

>>> chin=u'這是一個中文字串'
>>> chin
u'\u9019\u662f\u4e00\u500b\u4e2d\u6587\u5b57\u4e32'

>>> achin='這是一個中文字串'
>>> achin
'\xb3o\xacO\xa4@\xad\xd3\xa4\xa4\xa4\xe5\xa6r\xa6\xea'

>>> print chin
這是一個中文字串

>>> print achin
這是一個中文字串

>>> a=u'\u0040'
>>> print a
@