読者です 読者をやめる 読者になる 読者になる

re:正規表現で Unicode Block

odzさんの指摘、正規表現で Unicode Block - odz bufferを受け、
調べてみた限りでは現状のPythonUnicode Blockを扱えないらしい。
とりあえず、
/p{InCJKUnifiedIdeographs}的な表現を受け付けない。

ただ、Pyon's Diaryさんで書かれている、
舊 平成拾捌年神無月捌日 (火・曇):遅刻した。 // 辭めて仕舞へば良いのに。 // 晩御飯。 // PerlとPythonで文字種を判別する。 - Pyon's Diary(2006-11-28)
の通り、unicodedata(unicode character database)を用いれば
「一文字毎の文字種を判別できる」

unicodedata.name(c)

で、「(CJK UNIFIED IDEOGRAPH-6F22)」とか「 (KATAKANA LETTER KA)」とか得られちゃう。


でもやっぱり、(見た限りは)Unicode Block的には使えないのだった。
事足りる気はするけれどももも。
思ったけどunicodedataがUnicode Block的に扱えるといいですね。
unicodedata.block('InCJKUnifiedIdeographs')
みたいに。