環境依存文字


■pythonの文字コード

pythonの文字はファイルに出力する場合は常にstr型で出力。 出力しないと文字化けする. ターミナルの場合、pythonが標準出力のエンコーディングを 認識して、unicode型でも pythonが自動認識して 文字化けしないよう出力してくれるが、ファイルの場合変換する文字コードがわからないため文字化けが 発生する可能性がある。 unicodeは「文字コード」(バイト表現と文字の対応関係)ではない Python の unicode 型は「文字コード」にとらわれない型で、CPU やメモリ上で用いられる Python の str 型は「文字コード」に則ったバイト列で、出入力時にはこれを用いる ------------------------------------------------- unicode型.decode() ==> str型 str型.encode() ==> unicode型 ------------------------------------------------- 例) s1 = '日本語文字列(s1)' print s1 # 文字化けしない (str型) print s1.decode('utf-8') # str -> unicodeに変換. UnicodeErrorが発生する print type(s1) # str s2 = u'日本語文字列(s2)' print s2 # unicodeを出力. UnicodeErrorが発生する print s2.encode('utf-8') # 文字化けしない (unicode -> str) print type(s2) # unicode type関数で確認すると、バイト文字列はstr型/ユニコード文字列はunicode型であることが分かる。 >>> type('a') Out[5]: str >>> type(u'a') Out[6]: unicode


機種依存文字とは   外字   機種依存文字と呼ばれる由来   機種依存文字のサンプル   IBMと文字   制御文字   ASCIIコード   unicode   unicodeその他   誤表示   数値参照文字   BOMとは   文字コード表とは   SJIS   EUCJP   NEC特殊文字とは   CP932とは   符号化文字集合とは   メールと文字化け   base64とは   mime形式とは   urlencodeとは   SJISとJISコードの違い   改行とは   空白文字   Base64   ASCII文字←→URLエンコードの対応表   phpでのダブルクォート(シングルクォート) の違い   URLエンコードの気を付けるポイント   デコードの重複の注意ポイント   マルチバイト文字列   htmlエンコーディング   python文字列扱い   php SJIS-WIN   正規表現   正規表現とエスケープ文字   よくつかう正規表現例   メタ文字   波ダッシュ   JWTとは   pythonの文字コード   リモートからsudoを実行   pythonをバージョンを指定して実行   タイムスタンプとは   jsonとは   csvとは   webmとは   円マークとバックスラッシュ問題   ajax cache問題   ajax 非同期・同期通信設定   javaScriptでURLエンコード方法   拡張子一覧