コンピューターというのは、基本的にデジタル処理(1と0、ONとOFFなど)しかできないので、文字の形をそのまま覚えるとかなりの容量が必要になる。それで、容量を減らすために文字に番号をつけて覚えておいて、番号を復元することで文字として読めるようになっている。その番号の付け方が、日本語なら「SJIS」や「EUC」、「JIS」などという規格で決められているので、「SJIS」として記録してるデータは「SJIS」で復元しないと意味不明な記号の羅列に見えてしまう。
まあ、その辺の詳しい(もしくは、正確な)事は「文字コード」とか「漢字コード」で検索すればいろいろと見つかるでしょう。2つほどあげれば、「日本語と文字コード」や「文字コードの話」などでしょうか。
結局何が言いたいかというと、フォームから送信されたデータで「%」がついてる(例えば「%82%A0%82%A2%82%A4%82%A6%82%A8」のような)ものは、URLに使えない(使うのを推奨されていない)文字の「文字コードを“%”付の文字列に変換」した結果、だという事。「フォームからの入力」で意味不明な状態で使っていた「pack()」の命令は、「“%”付の文字列を文字コードに変換」している作業だ。
・・・なんか、前置きが長くなったかも・・・。
で、今回やりたかったのは、「文字←→文字コード」の変換。でも、Perlにはそれ専用の関数があったりする。「文字→文字コード」にするのが「ord()」で、「文字コード→文字」にするのが「chr()」だ。ただ「ord()」は1バイト分しか変換できないようで、複数の文字とか全角をいれると最初の1バイトだけを変換して返すようだ。配列で受けてもデータが1個しかない。
ところで、1バイトというのは8ビット、つまり、8桁の2進数の事で、256個の情報を区別する事ができる。8桁の2進数は16進数で表すと2桁になる。人間でもこの変換は比較的簡単なので、この手のデータの表現には16進数を使う事が多い。
01011010 → 0101 1010 → 80+41+20+11 81+40+21+10 → 5 A(10) → 5A
むぅ。なんか話がずれてる・・・。
で、結局何かというと、「ord()」を使うなら1バイトずつ区切る必要があるということ。そして、1バイト毎にデータ化するなら16進数が便利ということ。
ただ、「ord()」は数値で返ってくるので、16進数に変換する必要がある。そして「chr()」は数値に変換してやらなくてはいけない。しかも、それぞれ1バイトずつなのでループが大変・・・。
実は「unpack()」や「pack()」の添え字(?)に「H」を使う事で「文字コードを16進数の文字列に変換する(またはその逆)」ことができる。これらは1バイトずつ区切らなくてもいいので、全体を変換するのはとても簡単。
・・・まあ、最終的にはこれが書きたかったんだけど、すごくまわりくどい書き方になった。
この「pack()」の添え字「H」を使う方法は「Perlメモ」の「URIエスケープ・アンエスケープする」を見て知りました。他にもいろんな事が書いてあります。しかも実用的なコードでまとめられているので応用も簡単にできます。もし知らなかったのなら行ってみましょう。
ソースコード
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
|
#!/usr/bin/perl
#BEGIN{
# print "Content-type: text/plainnn";
# open(STDERR, ">&STDOUT");
# $|=1;
#}
$usr_title = 'テスト32';
$tgCode = ord('漢');
if($tgCode == 0x8a){
$usr_outcode = 'sjis';
}elsif($tgCode == 0xb4){
$usr_outcode = 'euc';
}
require "./tsenv.pl";
{
printHeader($usr_title);
printBodyHeader('文字←→文字コード');
# チェックする文字
@checkStrs = ('a', 'A', '1', '@', '\\', '}', '[ ]', 'あ');
# 1文字変換
Jprint(<<EOM);
<table border=1>
<caption>ord() & chr()</caption>
<tr>
<th rowspan=2>文字
<th rowspan=2>→
<th colspan=5>文字コード
<th rowspan=2>→
<th rowspan=2>文字
</tr>
<tr>
<th>10進数
<th>→
<th>16進数
<th>→
<th>10進数
</tr>
EOM
foreach(@checkStrs){
my $dOrd = ord();
my $hOrd = sprintf("%x", $dOrd);
my $dhOrd = hex($hOrd);
my $dChr = chr($dhOrd);
print <<EOM;
<tr>
<td>$_
<td>
<td>$dOrd
<td>
<td>$hOrd
<td>
<td>$dhOrd
<td>
<td>$dChr
</tr>
EOM
}
Jprint(<<EOM);
</table>
EOM
# 一括変換その2
push @checkStrs, '漢字', 'Nobu3', '!"#()=~';
Jprint(<<EOM);
<table border=1>
<caption>unpack(H*) & pack(H*)</caption>
<tr>
<th>文字
<th>→
<th>文字コード
<th>→
<th>文字
</tr>
EOM
foreach(@checkStrs){
my $hunpack = unpack("H*", $_);
my $hpack = pack("H*", $hunpack);
print <<EOM;
<tr>
<td>$_
<td>
<td>$hunpack
<td>
<td>$hpack
</tr>
EOM
}
Jprint(<<EOM);
</table>
EOM
printFooter();
exit(0);
}
|