Excelのソートは便利?お節介!
MSの表計算ソフトExcelのソートは、標準状態(デフォルト)では「ふりがな」を利用していることを知った。「そんなの常識」と思われるかもしれないが、MS-DOS時代からPCをいじっていると、「ソートは文字コード順」が固定観念なのら。律儀にバージョンアップして新機能を調べる訳でもないし。ちなみにコード順でソートしたければ、「データ」→「並べ替え」→「オプション」で「ふりがなを使わない」を選択するようだ。
この機能、どのバージョンから実装されたか不明だが、すでに3年前に驚いている人がいたので、Office2000には入っていたのだろうか。
思い返せば、OfficeXPで奇妙なソ−ト結果に悩まされていたのはこれが原因かもしれない(どう奇妙なのか記憶が曖昧なので検証できないが、後述の「同じ字を別の読み方で入力」か「テキストデータのインポート」が怪しい)。
ふりがなを使えば便利なことはある。たとえば名簿のソートで吉川(よしかわ)さんと吉川(きっかわ)さんは自動的に判別される。
ところがぎっちょん、オペレータがキッカワさんをヨシカワさんと入力して変換していると、見た目はまともでもデータとしては欠陥を抱えてしまう。従来のコード順ソートなら別途ふりがなフィールドを作るから検証も楽だが、こいつは「並べ替えるまでわからない」というロジック爆弾を抱えてしまうのだ。だいたい名前の中には一発変換できないものがある。その場合は別読みの熟語を入力して修正といった方法がとられる。当然ふりがなは違うものが。単語登録してあると、その「読み」がふりがなになるので、これまた厄介(短縮形で登録してある場合など)。
しかし一番の問題は、MS-Office以外、たとえばテキストデータから貼付けた場合だ。こちらにはふりがなデータがないからコード順にソートされる。Excelで入力したデータと混在したらふりがなを使ったソートは混乱しか招かない。とすれば、ふりがなを使うソートがデフォルトとはとんだお節介。
あと不思議なのはひらがなとカタカナ。以前はコード順、つまり「あ−ん」「ア−ン」それぞれで並べ替えられていたと記憶するが、少なくともExcel X for Macでは、ふりがなを使わないを選択しても「アあイい...ンん」とカタカナ先行で混在する。辞書を作るにも使えないし、カタカナ語の抽出なんて作業はできなくなってしまった(別の方法はありそうだが)。
教訓
ときどきはデジタルARENAの実践テクニックでも眺めよう。今回は役に立たなかったけれど...
今回の発見の端緒となった、人の注意を無視してプログラムを操作する「阿」師に感謝します。
| 固定リンク
コメント