[pkg-anthy-devel] UTF-8 encoding change

Osamu Aoki osamu at debian.org
Sun Jul 7 06:20:30 BST 2019


ちょっと、utf-8-with-signatureのことを考えました。

気持ちが悪いと感じたものの「実害が無いなら良いんじゃないの」と
いわれれば一理はあるので。

> Visual Studio は、BOM付きでないとUTF-8と認識してくれません。これは gcc
> には影響ありません。

きっと、GCCのソースのパーサーがBOMを無視するようになっているんですね。

ただ、テキストパーサーを、例えば行頭が「#」だとその行を無視と
いうように8-BITクリーンでASCII前提で書くとBOMがあるとそこでこ
けます。ANTHYの辞書ファイルのパーサーはどうでしょう。特に配慮して
います?

とにかく表示されないデーターが埋め込まれて、all.depword
のように「cat $(DEPWORDS)」とすると、ファイルの先頭以外にも
うめこまれます。確かにパーサー側を加筆して必ずBOMを落としてから
処理するようになって入れば良いのでしょうが、、、

まあ、きっとこんなところがPHPのデーターなどでutf-8-with-signatureが
バグるなどといって嫌われる所ですね。

Visual Studioでの対応がうまくいけば、README.WINDOWSでも作り
そこに手順を書くのはいかががです。Visual Studio用のファイル(rcファイル)
等はUTF-16でも何でも好きにして良いです。ただ、クロスプラットフォーム
のデーターはやはりクリーンなBOM無しのUTF-8にすべきでは?
本来あるべきでない見えないデーターがソースにあるのは。。。と思います。

ここは先ほどの情報も読んだ上でどのくらい困られているのかで考えるべき
ですね。状況をお教えください。

青木



More information about the Pkg-anthy-devel mailing list