次期『略して「青P」』に向けて [戯言]
コレの青空文庫テキスト読み込み部分を変更しようと思い立ちました。
コレは、1行ずつファイルから読み込んで、1行ずつ処理をしているのですが、「左右中央」とか画像の「キャプション」とかの処理が1行ずつだとやりづらく、それならば、全部メモリ上に読み込んで、XMLのDOMみたいに木構造で表現してみたらどうかと考えたわけです。
ところが意外な盲点。
こんな結果にしようとした場合の注記は、次の様になります。
あいう[#「あいう」に傍線]えお[#「うえお」の左に傍線]
開始タグと終了タグを使って書き直すと、もう少し分かりやすくなりますが、
[#傍線]あい[#左に傍線]う[#傍線終わり]えお[#左に傍線終わり]
開始タグと終了タグの対応が交差する形になってしまって、この状態のデータは、木構造で表現できません。
というわけで、あっさり木構造案はボツになりました。
それにしても、今の処理方法って、結構適当に作った割りには、変な書き方してもちゃんと動く柔軟性に関心。
(とか言って調子の乗って色々と変な書き方をやっていたら、エラーになるパターンを見つけてしまった。そのうち、こっそりと直しておこう…)
タグ:青P
2012-09-15 10:24
nice!(0)
コメント(0)
トラックバック(0)
コメント 0