平成18年2月4日

LaTeX to HTML

Markup language

ホームページ(ウェブページでも何でも好きなように呼べ)を作ったことがある人なら、それらは HTML (Hyper Text Markup Language) というルールに従って書かれている事を知っているだろう。マークアップ言語とは例えば

<p>あいうえお</p>

というように、タグと呼ばれる記号 <p> と </p> で文を挟むことによって、その文がどのような種類のものなのかを意味付けしているような書式の事である(ちょっと違うが)。「とりあえずタグで挟め。」これがマークアップ言語だ。HTMLで書かれた文書を例えば Internet Explorer のようなブラウザーで読めば、タグの意味通りに整形されて文書が表示される。勿論ブラウザーは一種類だけではなく Netscape や Firefox なども有名である。タグは意味付けであってデザインを示しているわけではない。従って同じ HTML 文書も異なるブラウザーで表示すれば異なるデザインで表示される。

LaTeX

一方、拙ページ「オレ研 - 自然科学」における殆どの記事は数式を多く含んでいる。そのため、殆どの文書は LaTeX というソフトで作られている。LaTeX はマークアップ言語と呼べるほど行儀は良くないが、

\begin{eqnarray}
   E&=&\sqrt{m^2c^4+p^2c^2}\\
     &=&\frac{mc^2}{\sqrt{1-\frac{v^2}{c^2}}}
\end{eqnarray}

コンパイル後のように書いてコンパイルすれば、生成された文書を専用ソフトで読むことが出来る。右図は生成された数式である。PostscriptファイルやPDFファイルに変換する事も出来る。

LaTeX2HTML

今のところ数式を含む記事は画像にして載せ、PDFファイルを併載することにしているのだが、HTML の観点からすれば文書を画像で貼り付ける行為はとても不恰好である。可能ならば LaTeX で組んだ文書を HTML に変換したいのが心情だ。

そこで先日、ようやく LaTeX2HTML (を日本語化したもの)を導入したわけだ。このソフト、通常の文書は文字データとして残し、数式は画像に変換して HTML として吐き出してくれる。使えるかも! と思ったのだが、レイアウトやページ構成などの変更が容易ではないため、実際に利用するまでには至らなかった。変換は飽くまで全自動で。変換後に微調整が必要だなんて変換ソフトとは言えない!

マークアップでドーン!

何か良い方法はないかとネットをウロウロしていた所、「++C++;」の「勉強用ページ」を発見した。岩永さん凄い! 流石言語情報科学講座の助手だ!(彼の略歴が良く分からん。博士を1年で取って直ぐに助手になったのか!?) こんな方法があったのか! XSL (eXtensible Stylesheet Language) なるものを駆使して数式を表現するとは。ブラウザーに依存しまくりだが、そんなものは御愛嬌である。凄いものは凄い。「数式表現用XML」を参考に勉強しなければ。

例えば φ というギリシャ文字。LaTeX では \phi と入力し、上述の LaTeX2HTML ではそれを画像ファイルとして変換される。しかし元々HTMLの特殊文字として &phi; と入力すればブラウザーでは φ と表示されるのである。これを使わない手はない筈だ。

きっと誰かが近いうちに、本当の意味での LaTeX to HTML 変換ソフトを作ってくれるに違いない。ああ、勿論フリーでね。

[LaTeX to HTML] < [独り言の部屋] < [TOP]