Web アプリケーション作成での注意点

Web アプリケーションは基本的に form 等を使ってデータを入力 して、それを適宜処理してから必要に応じて永続的データ（データベースあるいはファイル）として保存するという流れで動作するわけですが、本格運用するにはいくつか気をつけなければいけないことがあります。ここではそのうちの重要なものについて解説します。

ファイルのロック

大規模データを扱う場合はデータベース管理システム (DBMS) を使うわけですが、（来訪カウンタなど）小規模データで DBMS を使うまでもない場合、通常の (DBMSで管理されていない）ファイルを使ってデータ処理をする場合があります。その場合、注意しないといけないことがあります。

例えば、あるページでＡさんが入力データの送信を開始したとします。書き込んで更新ボタンを押すと、データファイルはオープンされ、データは処理されたのち保存され、ファイルは閉じられるわけですが、ほぼ同時、厳密にいうと Ａさんがファイルをオープンしてから閉じるまでの間にＢさんが書き込もうとしたらどうなるかを考えてみます。
Ｂさんが書き込もうとした瞬間にはＡさんの書き込みは完了していません から元のデータがＢさんの書き込み処理データとして読み込まれます。そして、Ｂさんがデータを書きかえて、そのファイルを閉じようとした時、 既にＡさんの書き込みはファイルに保存されているわけですが、Ｂさんはそんなことは分かりませんので、通常の処理として閉じようとして、 ファイルを上書きします。つまり、運が悪いとＡさんが書きかえた内容は無くなってしまうというわけです。これは本来あってはならないことです。

FileLock

データが無くなりはしないまでも、２つのプロセスがてんでんばらばら（非同期…後述） にデータ処理をおこなうとすると、本来順序のあるデータが、ばらばらの並びになって書き込まれる、という可能性もおおいにあります。

FileLock

書き込みの場合0 　書き込みの場合1 　　（0,1 ははじまりが0 か 10 かの違い）
書き込みの場合の結果参照（参照するとデータをクリアします）

自由な書き込みの場合のソースです。

<?php $fp = fopen("no-flock.txt", "a+"); // ファイルを書き足しでオープン for ($i=0;$i<10;$i++) { // $i が 0 から 9 (10 未満）まで＝１０回繰り返し $s = "Write " . $i . ";\n"; // $i を表示するための文字列をつくって fwrite($fp, $s); // その文字列をファイルに出力 sleep(1); // １秒待つ } fclose($fp); // ループを抜けたらファイルを閉じる ?> Finished!

もちろん DBMS を使えば上記のようなことにはならない（整合性を管理してくれる）わけですが、高々数バイトのデータの読み書きでいちいちDBMS を使うほどでも無い場合、という前提です。

このような状況にならないために、ファイルをロックする、ということをするのが一般的です。つまり、Ａさんが書き込みを開始したら、Ａさんがファイルを閉じるまでそのデータファイルはＢさんをはじめ他の人（プロセス）がオープンできないようにするわけです。そうすると、Ｂさんは、Ａさんがファイルを閉じて他の人に操作を許可（解放）するまで待って、その後Ｂさんの書き込みを開始すればよい、ということです。このような処理は、上のような好きな時に処理するのではなく、タイミングをはかって処理をおこなうという意味で同期処理と呼ぶことがあります。

逆に、上にあったような任意のタイミングでの処理は非同期処理と呼びます。

FileLock

あるいは、ロックをかけにいって失敗したら待たずに別の処理をしてから、少し時間をおいてロックをかけにいく、というやり方もあります。その場合は「少し時間をおいて」という処理を自分で工夫して書くことで、効率のよいスクリプトになります。

ちなみに来訪カウンタや掲示板のような単純な制御の場合にはさほど問題にはならないですが、複数の処理（プロセス）が絡み合って処理を進めていく場合、単純なファイルロックをおこなうと、複数のプロセスがお互いにずっと待ちのモードにはいってしまって処理が止まってしまうことがあります。これを デッドロック と呼び、これも絶対に避ける必要があるのですが、ここでは詳細は略します。

以下のコードはサンプルです。ちなみに多くのプログラミング言語ではロック機能があらかじめ提供されており、php, perl 等では flock 関数を用いることで実現できます。以下は flock する場合の例（PHP スクリプト）です。 <?php $fp = fopen("flock.txt", "a+"); if (flock($fp, LOCK_EX | LOCK_NB )) { // 排他 (EXclusive) ロックを行う for ($i=0;$i<10;$i++) { $s = "Write " . $i . ";\n"; fwrite($fp, $s); sleep(1); } flock($fp, LOCK_UN); // ロックを解放 (UNlock) echo "File locked and released."; // ロックに成功・解放した場合の出力 } else { echo "Fail to lock a file!"; // ロックに失敗した場合の出力 } fclose($fp); // ループを抜けたらファイルを閉じる ?> flock する場合0 　 flock する場合1 　（0,1 ははじまりが0 か 10 かの違い）
flock する場合の結果参照（参照するとデータをクリアします）

ちなみに flock は、ネットワークドライブの場合にはうまく動かない場合があることも記憶にとめておいてください。その場合は、自前でロックルーチンをつくります（ディレクトリをつくって、それをロックファイルとみなして処理する）。

クロスサイトスクリプティング (XSS)

Webページに入力データをそのまま表示している部分があると、当然タグを含めて全ての文字が表示できるわけですが、悪い人がページ内に <script> タグを使ってスクリプトを埋め込み、それを見たユーザとサーバ自身の両方に被害を及ぼすクロスサイトスクリプティング （厳密にはスクリプト混入…後述）という不正の手口に利用されてしまう可能性があります。これは、実は結構入りくんだ攻撃手法であり；

ユーザが悪意あるWebサイトを閲覧したときに、
出力されるWebページに悪意あるスクリプトが埋め込まれており、
まだそのスクリプトは効果を発揮せずに標的Webサイトへ転送され、
標的Webサイトのスクリプトを排除しない欠陥をついて、スクリプトが効果を発揮する形でブラウザへ戻ってきて、
スクリプトがブラウザで実行され、クッキーが漏洩したり、ファイルが漏洩・破壊したりといった被害が発生する、

といった攻撃です。ここでポイントになるのは４番目の、外部から与えられた「スクリプトを排除しない欠陥」すなわちクロスサイトスクリプティング脆弱性です。ブラウザにとってはスクリプトは標的Webサイトから来たものなので、ブラウザはそのスクリプトへ標的Webサイトのクッキーのアクセスを許可してしまったり等と被害がひろがります。このようにあるサイトに書かれているスクリプトが別のサイトへとまたがって（クロスして）実行されることから、クロスサイトスクリプティングと呼ばれています。

クロスサイトスクリプティング脆弱性の本質的な原因は、標的Webサイトに外部から任意のスクリプトを混入できてしまう、ということで、このため、スクリプト混入問題とクロスサイトスクリプティング脆弱性を混同している人も多いのです。しかし、クロスサイトスクリプティング脆弱性はスクリプト混入問題の中の問題の１つにすぎません。とはいえスクリプト混入問題はクロスサイトスクリプティング脆弱性以外にもさまざまなセキュリティ上の問題を引き起こすのでいずれにせよ対策が必要なのはかわりません。

現実的かつ危険な例として、以前 JavaScript で習ったスクリプトでクッキーを設定した後、この怪しい（つもり）のページをアクセスしてみてください。

...すいません、外部公開用にサーバの設定をかえたので、動かなくなっています。以下は動いたテイで読みすすめてください。(2020.11.15)
動くようになりました。(2021.11.17)
ちなみに上のこの怪しい（つもり）の crack.cgi の中身は以下のようなものです（本当は URL 部分はそれぞれ一行）。

ここではオウム返しの（つまり、脆弱性のある) test2.php を悪用して、 ma.echan.xyz が puffin.hannan-u.ac.jp のクッキーを盗めていることがわかるでしょう。

☆重要☆ 本来、puffin.hannan-u がうめこんだクッキーは、そのクライアントＰＣと埋め込み元の puffin.hannan-u 以外は読むことが出来ない はずなのに、 http://ma.echan.xyz/_C_/cookies.txt に保存されている、ということは、ma.echan.xyz = 第三者 が盗み見できている、ということになります（わかりますか？）
但し、ブラウザの設定によっては document.cookie を返さないようにすることも出来るようです（その場合は盗まれないので、セキュリティレベルは高い、ということになります）。

Webアプリケーションで、入力データをHTMLページへ埋め込む処理はつきものです。しかし、もし入力データに悪意あるスクリプトが含まれていた場合、 WebアプリケーションはHTMLページへ悪意あるスクリプトを埋め込んでしまうことになります。そこでサニタイジング (sanitizing) ＝スクリプトの無効化ということが必要になります。

サニタイジングとは

サニタイジングとは入力データから危険な文字を検出し、置換・除去することで、入力データを無害化する処理です。クロスサイトスクリプティング対策での入力データの無害化とは主にスクリプトを無効化 することになります。サニタイジングを施してスクリプトとして機能しなくなった入力データは、そのままHTMLページへ埋め込むことができますので、適切なサニタイジングにより、ユーザのブラウザへスクリプトがそのまま送られることを阻止できるわけです。具体的に一番よくやられている対処法は php ならば以下の関数を出力時に挟んで、タグ等を無効化する（別の字におきかえる）、ということです。以下は php での例です。

function sanitise($buf) {
    $buf = str_replace("&","&amp;",$buf);
    $buf = str_replace('"','&quot;',$buf);
    $buf = str_replace("'","&#39;",$buf);
    $buf = str_replace("<","&lt;",$buf);
    $buf = str_replace(">","&gt;",$buf);
    return $buf;
}

正規表現についての詳細は略して、結論からいえばHTMLタグ の属性値部分に入力データを埋め込む場合 に上の5つの文字を置き換えて サニタイジングするということです。

ちなみに「&...;」は、ブラウザ上では「＆＞＜」（ここではいわゆる全角記号を使ってます）等の、タグ等の構成要素としての記号として表示されますが、元の HTML テキストでは特殊記号ではない方法で（エスケープ して）記述するための記法です。

上では 5つの文字を置換していますが、実際には元のスクリプトのほうで入力データをダブルクオートでくくった場合シングルクオートの置換は不要で、またシングルクオートでくくった場合ダブルクオートの置換は不要だったりします。とはいうものの余分に置換しても問題はないので、ダブルクオートとシングルクオートの両方を置換することにしておいたほうが無難かもしれません。

ちなみにサニタイジングは、Web アプリケーションが HTMLを生成する時のタイミング で行ったほうが無難です。どうしてかというと、詳細は略しますが、データを埋め込むHTML中の文脈に合わせて適切な、場合によってはタグの無効化以外のサニタイジング手法を選択する必要があるからです。また、同じデータに誤って2回以上サニタイジングしてデータの意味が変わってしまう というミスも防げる、等の利点もあります。

その他、タグ属性はクオートすべき、とか、イベントハンドラも無効化すべき、等と細かいことはいろいろあるのですが、ここでは詳細は略します。とりあえず、まずはタグを無効化しないといけない、ということを最低限覚えておいてください。

SQL インジェクション

SQL インジェクション (Injection) も XSS と同様、入力文字列制限を行わない場合に不具合がおこる例です。Web アプリケーションでデータベース操作をさせる場合にはフォーム経由でSQL を発行することで処理をする場合が多いわけですが、この時に入力文字制限をしないと大変なことになる、ということです。例えば

$sql = "DELETE FROM USERS WHERE NAME = '$id'";

上記のようにSQLを組み立てる式があった場合、SQLインジェクションとして、

$id = "' OR 'a'='a";    # 実際には入力欄に「' OR 'a'='a」を入力

とすると、組み立てられたSQLは以下のようになって、

DELETE FROM USERS WHERE NAME = '' OR 'a'='a'

この文での条件（WHERE節）は「NAME = '' OR 'a'='a'」ですが、これはつまり 「『 NAME が空』または『'a' と'a'は等しい』」 となり、後者は常に正しいので、常にこの条件はなりたつこととなり、結果として 全てのユーザを削除 することになります。以下のスクリプトで体験できます。

初期化

削除（脆弱性あり）

このような操作を防ぐためには、まずなにはなくとも 「'」のエスケープ（記号の置き換え／無効化） が必要になります。

次に、数字チェックが必要な場合の例ですが、IDとして数値型を使用している場合のSQLは、

$sql = "DELETE FROM USERS WHERE ID = $id";

などと「'」が入らないわけですが、

$id = '0 or TRUE';    # 実際には入力欄に「0 or TRUE」を入力

とすれば、組み立てられたSQLは、

DELETE FROM USERS WHERE ID = 0 or TRUE

となり、上と同様にすべてのユーザを削除できることになります。今回は削除の条件設定でしたが、これが select (検索・表示）で使えれば、そのデータベース内の全データが閲覧できる（情報を抜き取れる）わけです。

今回の場合は数値型を想定した変数に文字列を入力するわけですから、perlとかphpなど、 型の無い（とまでは言わなくても、ゆるい） 言語でないと発生しにくいと思いますが、現実にこういうことはありがちだと思います。このように、数値項目に対するSQLインジェクション対策としては、 数字判定 が必要になります。本来、セキュリティ以前の問題として、数字判定はもちろん加えて、 桁数や最小・最大のチェック もやっておくべきでしょう。

おわりに

以上、簡単に Web アプリケーション作成の時に気を付けないといけないことを説明しました。この他にもまだ沢山あると思います。常に最先端の情報に敏感になってほしいと思います。

ちなみに、ここに書かれた内容を悪用して「不正アクセス行為の禁止等に関する法律」にふれる行為を行なった場合は処罰の対象になるので、実験するとしても、必ず自分の管理するコンピュータでのみ行なってください。何か不都合がおこっても責任はとりかねますので悪しからず。

目次に戻る

講義用スタイル
 印刷用スタイル（開いてから、ページを再度更新してください）