通信プリミティブ

並行システム

                               システム情報工学研究科コンピュータサイエンス専攻、電子・情報工学系
                               新城 靖
                               <yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2008-01-25
あるいは、次のページから手繰っていくこともできます。
http://www.cs.tsukuba.ac.jp/~yas/sie/
http://www.cs.tsukuba.ac.jp/~yas/

■捕捉

◆読み書きロック

並列性を高めるためには、複数の読み手を同時に実行する方法がある。読み込みだけなら、並列に実行したい。

これを実現するものが、「複数読み手単一書き手ロック」、あるいは、「読み書きロック」。

図? 普通のロック、読書きロック

読むだけでもロックする必要がある。さもないと、読んでいる途中で変化することがある。

■今日の重要な話

通信プリミティブの分類

同期か非同期か。
アドレス指定。送り先の指定がプロセスかメール・ボックスか。
信頼性があるかないか。
結合が作られる／作られない
順序が保存される／されない
バッファリングあり／なし
単方向／双方向
受け手が１つ／複数（マルチキャスト）

クライアント・サーバ型の通信。

３つの基本命令
- get_request()
- send_reply()
- do_operation()
クライアント・サーバ型の通信、ＲＰＣの障害への対応
- セマンティクスとトレードオフ
- idempotent冪等な操作
- 無状態サーバ

資料：谷口秀夫 (編), 谷口秀夫, 佐藤一朗, 佐藤文明, 柴田義孝, 新城靖, 横山和俊 (著): "情報処理学会編集 IT Text 分散処理", オーム社 (2005年9月). ISBN: 4274201333.

第２章基盤技術 (新城)

■TCP/IP

◆IP

IPデータグラム（datagram）転送サービス

信頼性がない
単方向
データの送り手と受けての間に結合（通信路）が形成されない
送出したデータの順番が途中で変ることや送出したデータが失われることがある。その場合、システムは何もしない。
アドレス指定は、IPアドレス。IPv4 で 32ビット。IPv6 で 128ビット。

◆TCP

ストリーム転送サービス

信頼性のある（reliable）
双方向
２つのプロセス間に結合(connection，通信路)が形成される
複数回に分けて送り出したデータでも順番が入れ替わらない
データの区切りは保存されない
アドレス指定は、結合で指定。結合は、次の４つで区別される。
- 送り手のIPアドレス
- 送り手のポート番号
- 受け手のIPアドレス
- 受け手のポート番号

データの区切りが保存されると、sequenced packet と呼ばれる。

◆UDP (User Datagram Protocol)

IP と同じデータグラム転送サービスを提供する。ポート番号がある所は、TCP と同じ。IP にはポート番号がない。

IP層は、転送サービスとして信頼性のないデータグラムを提供する。TCP 層の仕事は、それを使って、双方向のストリーム転送サービス提供することである。そのために、「再転送付き肯定確認応答(positive acknowledgement with retransmission)」という、一般的によく用いられている技術が使われている。この技術では、データの受け手は、データを受け取る度に、送り手に確認応答(acknowledgement, しばしば ack と省略される)を返す。データの送り手は、確認応答を受け付けると、次のデータを送る。ある時間がたっても確認応答が来なかった場合、データの送り手は、再転送(retransmit)する。

TCP層の技術2:スライディング・ウィンドウ

ストリームを実現する技術として、TCPは、スライディング・ウィンドウ (sliding window)と呼ばれる技術を用いている。この技術では、ウィンドウと呼ばれる範囲を設定して、確認応答が来る前に、次々とウィンドウ内のパケットを送出す。確認応答を受け取ると、ウィンドウを「スライド」させ、次のパケットを送り出す。

フロー制御

受け手のバッファ（メモリ）は、有限である。送り手は、受け手消費する速度に合わせてパケットを送出さなければならない。このような制御をフロー制御という。TCPでは、スライディング・ウィンドウを用いてフロー制御を行っている。

■marshaling/unmarshaling

プログラム中のデータ項目とネットワーク上を流れるメッセージに対応づける。

marshaling (整列化): メモリ中からデータ項目を集めて、ネットワークでメッセージとして転送するのに適した形式(１固まりのデータ)にまとめる。
unmarshaling (非整列化): 逆。

英語の綴りは、l が１つのものと２つのもの(イギリス綴り)がある。教科書によって違う。

図? marshalingとunmarshaling

４個の要素からなる構造体を整列化して送信している。

整数
文字列
ビットマップデータ（可変長）のバイト数
ビットマップデータ（可変長）の本体

整列化する基本的な方法

構造体や配列の要素を先頭から順にバッファに追加する。
可変長のデータの場合、まず、要素数を追加し、それに続いて本体を追加する。

ネットワークからデータを受け取ると、先頭から解釈して元のデータを再現する。

ネットワーク上を流れている時には、整列化されたデータの先頭にはネットワークのヘッダが付加されている。

◆XDR

SunRPC で使われているデータ形式。バイナリ文化。

rpcgen というスタブ・コンパイラがある。データ構造を与えると、marshaling の手続きを自動生成する。

SunRPC を使わなくて、XDR だけを使う方法もある。

xdrmem_create(XDR *, const caddr_t, const uint_t, const enum xdr_op): メモリの指定されたの番地に保存／回復／メモリの解放。
void xdrstdio_create(XDR *, FILE *, const enum xdr_op): FILE * を通じて、構造体の読み書き。

◆バイト・オーダー

分散プログラムでは、メッセージを送信するプロセスと受信するプロセスが異なる CPU で実行されることがある。整数を送るだけでも、バイトオーダに気をつける必要がある。

Ｃ言語で扱える整数

1 バイト(char)
2バイト(short)
4バイト(long)

現在のコンピュータのほとんどは、バイト単位でアドレスを付けているので、１バイトの整数については、バイトオーダの問題はない。

2バイト、または、4バイトの整数をメモリに保存する方法 : メモリの下位番地に上位バイトを置くか下位バイトを置くか

リトルエンディアン: 下位番地に下位バイトを置く。Pentium。
ビッグエンディアン。: 下位番地に上位バイトを置く。PowerPC (Macintosh) や SPARC

図? バイト・オーダー

◆ビッグエンディアンとリトルエンディアンの比較

リトルエンディアンがよい
- 32ビットの整数のうち、下位 8 ビットや 16 ビットだけが必要な場合、番地の計算をし直す必要がない。
- 多倍長の整数を足し算したい場合は、下位からアクセスする
ビッグエンディアンがよい
- 多倍長の整数の比較や割り算

◆送り方

送信側、または、受信側で相手に合わせて変換する。バイトオーダが同じ場合は何もしない。
標準的なバイトオーダ(ネットワーク・バイト・オーダ) を定める。送信側では、ネットワークにデータを流す時には、常に自分自身のバイト・オーダ（ホスト・バイト・オーダ）をネットワーク・バイト・オーダに変換する。受信側では、ネットワーク・バイト・オーダから自分のホスト・バイト・オーダに変換する。

現在、ネットワーク・バイト・オーダとしては、ビッグエンディアンが広く使われている。

TCP/IP の IP アドレスやポート番号
XDR

◆バイトオーダを変換するライブラリ関数

名前	方向	ビット数
htonl()	ホストからネットワークへ変換	32ビット
htons()	ホストからネットワークへ変換	16ビット
ntohl()	ネットワークからホストへ変換	32ビット
ntohs()	ネットワークからホストへ変換	16ビット

long int hostlong, netlong;    
hostlong = 0x12345678 ;    
netlong = htonl( hostlong );    
send(conn, &netlong, sizeof(netlong), 0);

◆snprintf()/strtol()

snprintf() で文字列に直して送り、strtol() や atoi() でもどす方法もある。文字列文化。インターネットのアプリケーションでよく使われる。

思ったほど遅くはない。

注意：sscanf() は、整数をデコードするために使う分には問題ないが、文字列を受け取るために使うとバッファ・オーバーフローが生じる可能性があるので、使わない方がよい。

◆文字列の送信

文字コードを合わせる。
複数バイトの場合、バイト・オーダも合わせる。

Unicode BOM (byte order mark) 0xffef。

◆その他

XML でタグ付けすると、値だけでなく、意味まで送れる。
CSV (Comma Separated Values)
S式

■Socket API

ソケットAPIは、TCP/IP をBSD 系 Unix に導入する時に設計された API である。

今後 TCP/IP 以外にも様々な通信プロトコルが開発され、Unix で利用できるように設計されている。TCP/IP で使う時には、煩雑である。

◆ソケットAPIでのプロトコルの指定

ドメイン	型	プロトコル
PF_INET	SOCK_STREAM	TCP(IPv4)
PF_INET	SOCK_DGRAM	UDP(IPv4)
PF_INET6	SOCK_STREAM	TCP(IPv6)
PF_INET6	SOCK_DGRAM	UDP(IPv6)
PF_UNIX	SOCK_STREAM	同一ホスト内(UNIXドメイン)のストリーム
PF_UNIX	SOCK_DGRAM	同一ホスト内(UNIXドメイン)のデータグラム
PF_NS	SOCK_STREAM	XNS のストリーム(SPP)
PF_NS	SOCK_SEQPACKET	XNS の順序付きパケット(IDP)
PF_NS	SOCK_RDM	XNSの信頼性のあるデータグラム(SPP)

◆ソケットAPIの主要なシステムコール、または、ライブラリ関数

名前	説明
socket()	通信プロトコルに対応したソケット・オブジェクトを作成する
connect()	結合(conection)を確立させる。サーバのアドレスを固定する。
listen()	サーバ側で接続要求の待ち受けを開始する。
accept()	サーバ側で接続されたソケットを得る。
bind()	ソケットにアドレス(名前)を付ける。
getpeername()	通信相手のアドレス(名前)を得る。
getsockname()	自分のアドレス(名前)を得る。
send(), sendto(), sendmsg()	メッセージを送信する。
recv(), recvfrom(), recvmsg()	メッセージを受信する。
shutdown()	双方向の結合を部分的に切断する。
getsockopt()	オプションの現在の値を取得する。
setsockopt()	オプションを設定する。
select(), poll()	複数の入出力(通信を含む)を多重化する。
write()	メッセージを送信する。
read()	メッセージを受信する。
close()	ファイル記述子を閉じる。他に参照しているファイル記述子がなければ、ソケット・オブジェクトを削除する。

write(), read(), close() はファイルと共通。

◆主要な IP アドレスを扱う関数

名前	説明
gethostbyname()	ホスト名から IP アドレスを調べる。
getaddrinfo()	ホスト名から IP アドレスを調べる。IPv6対応。
gethostbyaddr()	IPアドレスからホスト名を調べる。
getnameinfo()	IPアドレスからホスト名を調べる。IPv6対応。
freeaddrinfo()	getaddrinfo(), getnameinfo() で得られた構造体を解放する。

関数名には、IP以外も考えた名前にして欲しかった。

◆JavaのAPI

Java言語は、基本的に TCP/IP と UDP/IP しかサポートしていない。したがって、TCP/IP や UDP/IP のプログラムを作成する場合には、分かりやすくなっている。

TCP/IP では、クライアント側とサーバ側でソケット・オブジェクトの作成するクラスが違っている。

クラス名説明

Socket TCP/IP のクライアント側のソケット

ServerSocket TCP/IP のサーバ側のソケット

DatagramSocket UDP/IP のソケット

Java でも、実際の通信には、ファイルと同じ API を用いる。例： Socket クラスのオブジェクトに対して getInputStream() というメソッドを実行すると、InputStream クラスのオブジェクトが返される。 InputStream は、ファイルからの入力と共通。

クラス名	説明
Socket	TCP/IP のクライアント側のソケット
ServerSocket	TCP/IP のサーバ側のソケット
DatagramSocket	UDP/IP のソケット

以後、ネットワークから文字列を入力するには、InputStreamReader や BufferedReader のオブジェクトを生成して利用する。

出力側では、Socket クラスのオブジェクトに対して getOutputStream() して、 OutputStream クラスのオブジェクトを得て、 PrintStream オブジェクトを生成して利用できる。

■クライアント・サーバ・モデル

手続き呼出しの形に見えたら RPC (Remote Procedure Call)。

通信を構造化。send()/receive() を直接使うのは、goto (jump) でプログラムを書くようなもの。call/if/while で書きたい。

プロセスを２種類に分類する。通信は、次のパタンを繰り返す。

クライアント: 先にメッセージ(要求)を send() １回、後でメッセージ(応答)を receive() １回
サーバ: 先にメッセージ(要求)を receive() １回、後でメッセージ(応答)を send() １回

send() の回数と receive() の回数は同じ。相互に繰り返す。

図? 通信のパタンからみたクライアントとサーバの定義

◆クライアントとサーバに分けて考える意義

混沌とした通信を「構造化」してわかりやすくする。

図? 構造化されていないもの

図? 構造化されたもの

構造化プログラミング：分かりにくいgoto文をつかわないで、わかりやすい goto文だけ使う。

◆サービスの授受

元々の意味

クライアント(client): サービスを受ける方、顧客
サーバ(server): サービス(service)を提供する方

図? サービスの授受によるクライアントとサーバの定義

◆利用者数

サービスを提供する方は、１つのプログラム（コンピュータ）で複数の利用者の面倒をみる。その結果、１台のサーバに複数のクライアントがつながる。

クライアント: 一人で使うもの
サーバ: 複数人で共有するもの

図? 複数のクライアントによるサーバの共有

◆接続方法

TCP/IP の通信では、通信を始める前に、まず、通信路を作る作る必要がある。これは、電話で話をする前に、まず、電話をかける操作を行うことと似ている。

クライアント: 電話を掛ける方に相当する
サーバ: 電話を待っている方

以上のように、クライアントとサーバは、いろいろな意味で使われる。これらの意味は、多くの場合、一致しているが、一致していないこともある。

◆能動的・受動的

通信を開始するパタンで、コンピュータ、プログラム、人間は、次の２つに分類される。

能動的(active): ほっといても自分でメッセージを発信し始める
受動的(passive)、受け身: 何か言われると答えるが、自分ではメッセージを発信し始めることはない

クライアントとサーバから作られたシステムは、クライアントが能動的になり、サーバは、受動的になることが多い。

図? 能動的なクライアントと受動的なサーバ

例：ＷＷＷサーバは、ＷＷＷクライアントから何か要求が来ない限り、ずっと黙っている。

コンピュータを使う時には、人間が能動的になり、コンピュータが受動的になる。

テレビを見ている時には、人間が受動的になり、テレビが能動的になる。

講義形式の授業では、サービスの授受では、教官がサーバで、学生がクライアントになる。通信の開始の方法では、教官が能動的になり、学生が受動的になる。

大学以上では、学生は、能動的になることが求められている。

◆Peer to Peer (P2P)

P2P (Peer to Peer) という用語の意味は、怪しい。

混沌とした通信を構造化してわかりやすくしたものが、クライアント・サーバ・モデルである。

サーバあるシステムでは、サーバが落ちるとシステム全体が動作しなくなる。このように複数の要素から構成されているシステムで、ある要素が故障した時に、全体が動作しなくなるような場所を、単一障害個所(single point of failure) という。

コンピュータサイエンスでは、古くから、単一障害個所を避けるための研究が行われてきている。もっとも成功している方法は、サーバを複数用意する方法である。

サーバがないシステムでは、下手に作るとどの要素が故障してもシステム全体が止まってしまうことになる。

サーバがないシステムで成功している例はある。

インターネットの基幹のルータ。(IPv4 の BGP (Border Gateway Protocol) は、スケーラビリティ的に厳しい所には来ている。)
ニュースシステム

peer は、「対等の仲間」の意味。「通信相手」という意味もある。

検索は、サーバで索引を集めた方が速い。Web 上の検索エンジンなど。

サーバがない方法の利点(特徴)

うまく作れば、単一障害点がなくなる。
サーバを維持するコストが不用である。
サーバを経由しないで通信が行われると、サーバの負荷が減る。
無政府的で面白い。

サーバがない方法の問題点

下手に作ると、どの要素が故障しても全体が止る (single point of failure はないが、multiple points of failure になる)
検索などは遅い
責任の所在が不明になる
通信相手が本物かどうか確かめるのがたいへん

Napster

1999年起業。
サーバでは、音楽ファイルの索引を置く。
音楽データの交換は、サーバを経由することなく、個々のプログラム間で行われる。
2000年、全米レコード協会が提訴
2001年、Napster 敗訴。
その後、別の会社買収し、ブランド名だけ残る。今は、独自の著作権管理技術を使っている。

Napster は、学問的には、特に目立った新技術はない。

◆クライアント・サーバ・モデルを実現する３つの基本命令

get_request(port_t serviceport,message_t request/*in*/): サーバ・プロセスにより使われる。クライアント・プロセスから送られてくる要求メッセージを待つ。
send_reply(port_t client,message_t reply): サーバ・プロセスにより使われる。クライアント・プロセスに対して応答メッセージを送る。
do_operation(port_t server,message_t request/*out*/, message_t reply/*in*/): クライアント・プロセスにより使われる。サーバへ要求を送り、サーバからの応答が返ってくるまで待つ。

サーバは、普通、get_request() で、クライアントから何か要求メッセージが届くのを待っている。

クライアントが何かサーバにして欲しい時には、do_operation() で、サーバに要求メッセージを送る。そして、サーバからの応答メッセージを待つ。

サーバは、要求メッセージを受けとると、何か仕事をして、send_reply() で、クライアントに応答メッセージを返す。そして、再び次の要求メッセージを待つ。

１つのサーバに複数のクライアントがアクセスすることがある。１つのクライアントも、複数のサーバに同時にアクセスすることもできる。

図? クライアント・サーバ・モデルに基づく通信で使う３つの命令

◆実現例

例１：７種類のメッセージを使う方法

REQ
REP
ACK
AYA (Are You Alive) -- 忙しいのか死んでいるか
IAA (I Am Alive)
TA (Try Again) -- receive() が呼び出されていない
AU (Address Unknown)

例２：３種類（回数）

Request
Request-Reply
Request-Reply-Acknowledge

例３：２種類（回数）

Request
Request-Reply

■RPC

RPC (Remote Procedure Call) ( 遠隔手続き呼び出し ) は、分散システムを構築する時に広く使われている「プロセス間通信」の方法。 NFS (Network File System) を始めとする分散ファイル・システムの構築や、や NIS (Network Information Service) (パスワード・ファイルなどの共有) で使われている。

（＜－＞文化的には、TCP/IP上のテキストベースのプロトコルとは対照。）

◆RPCの特徴

TCP/IP で提供されているストリームや UDP/IP で提供されているデータグラムと比較して、RPC には次のような特徴がある。

プロセス間通信におけるクライアント・サーバ・モデルに基づいている。 (TCP/IPやUDP/IPでも上位プロトコルではクライアント・サーバ・モデルを使っているのがほとんど。)
普通の手続き呼出し(Ｃ言語では関数呼出し)と似た方法で通信を行うことができる。
結合(connection)が作られない。(UDP/IP のデータグラムと同じ。)
同期式の通信を提供する。
双方向の通信プリミティブである。(TCP/IPと同じ。UDP/IPでも双方向が普通。)

RPCで「遠隔(remote)」というのは、もともとはネットワークに接続された別のコンピュータという意味であったが、最近では、同じコンピュータの内部でもRPCが使われる。「遠隔(remote)」とは、「別のコンピュータ」という意味ではなく、「別のアドレス空間」という意味もある。

RPCでは、別のアドレス空間の間でデータがやり取りされるので、基本的に「ポインタ」を受け渡しすることはできない。しかし、SunRPC では、ポインタの先を再帰的に「コピー」する機能がある。

◆RPCを実現する基本命令

下位層では、上であげた３つの基本命令が使われている。

このRPCの３つの命令は、システムコール、または、ライブラリで実現される。 SunRPCには、get_request() に相当する命令が定義されていない。

◆スタブとスタブ生成器

RPCでプログラムを作成するときには、３つの基本命令を利用することは、ほとんどない。 スタブ生成器(stub generator) を使えば、インタフェースの定義から３つの基本命令を呼び出すようなプログラムが自動生成される(lex、yacc )。

スタブ(stub) は、プロセス間通信を普通の手続き呼出しと全く同じ形式で行なうことができるようにするためのプログラム。もともとは木の切株の意味。

図? スタブによる遠隔手続き呼出しの実現

スタブの分類

クライアント側スタブ: 手続き呼出しの形で呼び出される。do_operation() 命令を実行する。
サーバ側スタブ: 無限ループを持つプログラム。 get_request() でクライアントからのメッセージを受け取り、対応する手続きを呼び出し、結果をsend_reply() により返す。

スタブでは、パラメタ(引数と結果)の 整列化(marshalling) ( パック ) と 非整列化(unmarshalling) ( アンパック ) も行なわれる。SunRPC では、 XDR (eXternal Data Representation) と呼ばれている方法を使っている。

◆SunRPC

SunRPC は、Sun Microsystems社により開発され、仕様やソースコードが公開された RPC の実装。ONC RPC (Open Network Computing) とも呼ばれる。 RFC にもなっている。

◆SunRPC のrpcgenコマンドとファイル

SunRPC には、rpcgen というスタブ・コンパイラがある。 rpcgen コマンドを使うには、次のようなファイルを作成する。

図? rpcgenによるRPCプログラム開発で利用するファイル

name.x: インタフェースを記述。
name_client.c: クライアント側の main プログラム。
name_server.c: サーバ側で、RPC で呼び出されるプログラム。 (main は、rpcgen により自動生成される。)

◆rpcgenコマンドの使い方

% rpcgen name.x

次の４つのファイルが生成される。

name.h: そのRPCのプログラムで使う定数、データ構造、スタブ手続きのインタフェース。
name_clnt.c: クライアント側のスタブ。
name_xdr.c: name.x で定義したデータ構造について、 XDR のための手続き(整列化と非整列化を行なう手続き) 。クライアント側とサーバ側の両方で使われる。
name_svc.c: サーバ側の main 関数とディスパッチ手続き。受け付けた RPC の要求を解析して、開発者が定義した手続きを呼び出す。

これらのファイルの内容は、人間が十分読めるも。

◆rpcgenのインタフェース定義の例

ハッシュ表

int put(key_t key,int value)
int getvalue(key_t key)
keyarray_t getkeys(void)

typedef char *key_t; typedef key_t *keyarray_t;

typedef string key_t<256>;
struct keyvalue_t { 
   key_t key; 
   int   value ;
};
typedef key_t  keyarray_t<>;

program HASHTABLE_PROG { 
   version HASHTABLE_VERSION {
       int        PUT(keyvalue_t)  = 11 ; 
       int        GETVALUE(key_t)  = 12 ; 
       keyarray_t GETKEYS(void)    = 13 ; 
   } = 1 ;
} = 0x20051001 ;

遠隔手続き呼出しでは、送受信できるデータは基本的には値だけであり、ポインタを送ることはできない。

SunRPC では、ポインタの先の１要素だけコピーして送る機能がある。SunRPC では、ポインタによる単純なリストや木構造を送ることができる。

双方向リストなど、内部にループを含むものは SunRPC では送ることができない。また、ポインタで実現された有向非循環グラフを送ると木構造に展開されてしまう。

◆Binding

クライアントとサーバを結び付ける。 RPC では、動的(dynamic)になる。

ローカルの手続き呼出しでは、リンク時に固定される。

クライアントとサーバは１対１ではない。

１つのサーバは、複数のクライアントにサービスを提供するのが普通である。
１つのクライアントは、利用可能な複数のサーバの中から選択して利用することが多い（同時に複数のサーバを使うことは少ない）。

binding のための命令

登録、export (サーバ側)
削除 (サーバ側)
検索 (クライアント側)

◆SunRPC での Binding

SunRPCでは、多くの場合、TCP/IPやUDP/IPを使ってメッセージを送る。この場合、手続きをを次の５つの番号で区別する。

サーバのアドレス(IPアドレス)
プロトコル。TCP か UDP。
プログラム番号。SunRPCで独自に定義している32ビットの整数。
バージョン。各RPCのプログラムで定義。
手続き番号。各RPCのプログラムで定義。

広く使われるプログラム番号は、

/etc/rpc

というファイルに含まれている。

TCP/IPまたはUDP/IPでデータを送るにはポート番号が必要になる。サーバが動作しているホストには、 portmapper とよばれる特殊な RPC のサーバが動作している。サーバは起動時に自分の＜プログラム番号, バージョン, プロトコル, ポート番号＞をPortmapper に登録する (pmap_set())。

クライアントは、実際にサーバに接続する前に、Portmapper に＜プログラム番号, バージョン, プロトコル＞を送り、 TCP/IPまたはUDP/IPのポート番号を得る(pmap_getport())。最終的には, このポート番号を使ってメッセージを送る。

Portmapper 自身のポート番号は、111 に固定されている。

図? SunRPC での binding (portmapper)

■(PRCを含む)クライアント・サーバ型通信を実現する上での解決すべき問題

サーバが応答しなかったらどうするか
重複する要求の処理
応答が失われた時
メッセージの削減。１つの要求・応答メッセージを複数のデータグラムで運ぶ

◆障害

クライアントがサーバを見つけられない
要求メッセージが紛失
応答メッセージが紛失
要求受信後、サーバがクラッシュ
要求送信後、クライアントがクラッシュ

◆クライアントがサーバを見つけられない

特殊な errno
例外。もはや透明ではない。

◆要求メッセージが紛失

時間切れ再要求。簡単。

◆応答メッセージが紛失

難しい。単純な時間切れだとまずい。

例: 銀行預金転送。

対策:

操作を idempotent にする。
クライアントから最後のメッセージ番号を保持して、再要求を拒否する。
再要求を示すフラグを付ける。

◆要求受信後、サーバがクラッシュ

番号では対応できない。要求実行前と実行後を区別できない。

ＲＰＣのセマンティクス

exactly once semantics。実現不可能。
at least once semantis。応答するまで要求し続ける。
at most once semantics。失敗したらあきらめる。
なにもしない。

集中だと、クライアントもサーバもいっしょに死ぬので、問題はない。

◆要求送信後、クライアントがクラッシュ

孤児問題(orphan problem)。

親（クライアント）がいない計算を孤児という。

対応方法

根絶(extermination)。: RPC 前にログに書く。クラッシュしたらログを見て根絶する。重たい。孫の孤児(grandorphan)問題がある。
再生(reincarnation): リブートすると、タイムスタンプをサーバに投げる。サーバは、全孤児を消去する。
穏和な再生(gentle reincarnation): タイムスタンプを受信すると、サーバは親を探し、見つからない時だけ孤児を消去する。
期限切れ(expiration): RPC に標準時間Ｔを与え、その時間内に終了しないものを消去する。それ以上かかる時には、明示的に要求する。クラッシュ後、サーバがＴだけ待てば孤児は消える。

孤児が、ロックを持っていたら、孤児を消しただけでは話を終わらない。

◆idempotent冪等

冪等(idempotent)な操作とは、その操作を何回繰り返しても、1回だけ実行した時と同じ結果になるもの。

例：

足し算。関数でもある(値の書換えがない、引数だけで結果が決まる)。
位置を指定したファイルの読み込み(pread())
位置を指定したファイルの書き込み(pwrite())

idempotentではない操作

変数を１つ増やす
位置を指定しないファイルの読み込み(Unix stream風read())
位置を指定しないファイルの書き込み(Unix stream風write())

◆stateless server

無状態サーバ(stateless server) とは、サーバ内部に状態を保持しないようなサーバ。

状態の例

Unix のカーネル内部で持っているファイルを読み書きする位置（シーク・ポインタ）

RPCで冪等な操作や無状態サーバを実現すると、クラッシュに強いシステムを作れる。クライアントは、サーバから応答がない場合、何度要求を再送信してもよい。

例：NFS Version 2

サーバは、ファイルに対する書き込み要求を受け付けると、ディスクへの書き込みを完了してから応答を返す。応答が返ってきた要求は、ディスクへの書き込みが完了したことが保証されている。この段階でサーバがクラッシュしたとしても、なにも失われない。

しかし、、、重たい。NFS Version 3 では、状態付きのサーバになった。

◆NFS

NFS ( Network File System ) は, Sun Microsystems 社が開発したネットワーク・ファイル・システムの名前(固有名詞, 商標)。

ネットワーク・ファイル・システム(一般名詞): ネットワークを通じて他のコンピュータ上にあるファイルをあたかも自分自身のローカルディスクにあるファイルと同じように扱えるようにしたファイルシステム
分散ファイルシステム: ネットワーク・ファイル・システムが発展して「分散透明性(分散透過性、network transparency)」が実現されたもの。

NFS は、Unix 系の OS (MacOSX 含む) では、事実上の標準。

その他のネットワーク・ファイル・システム(用のプロトコル)

Microsoft SMB (Server Message Block)/CIFS (Common Internet File System)。
AFP (Apple File Protocol)
WebDAV
AT&T RFS (Remote File System)
AFS (Andrew File System)

◆NFSの機能

NFSを使うと, ネットワークを通じて別のコンピュータ上のファイルシステムの一部分を, ローカルディスク上にあるファイルシステムと同じように, 自分のファイルシステムの木に マウント(mount) できる。

図? NFSによるファイルの共有

相互に参照し合える。

表? NFSで使われているRPCの手続き

手続き名	意味	関連するコマンド、システムコール
null()	何もしない	`rpcinfo -u hostname nfs` コマンド
getattr()	属性の読み出し	`ls -l` コマンド, `stat` システムコール , `open` システムコール
setattr()	属性の設定	`chmod` , `chown` コマンド
lookup()	ファイルの検索	`open` システムコール
readlink()	シンボリックリンクの読み出し	`ls -l` コマンド, `readlink` システムコール
read()	ファイルの読み出し	`read` システムコール
write()	ファイルの書き込み	`write` システムコール
create()	ファイルの作成	`creat` システムコール, `open` システムコール
remove()	ハードリンクの削除	`rm` コマンド, `unlink` システムコール
rename()	ファイル名前の変更	`mv` コマンド, `rename` システムコール
link()	ハードリンクの作成	`ln` コマンド, `link` システムコール
symlink()	シンボリックリンクの作成	`ln -s` コマンド, `symlink` システムコール
mkdir()	ディレクトリの作成	`mkdir` コマンド
rmdir()	ディレクトリの削除	`rmdir` コマンド
readdir()	ディレクトリの読み出し	`ls` コマンド
statfs()	ファイルシステムの利用状況	`df` コマンド, `statfs` システムコール
commit()*	ディスクへの書き込み	`fsync` システムコール
access()*	アクセス権のチェック	`access` システムコール
open()**	ファイルを開く。
close()**	ファイルを閉じる。
lock()**	ファイルのロック。
renew()**	ファイルのロックの更新。
compound()**	複合手続き。複数の手続きをまとめて実行する。

* は、NFS Version 3 で追加された手続き。 ** は、NFS v4 で追加された手続き。

◆NFSファイルハンドル

NFS でファイルやディレクトリを区別するための識別子。32バイト。

const NFS_FHSIZE	= 32;
...
/*
 * File access handle
 */
struct nfs_fh {
	opaque data[NFS_FHSIZE];
};

一番最初のNFSファイル・ハンドルをどうやって入手するか。

◆NFSマウントのためのRPCプログラム

一番 NFS v2, NFS v3 では、NFS 本体とは別にディレクトリ木のルートを得るためのRPC のプログラム(MOUNTPROG)がある。 /usr/include/rpcsvc/mount.x

手続き名	意味	関連するコマンド、システムコール
null()	何もしない	`rpcinfo -u hostname mount` コマンド
mnt()	NFSファイルハンドルを返す	`mount` コマンド
dump()	マウント一覧表	`showmount hostname` コマンド
umnt()	アンマウント	`umount` コマンド
umntall()	全アンマウント	`umount -h hostname` コマンド
export()	アクセス可能なディレクトリのリストを返す

◆lookup-read-write

NFS (v2,v3) には、次の手続きがない。

open()
close()

open() -- while(...) {read() or write()} -- close() のようなプログラムは、 NFS のレベルでは、lookup(); while( ... ) {read() or write()} になる。 read(), write() の引数は、必ずファイル中の読み書きする位置が含まれる。

◆lookup()

引数: 検索対象のディレクトリの NFSファイルハンドルとファイル名
結果: ファイル、または、ディレクトリの NFS ファイル・ハンドルと属性

ファイル名には、区切り「/」は含まれない。要素ごとに lookup する。


2.2.5.  Look Up File Name

	diropres
	NFSPROC_LOOKUP(diropargs) = 4;

If the reply "status" is NFS_OK, then the reply "file" and reply
"attributes" are the file handle and attributes for the file "name"
in the directory given by "dir" in the argument.

2.3.10.  diropargs

    struct diropargs {
	fhandle  dir;
	filename name;
    };

The "diropargs" structure is used in directory operations.  The
"fhandle" "dir" is the directory in which to find the file "name".
A directory operation is one in which the directory is affected.

2.3.11.  diropres

    union diropres switch (stat status) {
    case NFS_OK:
	struct {
	    fhandle file;
	    fattr   attributes;
	} diropok;
    default:
	void;
    };

The results of a directory operation are returned in a "diropres"
structure.  If the call succeeded, a new file handle "file" and
the "attributes" associated with that file are returned along with
the "status".

◆read()

引数: 対象ファイルの NFSファイルハンドル、読み込む位置(先頭からのオフセット)、バイト数
結果: 属性、データ(opaque型)

2.2.7.  Read From File

	struct readargs {
		fhandle file;
		unsigned offset;
		unsigned count;
		unsigned totalcount;
	};

	union readres switch (stat status) {
	case NFS_OK:
		fattr attributes;
		nfsdata data;
	default:
		void;
	};

	readres
	NFSPROC_READ(readargs) = 6;

Returns up to "count" bytes of "data" from the file given by "file",
starting at "offset" bytes from the beginning of the file.  The first
byte of the file is at offset zero.  The file attributes after the
read takes place are returned in "attributes".

Notes:  The argument "totalcount" is unused, and is removed in the
next protocol revision.

◆write()

引数: 対象ファイルの NFSファイルハンドル、書き込む位置(先頭からのオフセット)、データ(バイト数数含む)
結果: 属性

2.2.9.  Write to File

	struct writeargs {
		fhandle file;
		unsigned beginoffset;
		unsigned offset;
		unsigned totalcount;
		nfsdata data;
	};

	attrstat
	NFSPROC_WRITE(writeargs) = 8;

Writes "data" beginning "offset" bytes from the beginning of "file".
The first byte of the file is at offset zero.  If the reply "status"
is NFS_OK, then the reply "attributes" contains the attributes of the
file after the write has completed.  The write operation is atomic.
Data from this "WRITE" will not be mixed with data from another
client's "WRITE".

Notes:  The arguments "beginoffset" and "totalcount" are ignored and
are removed in the next protocol revision.

◆cookie

RPC のようにコネクションが作られない通信サービスを使う時に冪等や無状態といった性質を実現する時に必要になる技術。

例：NFSでのディレクトリの読み込み手続き nfsproc_readdir() で、１回の RPC で全部のデータを返せないことが起きる。ディレクトリのどの位置まで読み込んだかを示す中間状態を クッキー(cookie) という形でクライアントに返す。

クライアントは、次の RPC の呼び出しで、前回受けとった応答の中のクッキーを、サーバへの要求に含めて送す。

◆readdir()

ls コマンドは、opendir() ライブラリ関数、getdirentries() システムコール (MacOSX, FreeBSD) を経て、NFS のレベルでは、readdir() になる。

引数: 対象ディレクトリの NFSファイルハンドル、クッキー、バイト数
結果: エントリのリスト

各エントリは、名前、クッキー、inode番号からなる。

const NFS_COOKIESIZE	= 4;
typedef opaque nfscookie[NFS_COOKIESIZE];

2.2.17.  Read From Directory

	 struct readdirargs {
		 fhandle dir;
		 nfscookie cookie;
		 unsigned count;
	 };

	 struct entry {
		 unsigned fileid;
		 filename name;
		 nfscookie cookie;
		 entry *nextentry;
	 };

	 union readdirres switch (stat status) {
	 case NFS_OK:
		 struct {
			 entry *entries;
			 bool eof;
		 } readdirok;
	 default:
		 void;
	 };

	 readdirres
	 NFSPROC_READDIR (readdirargs) = 16;

 Returns a variable number of directory entries, with a total size of
 up to "count" bytes, from the directory given by "dir".  If the
 returned value of "status" is NFS_OK, then it is followed by a
 variable number of "entry"s.  Each "entry" contains a "fileid" which
 consists of a unique number to identify the file within a filesystem,
 the "name" of the file, and a "cookie" which is an opaque pointer to
 the next entry in the directory.  The cookie is used in the next
 READDIR call to get more entries starting at a given point in the
 directory.  The special cookie zero (all bits zero) can be used to
 get the entries starting at the beginning of the directory.  The
 "fileid" field should be the same number as the "fileid" in the the
 attributes of the file.  (See section "2.3.5. fattr" under "Basic
 Data Types".)  The "eof" flag has a value of TRUE if there are no
 more entries in the directory.

nfsproc_readdir() で、１回目と２回目の RPC の間にディレクトリの内容が更新された場合、どのような結果になるのか不明。

◆WWWでのcookie

HTTP では、 TCP/IP というコネクションが作られる通信サービスが使われいるが、１ページ１ページを転送する度にコネクションを切っているので、複数ページのアクセスの時にはコネクションが作られない通信サービスを使っているのと論理的に同じ。

途中経過を保存したい時：

パスワードを打って利用者を確認した後
買い物かごの中身
ＩＰアドレスが毎回違うような場合、前回アクセスしてきた人を確認する

ＷＷＷサーバが、最初にアクセスした時に利用者ごとにクッキーを生成し、ブラウザに返す。
ブラウザは、返されたクッキーをファイルに保存しておく。
ブラウザは、次に同じサーバに要求を送る時に、ファイルに保存してあるクッキーを読み出して要求とともにサーバに送る。
要求を受け取ったサーバは、要求に含まれているクッキーから、そのブラウザを使っていた人が前回どのページを訪れたかを知ることができる。

サーバは、その情報を利用して、適切なページ（たとえば前回最後に訪れたページ）を表示させるようにすることができる。

◆WWW cookieの例(RFC2965より)

User Agent は、WWW ブラウザと思ってよい。

4.  EXAMPLES

4.1  Example 1

   Most detail of request and response headers has been omitted.  Assume
   the user agent has no stored cookies.

      1. User Agent -> Server

        POST /acme/login HTTP/1.1
        [form data]

        User identifies self via a form.

      2. Server -> User Agent

        HTTP/1.1 200 OK
        Set-Cookie2: Customer="WILE_E_COYOTE"; Version="1"; Path="/acme"

        Cookie reflects user's identity.

      3. User Agent -> Server

        POST /acme/pickitem HTTP/1.1
        Cookie: $Version="1"; Customer="WILE_E_COYOTE"; $Path="/acme"
        [form data]

        User selects an item for "shopping basket".

      4. Server -> User Agent

        HTTP/1.1 200 OK
        Set-Cookie2: Part_Number="Rocket_Launcher_0001"; Version="1";
                Path="/acme"

        Shopping basket contains an item.

      5. User Agent -> Server

        POST /acme/shipping HTTP/1.1
        Cookie: $Version="1";
                Customer="WILE_E_COYOTE"; $Path="/acme";
                Part_Number="Rocket_Launcher_0001"; $Path="/acme"
        [form data]

        User selects shipping method from form.

      6. Server -> User Agent

        HTTP/1.1 200 OK
        Set-Cookie2: Shipping="FedEx"; Version="1"; Path="/acme"

        New cookie reflects shipping method.

      7. User Agent -> Server

        POST /acme/process HTTP/1.1
        Cookie: $Version="1";
                Customer="WILE_E_COYOTE"; $Path="/acme";
                Part_Number="Rocket_Launcher_0001"; $Path="/acme";
                Shipping="FedEx"; $Path="/acme"
        [form data]

        User chooses to process order.

      8. Server -> User Agent

        HTTP/1.1 200 OK

        Transaction is complete.

   The user agent makes a series of requests on the origin server, after
   each of which it receives a new cookie.  All the cookies have the
   same Path attribute and (default) domain.  Because the request-URIs
   all path-match /acme, the Path attribute of each cookie, each request
   contains all the cookies received so far.

◆WWW cookieとプライバシ

現在の Cookie の実現では、利用者のプライバシーを犯す危険性が高いという問題が指摘されている。

普通のＷＷＷサーバでは、要求を送ってきたコンピュータのＩＰアドレスを記録しているので、コンピュータ単位でのアクセス状況を記録することはできるが、個人を特定することはできない。

クッキーを利用することにより、コンピュータではなくどの個人がアクセスしてきたかを記録することができる。

クッキーから電子メールのアドレスや氏名まで調べることはできない。しかし、インターネットをサーフしている間にどこかでそれを打ち込んだが最後、クッキーと電子メール・アドレスや氏名との対応が記録されてしまう危険性がある。

参考

RFC2965 HTTP State Management Mechanism
Netscape社によるＷＷＷにおけるクッキー実現の案
http://wp.netscape.com/newsref/std/cookie_spec.html

◆NFS非同期入出力デーモン

NFS非同期入出力デーモン ( nfsiod (local NFS asynchronous I/O Daemon) または biod (asynchronous Block I/O Daemon) ) は、NFSのクライアントホスト上で動き、NFSの非同期的な入出力を行う。

書き込みの高速化
ブロックの先読み

◆NFS lockdとrstatd

NFS v2, NFS v3 には、ロックの機能が元々存在しない

サーバが落ちたら、ロックが消えるかもしれない
クライアントが落ちたら、ロックを保持したままになるかもしれない
ネットワークが切れたら、、、

後でロックの機能を付加した。

lockd: クライアント・ホストとサーバ・ホストの両方で走る。クライアント・ホスト上の lockd は、受け取った要求をサーバ上の lockd に転送する。サーバ・ホスト上の lockd は、クライアントの lockd から受け取った要求をシステム・コールでカーネルに伝える。
statd: サーバ・ホスト上の lockd は、クライアント・ホスト上の statd に問い合わせて、クライアント・ホストがクラッシュしていないか調べる。クライアント・ホストがクラッシュしたら、そのクライアントから受け取っていたロック要求を解除する。

lockd には、当初からかなりバグが多かった。初期の statd には、バッファ・オーバーフローのバグがあった。

◆NFS Version 3

無状態サーバが見直し。
commit() という手続きが追加。それまでに行われた書き込みをディスクに行うように指示できる。 (NFS v2 では、write で必ずディスクに書き込む。)
UDP/IP に加えて TCP/IP でもアクセス可能。大きなブロックで読み書きできる。
個々の手続きの結果の中で、ファイルの属性(最終更新時刻を含む)を返す。 getattr() 手続きの呼出し回数。
ファイルのオフセットが 32 ビットから 64 ビットに変更。4GB 以上の大きさが扱える。
access() という手続きによるアクセス権のチェックをサーバ側で実行できる。

◆NFS Version 4

2003年

compound() 手続きの導入。通信の遅延が大きいネットワークでも効率よく動作させるために、複数の NFS の手続きを 1 回の遠隔手続き呼出しの中でまとめて実行する。
open() や close() という手続きの導入
ロックの機能の本体への取り込み
マウント機能の本体への取り込み
RPCSEC_GSS という仕組みによる利用者認証の機能。主に Kerberos 対応。

↑[もどる] ←[1月11日] ・[1月25日] →[2月1日]

Last updated: 2008/01/25 11:55:57

Yasushi Shinjo / <yas@is.tsukuba.ac.jp>

	TCP	IP	UDP	イーサネット	電話	郵便
send	非同期	非同期	非同期	非同期	非同期	非同期
receive	同期	(非同期)*	同期	(非同期)*	同期	非同期
信頼性	あり	なし	なし	なし	あり	なし
アドレス指定	間接	間接	間接	間接	間接	直接
結合	あり	なし	なし	なし	あり	なし
方向	双方向	単方向	単方向	単方向	双方向	単方向
マルチキャスト	不可	可能	可能	可能	可能	不可
帯域保証	なし	なし	なし	なし	あり	なし