マルチスレッド・プログラミング(1)

並行システム

                               システム情報工学研究科コンピュータサイエンス専攻、電子・情報工学系
                               新城 靖
                               <yas@is.tsukuba.ac.jp>

このページは、次の URL にあります。
http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14
あるいは、次のページから手繰っていくこともできます。
http://www.cs.tsukuba.ac.jp/~yas/sie/
http://www.cs.tsukuba.ac.jp/~yas/

■スレッド・プログラミング

◆スレッドとは

スレッド(thread) あるいは、 軽量プロセス(lightweight processes) とは、１つの保護の単位としてのプロセス（タスク，あるいは，アドレス空間）内部にふくまれている平行処理（論理的な並列処理）の単位。

シングルスレッドのプログラム: １度に１つの手続き（Ｃの関数）しか動かない。
マルチスレッドのプログラム: １度にスレッドの数だけの手続きが論理的には同時に動く。 (同期でブロックされているものも含む)

図? シングルスレッドのプロセスとマルチスレッドのプロセス

軽量プロセスというと、内部にループを含むような語感がある。

◆スレッドの利用目的

対称型マルチプロセッサ(SMP、Symmetric Multiprocessor)での並列処理。普通のプロセスでは重くて並列処理の効果が出ない。
もともと内部に並行性(論理的な並列性)を含んでいたプログラムを自然に表現するため。 CPU が速くなったので、許されるようになった。 (CPUが1個なら、割込みが速い。)
- 分散システムで複数のクライアントを扱うようなサーバ
- fork() や select() を使うようなプログラム
- ソフトウェア割込み（シグナル）を使うようなプログラム
- GUI プログラミング
入出力遅延、通信遅延の隠蔽。
デッドロック回避。

◆本当にスレッドが必要か

John K. Ousterhout, "Why Threads Are A Bad Idea (for most purposes)", Invited Talk at the 1996 USENIX Technical Conference (January 25, 1996). [PDF] [PowerPoint]

マルチスレッドプログラミングは、非常に難しい。

プログラミング人口。Visual Basic、C、C++、Thread
同期、ロックしわすれ。デッドロック。
デバッグ。
並列化すべき場所を発見して調整すること。

シングルスレッドのイベント駆動で書けるなら、その方がいい。 GUI、分散など。

どこでスレッドを使うべきか。

high-end servers (e.g. databases)
SMP での並列処理、CPU が欲しい時

◆スレッドの内容

個々のスレッドごとに持つもの

プログラムカウンタ
スタック
レジスタ

プロセス全体で共有

アドレス空間、メモリ
ファイル記述子
UID (アクセス制御)

◆スレッドの操作

生成
終了
同期
- 終了待ち
- 相互排除
- 条件変数
強制終了（使ってはいけない）

◆Unix のユーザ・レベルの(重たい)プロセス

生成 fork() でコピー
終了 exit()
同期
- 終了待ち wait()
- 相互排除
  - flock(BSD系)
  - lockf()
  - fcntl(fd,F_GETLK,v)
- 条件変数なし
強制終了 kill()

Unixカーネル内の並行処理

PDP-11 時代からのモデル

カーネルとユーザ・プロセスは交互に動く。
カーネルと割込みハンドラの間の相互排除は、割り込み禁止で

■Concurrent Pascal

逐次型プログラミング言語 Pascal を拡張したもの。

プロセス（スレッド）
- 逐次プログラム
- 固有データ
- アクセス権
モニタ。プロセス間の同期。条件変数含む。
クラス。コードを実行するプロセスが高々１つ。コンパイラによる。
条件変数とキュー。

◆参考文献

Per Brinch Hansen: "The Architecture of Concurrent Program", Prentice Hall (1977).

Per Brinch Hansen著, 田中英彦訳: "並行動作プログラムの構造", 日本コンピュータ協会 (1980).

◆プロセス

type procA_t = process(引数・・・);
   var
      局所データの宣言
   procedure proc1(引数・・・);
   procedure proc2(引数・・・);
begin
   cycle
       ・・・
   end;
end

var procA1 : procA_t ;
init procA1(引数);

◆モニタ

type monA_t = monitor(引数・・・);
   var
      局所データの宣言
   procedure entry proc1(引数・・・);
   procedure entry proc2(引数・・・);
begin
   ローカルデータの初期化;
end

var monA1 : monA_t ;
init monA1(引数);;

◆条件変数とキュー

  cv1 : condition;
  cv1.wait;      呼び出したプロセスを待たせる。
  cv1.signal;   待っているプロセスがいれば全て再開させる。

  q1 : queue;
  delay(q1);      呼び出したプロセスをそのキューで待たせる。
  continue(q1);   そのキューで待っているプロセスがいれば１つだけ再開させる。

◆有限バッファ

Unix のパイプのようなことを Concurrent Pascal のプロセス（スレッド）を使って実行したい。

producer | consumer

２つのスレッドの間には、バッファを置く。

図? 環状バッファ(有限バッファ)、生産者、消費者"

バッファが空の時、consumer() は、producer() が何かデータをバッファに入れるのを待つ。バッファがいっぱいの時、producer() は、 consumer() がバッファから何かデータを取り出すのを待つ。

手続き

put(x:integer)
get(result x:integer);

   1: const BUFFER_SIZE = 4;
   2: type circular_buffer =
   3: monitor
   4: var
   5:     rp : integer ;
   6:     rp : integer ;
   7:     data: array [0..BUFFER_SIZE-1] of integer;
   8:     used: integer;
   9:     not_empty : condition;
  10:     not_full  : condition;
  11: 
  12:     procedure entry put(x:integer);
  13:     begin
  14:         while( used = BUFFER_SIZE ) do
  15:             non_full.wait;
  16:         data[wp] := x;
  17:         wp := wp + 1 ;
  18:         if( wp >= BUFFER_SIZE )
  19:             wp := 0 ;
  20:         used := used + 1 ;
  21:         not_empty.signal;
  22:     end
  23: 
  24:     procedure entry get(result x:integer);
  25:     begin
  26:         while( used = 0 ) then
  27:             not_empty.wait;
  28:         x := data[rp];
  29:         rp := rp + 1 ;
  30:         if( rp >= BUFFER_SIZE )
  31:             rp := 0 ;
  32:         used := used - 1 ;
  33:         not_full.signal;
  34:     end
  35: begin
  36:     rp := 0 ;
  37:     wp := 0 ;
  38:     used := 0 ;
  39: end;
  40: 
  41: ...
  42: var buf : circular_buffer ;
  43: init buf;
  44: ...
  45:

外から呼び出せる手続きには、entry と付ける。
手続きの引数や局所変数は、それが呼び出されている時だけ使える。
モニタ内の変数は、呼び出されていない時もずっと存在する。
モニタを呼び出せるプロセスは高々１つ（相互排除がなされる）。
ロック、アンロックは明示的には書かない。
モニタでは再帰呼出し禁止。コンパイラによるチェック。デッドロックを防ぐ。
プロセス間のデータの交換は、モニタを通じてのみ行える。
モニタは、条件変数やキューが複数持てる。
任意の変数で待てるのではなく、条件変数やモニタでだけ待てる。
init 文が実行されると、モニタの begin と end の間が実行される。init は１回だけ。

■Pthread

Pthread は、POSIX 1003.1c-1995という標準に準拠したスレッド・ライブラリ。 POSIX Thread とも呼ばれる。

◆Pthreadを利用したプログラムのコンパイル

Pthread を利用したプログラムを書く時には、次のようなヘッダ・ファイルを読み込む。

#include <pthread.h>

Solaris (Unix International系)でのコンパイルとリンク。 -D_REENTRANTと-lpthread を付ける。

% cc -D_REENTRANT -o create create.c -lpthread 
% ./create 
...
%

セマフォを使う時、Solaris 6 (SunOS 5.6) では、リンク時に -lposix4 オプションを付ける。Solaris 7-10 (SunOS 5.7, 5.8, 5.9, 5.10) では、リンク時に -lrt オプションを付ける。

Linux, MacOSX, でのコンパイルとリンク。-lpthread を付ける。

% cc -o create create.c -lpthread 
% ./create 
...
%

■スレッドの生成・消滅

スレッドは、普通のプログラムの、サブルーチン（Ｃ言語の関数、手続き) に近い。サブルーチンの場合，呼び出すと、呼び出された方が動き、自分自身は，止まる。スレッドでは，新たにスレッドを生成した場合，生成した方と生成された方は，論理的には２つとも同時に動く。

■fork-joinモデル

図? fork-joinモデルの実現

逐次処理（スレッド／プロセスが１つ）の状態から始まる
並列性が必要になった時、fork命令で複数のスレッド／プロセスに分かれて並列処理を行う。
並列に動作できる部分が終ると join 命令で再び逐次処理に戻る。

◆Unixのfork

fork() システムコールでコピーが作られる。 join の代わりに、子どもは exit()、親は wait()。

◆Pthreadはcreate

Pthread では、コピーではなく create で新たにスレッドを作る。同じ関数を実行したい時には、直接 call する。(別の関数を実行するなら呼ばなくてもよい。) 子スレッドでは、pthread_exit() (トップの手続きからリターン)、親は、pthread_join() する。

後で join する必要がない時には、pthread_detach() を使って切り離す。 (joinしなくてもゾンビが残らない。)

◆スレッドの生成とjoin

   1: 
   2: /*
   3:         create-join-2.c -- スレッドを２つ作るプログラム
   4: */
   5: 
   6: #include <stdio.h> /* printf() */
   7: #include <pthread.h>
   8: 
   9: void func1( int x );
  10: void func2( int x );
  11: 
  12: main()
  13: {
  14:     pthread_t t1 ;
  15:     pthread_t t2 ;
  16:         printf("main()\n");
  17:         pthread_create( &t1, NULL, (void *)func1, (void *)10 );
  18:         pthread_create( &t2, NULL, (void *)func2, (void *)20 );
  19:         pthread_join( t1, NULL );
  20:         pthread_join( t2, NULL );
  21: }
  22: 
  23: void func1( int x )
  24: {
  25:     int i ;
  26:         for( i = 0 ; i<3 ; i++ )
  27:         {
  28:             printf("func1( %d ): %d \n",x, i );
  29:         }
  30: }
  31: 
  32: void func2( int x )
  33: {
  34:     int i ;
  35:         for( i = 0 ; i<3 ; i++ )
  36:         {
  37:             printf("func2( %d ): %d \n",x, i );
  38:         }
  39: }

実行例。

% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/create-join-2.c 
% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/Makefile 
% make create-join-2 
gcc    -c -o create-join-2.o create-join-2.c
gcc create-join-2.o -lpthread -o create-join-2
% ./create-join-2  
main()
func1( 10 ): 0 
func2( 20 ): 0 
func1( 10 ): 1 
func2( 20 ): 1 
func1( 10 ): 2 
func2( 20 ): 2 
% ./create-join-2 
main()
func1( 10 ): 0 
func1( 10 ): 1 
func1( 10 ): 2 
func2( 20 ): 0 
func2( 20 ): 1 
func2( 20 ): 2 
% ./create-join-2 
main()
func1( 10 ): 0 
func1( 10 ): 1 
func1( 10 ): 2 
func2( 20 ): 0 
func2( 20 ): 1 
func2( 20 ): 2 
%

この例では、次の３つのスレッドが作られる。

main を実行しているスレッド
func1 から作られたスレッド t1
func2 から作られたスレッド t2

マルチスレッド・プログラミングでは、main関数もまた１つのスレッドが実行していると考える。これを 初期スレッド 、あるいは、 メインスレッド とよぶ。Pthrad では、メインスレッド以外のスレッドは、 pthread_create() により作られる。

どういう順序で実行されるかは、決まっていない。決まっていない。スレッドは、もともと順番を決めないような処理、 非同期的(asynchronous) な処理を表現するためのもの。どうしても他のスレッドと同期を行なう必要が出てきた時には、mutex や条件変数といった同期機能を使う。

pthread_create()で指定された関数からリターンすると、そのスレッドが終了する。pthread_exit() を呼び出してもよい。ただし、 初期スレッド が終了すると、プロセス全体が終了する。 exit() システムコールを呼び出しても終了する。

■条件変数によるスレッド間の同期

スレッドでプログラムを作っていると、あるスレッドが別のスレッドの仕事の完了を待つ必要が出がある。

◆パイプと循環バッファ

Unix のパイプのようなことをスレッドを使って実行したい。

thread_A | thread_B

２つのスレッドの間には、バッファを置く。

図? 環状バッファ、生産者スレッド、消費者スレッド

バッファが空の時、thread_B() は、thread_A() が何かデータをバッファに入れるのを待つ。バッファがいっぱいの時、thread_A() は、thread_B() がバッファから何かデータを取り出すのを待つ。

◆条件変数

条件変数(condition variable) で、ある条件が生じたことを待つ。

条件変数の操作：

wait: ある条件が満たされるまで待つ
signal: ある条件が満たされたことを伝える。待っているスレッドが１つだけ起き上がる。
broadcast: ある条件が満たされたことを伝える。待っているスレッドが全て起き上がる。

◆条件変数を使った環状バッファ

   1: 
   2: /*
   3:  * condv-buffer.c -- 条件変数を使った環状バッファ
   4:  */
   5: 
   6: #include <stdio.h>      /* printf() */
   7: #include <stdlib.h>     /* malloc(), exit() */
   8: #include <pthread.h>
   9: 
  10: void thread_A(), thread_B();
  11: 
  12: #define BUFFER_SIZE     4               /* バッファの大きさ */
  13: struct circular_buffer
  14: {
  15:         int rp ;                        /* 読み出す位置 */
  16:         int wp ;                        /* 書き込む位置 */
  17:         int used ;                      /* バッファ内の要素数 */
  18:         int data[BUFFER_SIZE];          /* データを保存する場所 */
  19:         pthread_mutex_t mutex ;         /* この構造体の相互排除のための mutex */
  20:         pthread_cond_t  not_full ;      /* バッファが一杯ではない状態を待つための条件変数 */
  21:         pthread_cond_t  not_empty ;     /* バッファが空ではない状態を待つための条件変数 */
  22: };
  23: 
  24: void put( struct circular_buffer *b,int x )
  25: {
  26:         pthread_mutex_lock( &b->mutex );
  27: loop:   if( b->used == BUFFER_SIZE )
  28:         {
  29:             pthread_cond_wait( &b->not_full,&b->mutex );
  30:             goto loop;
  31:         }
  32:         b->data[ b->wp++ ] = x ;
  33:         if( b->wp >= BUFFER_SIZE )
  34:             b->wp = 0 ;
  35:         b->used ++ ;
  36:         pthread_cond_signal( &b->not_empty );
  37:         pthread_mutex_unlock( &b->mutex );
  38: }
  39: 
  40: int get( struct circular_buffer *b )
  41: {
  42:     int x ;
  43:         pthread_mutex_lock( &b->mutex );
  44: loop:   if( b->used == 0 )
  45:         {
  46:             pthread_cond_wait( &b->not_empty,&b->mutex );
  47:             goto loop;
  48:         }
  49:         x = b->data[ b->rp++ ] ;
  50:         if( b->rp >= BUFFER_SIZE )
  51:             b->rp = 0 ;
  52:         b->used -- ;
  53:         pthread_cond_signal( &b->not_full );
  54:         pthread_mutex_unlock( &b->mutex );
  55:         return( x );
  56: }
  57: 
  58: main()
  59: {
  60:     pthread_t t1 ;
  61:     pthread_t t2 ;
  62:     struct circular_buffer *b  ;
  63:         b = (struct circular_buffer *)malloc(sizeof(struct circular_buffer));
  64:         if( b == NULL )
  65:         {
  66:             perror("no memory for struct buffer\n");
  67:             exit( -1 );
  68:         }
  69:         b->rp = 0 ;
  70:         b->wp = 0 ;
  71:         b->used = 0 ;
  72:         pthread_mutex_init( &b->mutex, NULL );
  73:         pthread_cond_init( &b->not_full,NULL );
  74:         pthread_cond_init( &b->not_empty,NULL );
  75:         pthread_setconcurrency( 2 );
  76:         pthread_create( &t1, NULL, (void *)thread_A, (void *)b );
  77:         pthread_create( &t2, NULL, (void *)thread_B, (void *)b );
  78:         pthread_join( t1, NULL );
  79:         pthread_join( t2, NULL );
  80: }
  81: 
  82: void thread_A( struct circular_buffer *b )      /* producer */
  83: {
  84:     int i,x ;
  85:         for( i = 0 ; i<10 ; i++ )
  86:         {
  87:             x = i ;
  88:             printf("thread_A(): put( %d )\n",x );
  89:             put( b,x );
  90:         }
  91: }
  92: 
  93: void thread_B( struct circular_buffer *b )      /* consumer */
  94: {
  95:     int i, x ;
  96:         for( i = 0 ; i<10 ; i++ )
  97:         {
  98:             x = get( b );
  99:             printf("thread_B(): get() %d.\n", x );
 100:         }
 101: }

put() は、バッファにデータを追加する時に使う手続き。

基本的には、入口で pthread_mutex_lock() し、出口で pthread_mutex_unlock() する。

バッファが一杯の時には、条件変数b->not_full で、一杯でないという条件になるまで待つ。

待っている間は、mutex のロックは解除される。

pthread_cond_wait() からリターンして来る時には、もう一度ロックされた状態に戻るが、待っている間に、他の変数 (rp,wp,data)が書き換えられている可能性があるので、もう一度最初から調べる。

get() は、バッファからデータを取り出す時に使う手続き。put()とほぼ対称形。バッファが空の時に、wait し、バッファがもはや一杯ではないことをsignal する。

thread_A() は、１０回バッファにデータを書き込むスレッド。 thread_B() は逆に、１０回バッファからデータを読み出すスレッド。

◆実行結果

% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/condv-buffer.c 
% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/Makefile 
% make condv-buffer 
gcc    -c -o condv-buffer.o condv-buffer.c
gcc condv-buffer.o -lpthread -o condv-buffer
% ./condv-buffer  
thread_A(): put( 0 )
thread_A(): put( 1 )
thread_A(): put( 2 )
thread_A(): put( 3 )
thread_A(): put( 4 )
thread_B(): get() 0.
thread_B(): get() 1.
thread_B(): get() 2.
thread_B(): get() 3.
thread_A(): put( 5 )
thread_A(): put( 6 )
thread_A(): put( 7 )
thread_A(): put( 8 )
thread_B(): get() 4.
thread_B(): get() 5.
thread_B(): get() 6.
thread_B(): get() 7.
thread_A(): put( 9 )
thread_B(): get() 8.
thread_B(): get() 9.
%

複数のスレッドが同時に動いている。バッファにためられるのは、最大4なのに、put() が 5 回連続して成功しているように見える。printf() の順番と put(), get() の順番は違うことがある。

◆Concurrent Pascal と Pthread の比較

共通点

スレッド生成はコピー（fork()）ではなく create
モニタが作れる。
条件変数(queue相当)がある。１つのモニタで複数の条件変数が使える。

相違点

Pthread では、コンパイラの支援がない。
Pthread の mutex は、lock/unlock が明示的。 Pthread では、モニタ以外の使い方、例えば、unlock しないプログラムも書ける。
複数の mutex をロックするプログラムが書ける。
Pthread は、置き換え可能。気に入らなければ独自に作ることにして、使わなくてもよい。

◆種村流

    pthread_mutex_lock( &mutex );
    while( 1 )
    {
        if( 条件 )
            pthread_cond_wait( &cv, &mutex );
	処理;
    }

◆signalかbroadcastか

バッファに要素を「１つずつ」追加しているので、 pthread_cond_signal() でもよい。 pthread_cond_broadcast() に変えても動くようにプログラムを作る。

pthread_cond_wait() で待っている間に条件が変わっているかもしれないので、最初から調べ直す。signal で１人だけしか起き上がらないと仮定してはいけない。

「１つずつ」ではなく、複数個同時に読み書きする時には、 pthread_cond_broadcast() でないとだめ。

迷った時には、pthread_cond_broadcast()。

◆ダブルバッファリング

整数を１つバッファに書き込むだけでロック／アンロックを行なっていると、実際の並列処理では重たい。ロックの回数を減らすために、ダブルバッファリングと呼ばれる技術がよく使われる。読み手と書き手で別々にバッファをもうけ、１つのバッファの処理をしている間は、ロックを行なわない。

■再帰的 mutex

１つのスレッドで１つの mutex を複数回ロックしたい。

使い勝手。相互に呼び出してもよい。
開いたモジュール。もう一度自分自身に戻ってくる。

図? 開いたモジュールと閉じたモジュール

◆標準mutexでのデッドロック

export している関数の入口で lock, 出口 unlockを入れて、スレッド・セーフなモジュールを作りたい。 export している関数が、他の export している関数を呼び出すと、デッドロックになる。

   1: /*
   2:  * mutex-reclock-normal.c -- 通常の mutex を使う例(デッドロック)
   3:  */
   4: 
   5: #include <stdio.h>      /* printf() */
   6: #include <pthread.h>
   7: 
   8: void thread_A(), thread_B();
   9: int     shared_resource ;
  10: pthread_mutex_t mutex1 ;
  11: 
  12: deposit( int n )
  13: {
  14:         pthread_mutex_lock( &mutex1 );
  15:         shared_resource += n ;
  16:         pthread_mutex_unlock( &mutex1 );
  17: }
  18: 
  19: add_interest()
  20: {
  21:     int i ;
  22:         pthread_mutex_lock( &mutex1 );
  23:         i = shared_resource * 0.05 ;
  24:         deposit( i );
  25:         pthread_mutex_unlock( &mutex1 );
  26: }
  27: 
  28: main() {
  29:     pthread_t t1 ;
  30:     pthread_t t2 ;
  31:         shared_resource = 1000000 ;
  32:         pthread_mutex_init( &mutex1, NULL );
  33: 
  34:         pthread_create( &t1, NULL, (void *)thread_A, 0 );
  35:         pthread_create( &t2, NULL, (void *)thread_B, 0 );
  36:         pthread_join( t1, NULL );
  37:         pthread_join( t2, NULL );
  38:         printf("main(): shared_resource == %d\n", shared_resource );
  39: }
  40: 
  41: void thread_A()
  42: {
  43:         printf("thread_A(): deposit( 10000 ) ... \n");
  44:         deposit( 10000 );       
  45:         printf("thread_A(): deposit( 10000 ) done. \n");
  46: }
  47: 
  48: void thread_B()
  49: {
  50:         printf("thread_B(): add_interest() ... \n");
  51:         add_interest();
  52:         printf("thread_B(): add_interest() done. \n");
  53: }

実行例。

% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/mutex-reclock-normal.c 
% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/Makefile 
% make mutex-reclock-normal 
gcc    -c -o mutex-reclock-normal.o mutex-reclock-normal.c
gcc mutex-reclock-normal.o -lpthread -o mutex-reclock-normal
% ./mutex-reclock-normal  
thread_A(): deposit( 10000 ) ... 
thread_B(): add_interest() ... 
thread_A(): deposit( 10000 ) done. 
^C (強制終了)
% 
%

注意：Linux で、PTHREAD_MUTEX_RECURSIVE が未定義でコンパイルできない場合、次のフラグを付けてみてください。

% gcc -c -DPTHREAD_MUTEX_RECURSIVE=PTHREAD_MUTEX_RECURSIVE_NP file.c

◆再帰的mutex

   1: /*
   2:  * mutex-reclock-recursive.c -- 再帰的 mutex を使う例
   3:  */
...
  28: static int
  29: my_pthread_mutex_init_recursive( pthread_mutex_t *mutex )
  30: {
  31:     pthread_mutexattr_t attr ;
  32:     int err ;
  33:         if( (err=pthread_mutexattr_init( &attr )) < 0 )
  34:             return( 0 );
  35:         if( (err=pthread_mutexattr_settype(&attr,PTHREAD_MUTEX_RECURSIVE)) <0 )
  36:             return( 0 );
  37:         err = pthread_mutex_init( mutex,&attr );
  38:         return( err );
  39: }
  40: 
  41: main()
  42: {
  43:     pthread_t t1 ;
  44:     pthread_t t2 ;
  45:         shared_resource = 1000000 ;
  46:         my_pthread_mutex_init_recursive( &mutex1 );
  47: 
  48:         pthread_create( &t1, NULL, (void *)thread_A, 0 );
  49:         pthread_create( &t2, NULL, (void *)thread_B, 0 );
  50:         pthread_join( t1, NULL );
  51:         pthread_join( t2, NULL );
  52:         printf("main(): shared_resource == %d\n", shared_resource );
  53: }

実行例。deposit() と add_interest() のタイミングによっては、最終結果は違うことがある。

% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/mutex-reclock-recursive.c 
% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/Makefile 
% make mutex-reclock-recursive 
gcc    -c -o mutex-reclock-recursive.o mutex-reclock-recursive.c
gcc mutex-reclock-recursive.o -lpthread -o mutex-reclock-recursive
% ./mutex-reclock-recursive  
thread_A(): deposit( 10000 ) ... 
thread_A(): deposit( 10000 ) done. 
thread_B(): add_interest() ... 
thread_B(): add_interest() done. 
main(): shared_resource == 1060500
% ./mutex-reclock-recursive 
thread_A(): deposit( 10000 ) ... 
thread_A(): deposit( 10000 ) done. 
thread_B(): add_interest() ... 
thread_B(): add_interest() done. 
main(): shared_resource == 1060500
%

注意：Linux で、PTHREAD_MUTEX_RECURSIVE が未定義でコンパイルできない場合、次のフラグを付けてみてください。

% gcc -c -DPTHREAD_MUTEX_RECURSIVE=PTHREAD_MUTEX_RECURSIVE_NP file.c

◆stdio専用再帰的lock

printf(), fputs() などの標準入出力(stdio)ライブラリ自体は、スレッド・セーフなので、単体で使う分にはロックは不要である。一連の入出力をまとめるために、ロックしなければならないことがある。

	printf("hello,world\n");

上と下は、結果が違う。

	printf("hello,");
	/* ここに他のスレッドの出力が混じることがある */
	printf("world\n");

これを避けるには、 flockfile(),funlockfile(),ftrylockfile()を使う。

	flockfile(stdout);
	printf("hello,");
	/* ここに他のスレッドの出力が混じることはない */
	printf("world\n");
	funlockfile(stdout);

putchar()や getchar()は、遅すぎる。 flockfile()/funlockfile()の中で使うための putchar_unlocked(),getchar_unlocked(),putc_unlocked(),getc_unlocked() が用意されている。printf_unsafe() はない。

■Pthreadとメモリ

◆auto変数

各スレッドには、独立したスタックが割り当てられる。Ｃ言語の auto 変数は、スレッドごとにコピーが作られる。

＜－＞再帰呼出し

スレッド間でポインタを渡す時には、スレッドの寿命にも注意。

◆static変数

シングルスレッドのプログラムでは、static変数は、プログラムのモジュール性を高めるために有効に使われてきた。

マルチスレッドと相性が非常に悪い。static変数もextern変数と同様に複数のスレッドで共有される。変更する場合には、mutex でロックが必要になる。

◆スレッド・セーフ

複数のスレッドで呼び出してもきちんと動作することを、 スレッド・セーフ(thread-safe) という。 MT-Safe(multi-thread-safe) や 再入可能(reentrant) ということもある。

externやstaticを使わず、auto変数やmalloc()だけを使っているような手続きは、スレッド・セーフ。

別のスレッド・セーフでない手続きを呼んでいれば、それはスレッド・セーフではない。

◆スレッド・セーフなインタフェース

スレッド・セーフになるようにするには、インタフェースを変更する必要がある。

Sun のマニュアルより:
struct hostent *gethostbyname(const char *name);

struct hostent *gethostbyname_r(const char *name,
     struct hostent *result, char *buffer, int buflen,
     int *h_errnop);

◆スレッド・セーフではない手続きを使う

１つのスレッドだけからしか呼び出さないようにする。
ロックを使う。

一見無関係の手続きが内部で変数を共有している場合がある。

■Pthreadでのセマフォの利用

Pthread には、実時間機能を実現することを目的として、セマフォが使えるようになっている。実時間以外の目的でも、セマフォを使ってもよい。

次のような関数が利用可能である。


#include <semaphore.h>

int sem_init(sem_t *sem, int pshared, unsigned int value): 初期化。psharedが0だとプロセス内で有効。valueは初期値。
int sem_wait(sem_t * sem): P命令。値を減らす。0の場合は止まる。
int sem_trywait(sem_t * sem): 非ブロックのsem_wait()。0でも止まらずエラーを返す。
int sem_post(sem_t * sem): V命令。値を増やす。
int sem_getvalue(sem_t * sem, int * sval): 現在の値を返す。普通は役には立たない。次の瞬間には他のスレッドがP/Vしているかもしれないので。
int sem_destroy(sem_t * sem): セマフォを破棄する。

注意： SystemV 由来のセマフォ(semget(),semop(),semctl())とは違う。

注意：名前付きのセマフォもある。sem_open() で作成／初期化し、 sem_unlink() で削除する。

注意：Solaris には、POSIX のセマフォとは別に、カーネル内でのデバイス・ドライバ作成のためのセマフォが用意されている。

Java には、最初から言語のレベルでスレッドの機能が入っている。

Java Pthread

new Thread(); start(); pthread_create()

join() pthread_join()

synchronized pthread_mutex_lock()とpthread_mutex_unlock()の組

wait() pthread_cond_wait()

wait(long timeout) pthread_cond_timedwait()

notify() pthread_cond_signal()

notifyAll() pthread_cond_broadcast()

Java の synchronized は、再帰可能。PTHREAD_MUTEX_RECURSIVE 相当。１つのスレッドが２度同じオブジェクトをロックしてもよい。

Pthreads のプログラムで、１つの mutex と１つの条件変数を使ったものなら、 Java で簡単に書き直せる。

循環バッファのプログラムは、１つの mutex で２つの条件変数を使っているので、単純には Java で書き直せない。生産者側と消費者側が同時に待つことはないという性質を利用する。

Java で書かれたスレッドのプログラムは、汚いものがけっこうある。スレッド「間」の同期で、対称系になるべき所を、片方のスレッドのメソッドにして、非対称になっていることがある。Java でプログラムを書く時にも、active object (thread) と passive object (threadなし)をきちんと分けた方がよい。

◆Concurrent Pascal と Java の比較

共通点

スレッド生成はコピー（fork()）ではなく create
条件変数がある
モニタが作れる
コンパイラの支援がある。
Java でも synchronized は、明示的。モニタ以外の使い方、例えば、
Pthread の mutex は、lock/unlock が明示的。 Pthread では、モニタ以外の使い方、例えば、unlock しないプログラムも書ける。

相違点

任意のオブジェクトで wait/notify できる。Concurrent Pascal は、monitor だけ。
Java では、queue が 1 個だけ。Concurrent Pascal は、複数の condition と queue が持てる。
Java では、複数のオブジェクトをロックできる。しかし、一番最後に呼び出したオブジェクトでしか wait できない。

◆条件変数を使った環状バッファ(Java)

   1: 
   2: /*
   3:  * CircularBuffer.java -- Java による環状バッファ
   4:  */
   5: 
   6: class CircularBuffer
   7: {
   8:     static final int BUFFER_SIZE = 4 ;
   9:     int rp ;            // 読み出す位置
  10:     int wp ;            // 書き込む位置
  11:     int data[];         // データを保存する場所
  12:     int used ;          // バッファ内の要素数
  13:     CircularBuffer()
  14:     {
  15:         data = new int[BUFFER_SIZE];
  16:         rp = 0 ;
  17:         wp = 0 ;
  18:     }
  19: 
  20:     public synchronized void put( int x ) throws InterruptedException
  21:     {
  22:         while( used == data.length )
  23:             wait();
  24:         data[ wp++ ] = x ;
  25:         if( wp == data.length )
  26:             wp = 0 ;
  27:         if( used++ == 0 )
  28:             notifyAll();
  29:     }
  30:     public synchronized int get() throws InterruptedException
  31:     {
  32:         int x ;
  33:         while( used == 0 )
  34:             wait();         
  35:         x = data[ rp++ ] ;
  36:         if( rp >= data.length )
  37:             rp = 0 ;
  38:         if( used-- == data.length )
  39:             notifyAll();
  40:         return( x );
  41:     }
  42: }

   1: 
   2: /*
   3:  * CircularBufferDemo.java -- Java による環状バッファのデモ
   4:  */
   5: 
   6: class Thread_A implements Runnable // Producer
   7: {
   8:     CircularBuffer b;
   9:     Thread_A( CircularBuffer b )
  10:     {
  11:         this.b = b;
  12:     }
  13:     public void run()
  14:     {                           
  15:         int i,x ;
  16:         for( i = 0 ; i<10 ; i++ )
  17:         {
  18:             try
  19:             {
  20:                 x = i ;
  21:                 System.out.println("Thread_A(): put( "+x+" )");
  22:                 b.put( x );
  23:             }
  24:             catch( InterruptedException e )
  25:             {
  26:                 System.err.println("Thread_A(): Interrupted");
  27:                 break;
  28:             }
  29:         }
  30:     }
  31: }
  32: 
  33: class Thread_B implements Runnable // Producer
  34: {
  35:     CircularBuffer b;
  36:     Thread_B( CircularBuffer b )
  37:     {
  38:         this.b = b;
  39:     }
  40:     public void run()
  41:     {                           
  42:         int i,x ;
  43:         for( i = 0 ; i<10 ; i++ )
  44:         {
  45:             try
  46:             {
  47:                 x = b.get();
  48:                 System.out.println("Thread_B(): got() "+x+".");
  49:             }
  50:             catch( InterruptedException e )
  51:             {
  52:                 System.err.println("Thread_B(): Interrupted");
  53:                 break;
  54:             }
  55:         }
  56:     }
  57: }
  58: 
  59: class CircularBufferDemo
  60: {
  61:     public static void main(String argv[])
  62:     {
  63:         final CircularBuffer b = new CircularBuffer();
  64:         Thread t1 = new Thread( new Thread_A(b) );
  65:         t1.start();
  66:         Thread t2 = new Thread( new Thread_B(b) );
  67:         t2.start();
  68:         try
  69:         {
  70:             t1.join();
  71:             t2.join();
  72:         }
  73:         catch( InterruptedException e )
  74:         {
  75:             System.err.println("main(): Interrupted");
  76:         }
  77:     }
  78: }

% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/CircularBuffer.java 
% wget http://www.cs.tsukuba.ac.jp/~yas/sie/csys-2007/2007-12-14/ex/CircularBufferDemo.java 
% javac -encoding EUC-JP CircularBuffer.java CircularBufferDemo.java  
% java CircularBufferDemo  
Thread_A(): put( 0 )
Thread_A(): put( 1 )
Thread_A(): put( 2 )
Thread_A(): put( 3 )
Thread_A(): put( 4 )
Thread_B(): got() 0.
Thread_B(): got() 1.
Thread_B(): got() 2.
Thread_B(): got() 3.
Thread_B(): got() 4.
Thread_A(): put( 5 )
Thread_A(): put( 6 )
Thread_B(): got() 5.
Thread_A(): put( 7 )
Thread_A(): put( 8 )
Thread_A(): put( 9 )
Thread_B(): got() 6.
Thread_B(): got() 7.
Thread_B(): got() 8.
Thread_B(): got() 9.
%

◆BlockingQueue

Java 2 Standard Edition (J2SE) 5.0 には、 java.util.concurrent パッケージに interface BlockingQueue が追加された。これを使えば、自分で環状バッファを記述する必要はない。具体的には、ArrayBlockingQueue を使う。上限を指定しない BlockingQueue もあるが、利用しないことを奨める。

◆java.util.concurrent.locks パッケージ

Java 2 Standard Edition (J2SE) 5.0 には、次のようなクラスが追加された。

Lock: Pthread の mutex 相当。ブロックを越えてロックできる。
Condition: Pthread の条件変数相当。 Lock と合わせてつかう。
ReadWriteLock: 読書きロック。 Pthread pthread_rwlock_t 相当。後述。
◆Java のセマフォ Java 2 Standard Edition (J2SE) 5.0 には、 java.util.concurrent.Semaphore クラスがある。 ■練習問題 ★練習問題(1) スレッドの数 相互排除のプログラムや条件変数プログラムでスレッドの数を増やしてみなさい。 ★練習問題(2) 手続きとスレッド １つの手続き（Ｃ言語の関数）から複数のスレッドを生成してみなさい。 ★練習問題(3) ダブルバッファリング 循環バッファのプログラムをダブルバッファリングを行なうプログラムに変更しなさい。 ★練習問題(4) 条件変数の削減 循環バッファのプログラムで、条件変数を１つになるように変更しなさい。 一度に wait する必要があるのは、put() 側か get() のどちらか一方だけである。よって、両方とも同じキューにつないでも、動作する。 ★練習問題(5) Javaにおける再帰的モニタの確認 再帰的mutexの例題で使った Pthread のプログラムを Java で書き直しなさい。 ★練習問題(6) 引き出し機能の追加 再帰的mutexの例題で使ったプログラムに、口座の残高を返す手続きと口座から現金を引き出す手続きを付けなさい。ただし、現金の引出しでは、残高が負にならないようにしなさい。 balance() { ... } withdraw( int n ) { ... } プログラミング言語は、Ｃ言語（Pthread）または Java を用いなさい。 ★練習問題(7) 複数要素を受付ける有限バッファ 条件変数を使った環状バッファのプログラムのうち、 (C言語Pthread版) 、または、 (Java版) を書き換えて、一度に n 個(n は可変)の要素を受付けるようにしなさい。すなわち、 put(int n, int x[]) n 個の要素を加える。 get(int n, int x[]) n 個の要素を取り去る(return で値を返さない)。 ★練習問題(8) 狭い橋 １度に１方向の車しか通さない狭い橋がある。橋の上に同時に３台の車が通ると橋が落ちる。この橋が落ちないように、車の交通整理を実現するプログラムを書きなさい。車は、スレッドで実現されるものとする。そして、次のような手続きを呼び出す。 vehicle(int direction) { arrive_bridge( direction ); cross_bridge( direction ); exit_bridge( direction ); } このコードで direction は、0 または 1 であり、橋のどの方向に車が渡ろうとしているかを示している。手続き arrive_bridge() と exit_bridge() を、mutex と条件変数を使って書きなさい。arrive_bridge() は、安全にその方向で車が通れるまでリターンしてはならない。衝突したり、重量オーバーで橋が落ちたりすることがないようにしなければならない。デバッグのためのメッセージを適宜画面に出力する。exit_bridge() は、橋を渡り終えことを告げるために呼ばれる。この時、可能ならば、待っている車を渡らせ始める (arrive_bridge() からリターンさせる)。 ここでは、公平性は実現しなくてもよい。また、飢餓状態にならないことを保証しなくてもよい。 完成したプログラムにおいて、新しい車が来た時、既に別の車が待っていたとする。この場合、新しい車が先に橋を渡るか、それとも古い車が先に橋を渡るか、それとも、予想できないか（非決定的か）。その理由を簡単に説明しなさい。 ★練習問題(9) 化学反応 酸素原子と水素原子から水が作られる反応を、スレッドを使って書きなさい。 水素原子も酸素原子も水分子も、それぞれ１つのスレッドで実現する。 各原子は、それぞれ複数個ある。水素原子が２個、酸素原子が１個だけとは限らない。水素が１００個、酸素が５個というようなこともあり得る。 水素原子は、反応可能になると H_Ready() 手続きを呼び出す。 酸素原子は、反応可能になると O_Ready() 手続きを呼び出す。 少なくとも２つの水素原子と１つの酸素原子がそろうまで、H_Ready() も O_Ready() も、リターンしない。 ３つのスレッドのうち、１つのスレッドが make_water() 手続きを呼び出す。この手続きは、画面にメッセージを表示する。 このような手続きを、mutex と条件変数、または、セマフォを使って書きなさい。 水素原子や酸素原子ではなく、水素分子 (H₂)や酸素分子 (O₂)を使ってもよい。 pthread_create( ..., NULL, (void *)H_func, ... ); pthread_create( ..., NULL, (void *)H_func, ... ); pthread_create( ..., NULL, (void *)H_func, ... ); pthread_create( ..., NULL, (void *)H_func, ... ); pthread_create( ..., NULL, (void *)O_func, ... ); pthread_create( ..., NULL, (void *)O_func, ... ); pthread_create( ..., NULL, (void *)O_func, ... ); H_func( ... ) { printf(...); H_Ready(...); } O_func( ... ) { printf(...); O_Ready(...); } H2O_func( ... ) { printf(...); } H_Ready(...) { .... } O_Ready(...) { .... } make_water() { pthread_create( ..., NULL, (void *)H2O_func, ... ); } ★練習問題(10) 循環バッファをセマフォで実現する 循環バッファのプログラムを、セマフォを使って書き直しなさい。 セマフォを使った循環バッファのプログラムの作成は、次の教科書の練習問題にもなっている（巻末に回答もある）。 清水謙多郎: "オペレーティングシステム",岩波書店 (1992). ISBN: 4000078526. プログラミング言語は、Ｃ言語（Pthread）または Java を用いなさい。 ↑[もどる] ←[12月7日] ・[12月14日] →[12月21日] Last updated: 2007/12/14 10:22:48 Yasushi Shinjo / <yas@is.tsukuba.ac.jp>

Java	Pthread
new Thread(); start();	pthread_create()
join()	pthread_join()
synchronized	pthread_mutex_lock()とpthread_mutex_unlock()の組
wait()	pthread_cond_wait()
wait(long timeout)	pthread_cond_timedwait()
notify()	pthread_cond_signal()
notifyAll()	pthread_cond_broadcast()