Java并发编程中的若干核心技术,向高手进阶
來源:http://www.jianshu.com/p/5f499f8212e7
引言
本文試圖從一個更高的視角來總結Java語言中的并發編程內容,希望閱讀完本文之后,可以收獲一些內容,至少應該知道在Java中做并發編程實踐的時候應該注意什么,應該關注什么,如何保證線程安全,以及如何選擇合適的工具來滿足需求。
當然,更深層次的內容就會涉及到JVM層面的知識,包括底層對Java內存的管理,對線程的管理等較為核心的問題,當然,本文的定位在于抽象與總結,更為具體而深入的內容就需要自己去實踐,考慮到可能篇幅過長、重復描述某些內容,以及自身技術深度等原因,本文將在深度和廣度上做一些權衡,某些內容會做一些深入的分析,而有些內容會一帶而過,點到為止。
總之,本文就當是對學習Java并發編程內容的一個總結,以及給那些希望快速了解Java并發編程內容的讀者拋磚引玉,不足之處還望指正。
?
Java線程
一般來說,在java中實現高并發是基于多線程編程的,所謂并發,也就是多個線程同時工作,來處理我們的業務,在機器普遍多核心的今天,并發編程的意義極為重大,因為我們有多個cpu供線程使用,如果我們的應用依然只使用單線程模式來工作的話,對極度浪費機器資源的。所以,學習java并發知識的首要問題是:如何創建一個線程,并且讓這個線程做一些事情?
這是java并發編程內容的起點,下面將分別介紹多個創建線程,并且讓線程做一些事情的方法。
?
繼承Thread類
繼承Thread類,然后重寫run方法,這是第一種創建線程的方法。run方法里面就是我們要做的事情,可以在run方法里面寫我們想要在新的線程里面運行的任務,下面是一個小例子,我們繼承了Thread類,并且在run方法里面打印出了當然線程的名字,然后sleep1秒中之后就退出了:
/*** Created by hujian06 on 2017/10/31.*?* the demo of thread*/ public class ThreadDemo {public static void main(String ... args) {AThread aThread = new AThread();//start the threadaThread.start();}}class AThread extends Thread {@Overridepublic void run() {System.out.println("Current Thread Name:" +Thread.currentThread().getName());try {Thread.sleep(1000);} catch (InterruptedException e) {e.printStackTrace();}} }如果我們想要啟動這個線程,只需要像上面代碼中那樣,調用Thread類的start方法就可以了。
?
實現Runnable接口
啟動一個線程的第二種方法是實現Runnable接口,然后實現其run方法,將你想要在新線程里面執行的業務代碼寫在run方法里面,下面的例子展示了這種方法啟動線程的示例,實現的功能和上面的第一種示例是一樣的:
/*** Created by hujian06 on 2017/10/31.** the demo of Runnable*/ public class ARunnableaDemo {public static void main(String ... args) {ARunnanle aRunnanle = new ARunnanle();Thread thread = new Thread(aRunnanle);thread.start();}}class ARunnanle implements Runnable {@Overridepublic void run() {System.out.println("Current Thread Name:" +Thread.currentThread().getName());try {Thread.sleep(1000);} catch (InterruptedException e) {e.printStackTrace();}} }在啟動線程的時候,依然還是使用了Thread這個類,只是我們在構造函數中將我們實現的Runnable對象傳遞進去了,所以在我們執行Thread類的start方法的時候,實際執行的內容是我們的Runnable的run方法。
?
使用FutureTask
啟動一個新的線程的第三種方法是使用FutureTask,下面來看一下FutureTask的類圖,就可以明白為什么可以使用FutureTask來啟動一個新的線程了:
FutureTask的類圖從FutureTask的類圖中可以看出,FutureTask實現了Runnable接口和Future接口,所以它兼備Runnable和Future兩種特性,下面先來看看如何使用FutureTask來啟動一個新的線程:
import java.util.concurrent.Callable; import java.util.concurrent.ExecutionException; import java.util.concurrent.FutureTask;/*** Created by hujian06 on 2017/10/31.** the demo of FutureTask*/ public class FutureTaskDemo {public static void main(String ... args) {ACallAble callAble = new ACallAble();FutureTask<String> futureTask = new FutureTask<>(callAble);Thread thread = new Thread(futureTask);thread.start();do {}while (!futureTask.isDone());try {String result = futureTask.get();System.out.println("Result:" + result);} catch (InterruptedException | ExecutionException e) {e.printStackTrace();}}}class ACallAble implements Callable<String> {@Overridepublic String call() throws Exception {Thread.sleep(1000);return "Thread-Name:" +?Thread.currentThread().getName();} }可以看到,使用FutureTask來啟動一個線程之后,我們可以監控這個線程是否完成,上面的示例中主線程會一直等待這個新創建的線程直到它返回,其實只要是Future提供的接口,我們在FutureTask中都可以使用,這極大的方便了我們,Future在并發編程中的意義極為重要,Future代表一個未來會發生的東西,它是一種暗示,一種占位符,它示意我們它可能不會立即得到結果,因為它的任務還在運行,但是我們可以得到一個對這個線程的監控對象。
我們可以對線程的執行做一些判斷,甚至是控制,比如,如果我們覺得我們等了太久,并且我們覺得沒有必要再等待下去的時候,就可以將這個Task取消,還有一點需要提到的是,Future代表它可能正在運行,也可能已經返回,當然Future更多的暗示你可以在等待這個結果的同時可以使用其他的線程做一些其他的事情,當你真的需要這個結果的時候再來獲取就可以了,這就是并發,理解這一點非常重要。
本小節通過介紹三種創建并啟動一個新線程的方法,為進行并發編程開了一個頭,目前,我們還只是在能創建多個線程,然后讓多個線程做不同個的事情的階段,當然,這是學習并發編程最為基礎的,無論如何,現在,我們可以讓我們的應用運行多個線程了,下面的文章將會基于這個假設(一個應用開啟了多個線程)討論一些并發編程中值得關注的內容。
?
線程模型
我們現在可以啟動多個線程,但是好像并沒有形成一種類似于模型的東西,非?;靵y,并且到目前為止我們的多個線程依然只是各自做各自的事情,互不相干,多個線程之間并沒有交互(通信),這是最簡單的模型,也是最基礎的模型,本小節試圖介紹線程模型,一種指導我們的代碼組織的思想,線程模型確定了我們需要處理那些多線程的問題,在一個系統中,多個線程之間沒有通信是不太可能的,更為一般的情況是,多個線程共享一些資源,然后相互競爭來獲取資源權限,多個線程相互配合,來提高系統的處理能力。
正因為多個線程之間會有通信交互,所以本文接下來的討論才有了意義,如果我們的系統里面有幾百個線程在工作,但是這些線程互不相干,那么這樣的系統要么實現的功能非常單一,要么毫無意義(當然不是絕對的,比如Netty的線程模型)。
繼續來討論線程模型,上面說到線程模型是一種指導代碼組織的思想,這是我自己的理解,不同的線程模型需要我們使用不同的代碼組織,好的線程模型可以提高系統的并發度,并且可以使得系統的復雜度降低,這里需要提一下Netty 4的線程模型,Netty 4的線程模型使得我們可以很容易的理解Netty的事件處理機制,這種優秀的設計基于Reactor線程模型,Reactor線程模型分為單線程模型、多線程模型以及主從多線程模型,Netty的線程模型類似于Reactor主從多線程模型。
當然線程模型是一種更高級別的并發編程內容,它是一種編程指導思想,尤其在我們進行底層框架設計的時候特別需要注意線程模型,因為一旦線程模型設計不合理,可能會導致后面框架代碼過于復雜,并且可能因為線程同步等問題造成問題不可控,最終導致系統運行失控。類似于Netty的線程模型是一種好的線程模型,下面展示了這種模型:
Netty線程模型簡單來說,Netty為每個新建立的Channel分配一個NioEventLoop,而每個NioEventLoop內部僅使用一個線程,這就避免了多線程并發的同步問題,因為為每個Channel處理的線程僅有一個,所以不需要使用鎖等線程同步手段來做線程同步,在我們的系統設計的時候應該借鑒這種線程模型的設計思路,可以避免我們走很多彎路。
?
Java線程池
池化技術是一種非常有用的技術,對于線程來說,創建一個線程的代價是很高的,如果我們在創建了一個線程,并且讓這個線程做一個任務之后就回收的話,那么下次要使用線程來執行我們的任務的時候又需要創建一個新的線程,是否可以在創建完成一個線程之后一直緩沖,直到系統關閉的時候再進行回收呢?
線程池就是這樣的組件,使用線程池,就沒必要頻繁創建線程,線程池會為我們管理線程,當我們需要一個新的線程來執行我們的任務的時候,就向線程池申請,而線程池會從池子里面找到一個空閑的線程返回給請求者,如果池子里面沒有可用的線程,那么線程池會根據一些參數指標來創建一個新的線程,或者將我們的任務提交到任務隊列中去,等待一個空閑的線程來執行這個任務。
細節內容在下文中進行分析,目前我們只需要明白,線程池里面有很多線程,這些線程會一直到系統關系才會被回收,否則一直會處于處理任務或者等待處理任務的狀態。
首先,如何使用線程池呢?下面的代碼展示了如何使用java線程池的例子:
更為豐富的應用應該自己去探索,結合自身的需求來借助線程池來實現,下面來分析一下Java線程池實現中幾個較為重要的內容。
?
ThreadPoolExecutor和ScheduledThreadPoolExecutor
ThreadPoolExecutor和ScheduledThreadPoolExecutor是java實現線程池的核心類,不同類型的線程池其實就是在使用不同的構造函數,以及不同的參數來構造出ThreadPoolExecutor或者ScheduledThreadPoolExecutor,所以,學習java線程池的重點也在于學習這兩個核心類。
前者適用于構造一般的線程池,而后者繼承了前者,并且很多內容是通用的,但是ScheduledThreadPoolExecutor增加了schedule功能,也就是說,ScheduledThreadPoolExecutor使用于構造具有調度功能的線程池,在需要周期性調度執行的場景下就可以使用ScheduledThreadPoolExecutor。
下面展示了ThreadPoolExecutor和ScheduledThreadPoolExecutor的類圖,可以看出他們的關系,以及他們的繼承關系:
ThreadPoolExecutor類圖 ScheduledThreadPoolExecutor類圖關于較為細節的內容不再本文的敘述范圍之內,如果想要了解這些內容的詳細內容,可以參考文章中給出的鏈接,這些文章較為深入的分析和總結了相關的內容。
上文中提到,線程池會管理著一些線程,這些線程要么處于運行狀態,要么處于等待任務的狀態,當然這只是我們較為形象的描述,一個線程的狀態不僅有運行態與等待狀態,還有其他的狀態,但是對我我們來說,線程池里面的線程確實是要么處于運行狀態,要么處于等待任務的狀態,這體現在,當我們向一個線程池提交一個任務的時候,可能會被等待任務的線程立即執行,但是可能線程池里面的線程都處于忙碌狀態,那么我們提交的任務就會被加入到等待運行的任務隊列中去,當有空閑線程了,或者隊列也滿了,那么線程池就會采用一些策略來執行任務,并且在某些時刻會拒絕提交的任務,這些細節都可以在ThreadPoolExecutor的實現中找到。
在線程池的實現中,有一個角色特別重要,那就是任務隊列,當線程池里面沒有空閑的線程來執行我們的任務的時候,我們的任務就會被添加到任務隊列中去等待執行,而這個任務隊列可能會被多個線程并發讀寫,所以需要支持多線程安全訪問,java提供了一類支持并發環境的隊列,稱為阻塞隊列,這是一類特殊的隊列,他們的使用時非常廣泛的,特別是在jdk自身的類庫建設上,當然在我們實際的工作中也是有很多使用場景的。
關于ThreadPoolExecutor是如何處理一個提交的任務的細節,可以參考下面的代碼:
??
public void execute(Runnable command) {if (command == null)throw new NullPointerException();/** Proceed in 3 steps:** 1. If fewer than corePoolSize threads are running, try to* start a new thread with the given command as its first* task.? The call to addWorker atomically checks runState and* workerCount, and so prevents false alarms that would add* threads when it shouldn't, by returning false.** 2. If a task can be successfully queued, then we still need* to double-check whether we should have added a thread* (because existing ones died since last checking) or that* the pool shut down since entry into this method. So we* recheck state and if necessary roll back the enqueuing if* stopped, or start a new thread if there are none.** 3. If we cannot queue task, then we try to add a new* thread.? If it fails, we know we are shut down or saturated* and so reject the task.*/int c = ctl.get();if (workerCountOf(c) < corePoolSize) {if (addWorker(command, true))return;c = ctl.get();}if (isRunning(c) && workQueue.offer(command)) {int recheck = ctl.get();if (! isRunning(recheck) && remove(command))reject(command);else if (workerCountOf(recheck) == 0)addWorker(null, false);}else if (!addWorker(command, false))reject(command);}下面來看一下java中借助ThreadPoolExecutor來構造的幾個線程池的特性:
1、newFixedThreadPool
使用ThreadPoolExecutor構造一個newCachedThreadPool的流程如下:
??? public static ExecutorService newFixedThreadPool(int nThreads) {return new ThreadPoolExecutor(nThreads, nThreads,0L, TimeUnit.MILLISECONDS,new LinkedBlockingQueue<Runnable>());}public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,long keepAliveTime,TimeUnit unit,BlockingQueue<Runnable> workQueue) {this(corePoolSize, maximumPoolSize, keepAliveTime, unit, workQueue,Executors.defaultThreadFactory(), defaultHandler);}public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,long keepAliveTime,TimeUnit unit,BlockingQueue<Runnable> workQueue,ThreadFactory threadFactory,RejectedExecutionHandler handler) {if (corePoolSize < 0 ||maximumPoolSize <= 0 ||maximumPoolSize < corePoolSize ||keepAliveTime < 0)throw new IllegalArgumentException();if (workQueue == null || threadFactory == null || handler == null)throw new NullPointerException();this.corePoolSize = corePoolSize;this.maximumPoolSize = maximumPoolSize;this.workQueue = workQueue;this.keepAliveTime = unit.toNanos(keepAliveTime);this.threadFactory = threadFactory;this.handler = handler;}????在任意時刻,newFixedThreadPool構造出來的線程池中最多只可能存活著nThreads個線程,如果所有的線程都在運行任務,那么這個時候提交的任務將會被添加到任務隊列中去等待執行。
我們可以控制corePoolSize和maximumPoolSize來使得通過ThreadPoolExecutor構造出來的線程池具有一些不一樣的特性,但是需要注意的是,當我們設置的maximumPoolSize大于corePoolSize的時候,如果當前線程池里面的線程數量已經達到了corePoolSize了,并且當前所以線程都處于運行任務的狀態,那么在這個時候提交的任務會被添加到任務隊列中去,只有在任務隊列滿了的時候,才會去創建新的線程,如果線程數量已經達到了maximumPoolSize了,那么到此就會拒絕提交的任務,這些流程可以參考上面展示出來的execute方法的實現。該類型的線程池使用的任務隊列是LinkedBlockingQueue類型的阻塞隊列。
2、newCachedThreadPool
通過ThreadPoolExecutor構造一個newCachedThreadPool線程池的流程如下:
??? public static ExecutorService newCachedThreadPool() {
??????? return new ThreadPoolExecutor(0, Integer.MAX_VALUE,
????????????????????????????????????? 60L, TimeUnit.SECONDS,
????????????????????????????????????? new SynchronousQueue<Runnable>());
??? }
??? public ThreadPoolExecutor(int corePoolSize,
????????????????????????????? int maximumPoolSize,
????????????????????????????? long keepAliveTime,
????????????????????????????? TimeUnit unit,
????????????????????????????? BlockingQueue<Runnable> workQueue) {
??????? this(corePoolSize, maximumPoolSize, keepAliveTime, unit, workQueue,
???????????? Executors.defaultThreadFactory(), defaultHandler);
??? }
?? ?
??? public ThreadPoolExecutor(int corePoolSize,
????????????????????????????? int maximumPoolSize,
????????????????????????????? long keepAliveTime,
????????????????????????????? TimeUnit unit,
????????????????????????????? BlockingQueue<Runnable> workQueue,
????????????????????????????? ThreadFactory threadFactory,
????????????????????????????? RejectedExecutionHandler handler) {
??????? if (corePoolSize < 0 ||
??????????? maximumPoolSize <= 0 ||
??????????? maximumPoolSize < corePoolSize ||
??????????? keepAliveTime < 0)
??????????? throw new IllegalArgumentException();
??????? if (workQueue == null || threadFactory == null || handler == null)
??????????? throw new NullPointerException();
??????? this.corePoolSize = corePoolSize;
??????? this.maximumPoolSize = maximumPoolSize;
??????? this.workQueue = workQueue;
??????? this.keepAliveTime = unit.toNanos(keepAliveTime);
??????? this.threadFactory = threadFactory;
??????? this.handler = handler;
??? }
newCachedThreadPool適合于類似秒殺系統中,它可以按需創建線程。每個線程在空閑了一段時間之后會被回收,然后需要創建的時候再創建出來,在使用的時候應該使用合適的構造參數。
該類型使用的任務隊列是SynchronousQueue這種同步隊列,這是一種特別的隊列,每個線程都是有使命的,每個線程都會等待另外一個線程和自己交易,在交易完成之前都會阻塞住線程,他們之間有一種傳遞關系,數據是從一個線程直接傳遞到例外一個線程中去的,SynchronousQueue這種隊列不存儲實際的數據,而是存儲著一些線程的信息,而SynchronousQueue管理著這些線程之間的交易,更為詳細的細節參考后面的文章。
上面提到,ScheduleThreadPoolExecutor是繼承自ThreadPoolExecutor的,而且從類圖中也可以看出來這種關系,所以其實ScheduleThreadPoolExecutor是對ThreadPoolExecutor的增強,它增加了schedule功能,使用與那些需要周期性調度執行,或者是延時執行的任務,在ScheduleThreadPoolExecutor中使用了一種阻塞隊列稱為延時阻塞隊列,這種隊列有能力持有一段時間數據,我們可以設定這種時間,時間沒到的時候嘗試獲取數據的線程會被阻塞,直到設定的時間到了,線程才會被喚醒來消費數據。而關于ScheduleThreadPoolExecutor是如何運作的,包括他的周期性任務調度是如何工作的,可以參考上面提到的鏈接。
Future
Future代表一種未來某個時刻會發生的事情,在并發環境下使用Future是非常重要的,使用Future的前提是我們可以容許線程執行一段時間來完成這個任務,但是需要在我們提交了任務的時候就返回一個Future,這樣在接下來的時間程序員可以根據實際情況來取消任務或者獲取任務,在多個任務沒有相互依賴關系的時候,使用Future可以實現多線程的并發執行,多個線程可以執行在不同的處理器上,然后在某個時間點來統一獲取結果就可以了。
上文中已經提到了FutureTask,FutureTask既是一種Runnable,也是一種Future,并且結合了兩種類型的特性。下面展示了Future提供的一些方法,使用這些方法可以很方便的進行任務控制:
public interface Future<V> {boolean cancel(boolean mayInterruptIfRunning);boolean isCancelled();boolean isDone();V get() throws InterruptedException, ExecutionException;V get(long timeout, TimeUnit unit)throws InterruptedException, ExecutionException, TimeoutException; }在java 8中增加了一個新的類CompletableFuture,這是對Future的極大增強,CompletableFuture提供了非常豐富的操作可以來控制我們的任務,并且可以根據多種規則來關聯多個Future。
Fork/Join框架
Fork/Join框架是一種并行框架,它可以將一個較大的任務切分成一些小任務來執行,并且多個線程之間會相互配合,每個線程都會有一個任務隊列,對于某些線程來說它們可能很快完成了自己的任務隊列中的任務,但是其他的線程還沒有完成,那么這些線程就會去竊取那些還沒有完成任務執行的線程的任務來執行,這成為“工作竊取”算法,關于Fork/Join中的工作竊取,其實現還是較為復雜的,下面展示了Fork/Join框架的工作模式:
Fork/Join工作模式可以從上面的圖中看出,一個較大的任務會被切分為一個小任務,并且小任務還會繼續切分,直到符合我們設定的執行閾值,然后就會執行,執行完成之后會進行join,也就是將小任務的結果組合起來,組裝出我們提交的整個任務的結果,這是一種非常先進的工作模式,非常有借鑒意義。當然,使用Fork/Join框架的前提是我們的任務時可以拆分成小任務來執行的,并且小人物的結果可以組裝出整個大任務的結果,歸并排序是一種可以借助Fork/Join框架來提供處理速度的算法,下面展示了使用Fork/Join框架來執行歸并排序的代碼,可以試著調整參數來進行性能測試:
import java.util.Random; import java.util.concurrent.ForkJoinPool; import java.util.concurrent.RecursiveAction;/*** Created by hujian06 on 2017/10/23.** merge sort by fork/join*/ public class ForkJoinMergeSortDemo {public static void main(String ... args) {new Worker().runWork();}}class Worker {private static final boolean isDebug = false;public void runWork() {int[] array = mockArray(200000000, 1000000); // mock the dataforkJoinCase(array);normalCase(array);}private void printArray(int[] arr) {if (isDebug == false) {return;}for (int i = 0; i < arr.length; i ++) {System.out.print(arr[i] + " ");}System.out.println();}private void forkJoinCase(int[] array) {ForkJoinPool pool = new ForkJoinPool();MergeSortTask mergeSortTask = new MergeSortTask(array, 0, array.length - 1);long start = System.currentTimeMillis();pool.invoke(mergeSortTask);long end = System.currentTimeMillis();printArray(array);System.out.println("[for/join mode]Total cost: " + (end - start) / 1000.0 + " s, for " +array.length + " items' sort work.");}private void normalCase(int[] array) {long start = System.currentTimeMillis();new MergeSortWorker().sort(array, 0, array.length - 1);long end = System.currentTimeMillis();printArray(array);System.out.println("[normal mode]Total cost: " + (end - start) / 1000.0 + " s, for " +array.length + " items' sort work.");}private static final? int[] mockArray(int length, int up) {if (length <= 0) {return null;}int[] array = new int[length];Random random = new Random(47);for (int i = 0; i < length; i ++) {array[i] = random.nextInt(up);}return array;} }class MergeSortTask extends RecursiveAction {private static final int threshold = 100000;private final MergeSortWorker mergeSortWorker = new MergeSortWorker();private int[] data;private int left;private int right;public MergeSortTask(int[] array, int l, int r) {this.data = array;this.left = l;this.right = r;}@Overrideprotected void compute() {if (right - left < threshold) {mergeSortWorker.sort(data, left, right);} else {int mid = left + (right - left) / 2;MergeSortTask l = new MergeSortTask(data, left, mid);MergeSortTask r = new MergeSortTask(data, mid + 1, right);invokeAll(l, r);mergeSortWorker.merge(data, left, mid, right);}} }class MergeSortWorker {// Merges two subarrays of arr[].// First subarray is arr[l..m]// Second subarray is arr[m+1..r]void merge(int arr[], int l, int m, int r) {// Find sizes of two subarrays to be mergedint n1 = m - l + 1;int n2 = r - m;/* Create temp arrays */int L[] = new int[n1];int R[] = new int[n2];/*Copy data to temp arrays*/for (int i = 0; i < n1; ++i)L[i] = arr[l + i];for (int j = 0; j < n2; ++j)R[j] = arr[m + 1 + j];/* Merge the temp arrays */// Initial indexes of first and second subarraysint i = 0, j = 0;// Initial index of merged subarry arrayint k = l;while (i < n1 && j < n2) {if (L[i] <= R[j]) {arr[k ++] = L[i ++];} else {arr[k ++] = R[j ++];}}/* Copy remaining elements of L[] if any */while (i < n1) {arr[k ++] = L[i ++];}/* Copy remaining elements of R[] if any */while (j < n2) {arr[k ++] = R[j ++];}}// Main function that sorts arr[l..r] using// merge()void sort(int arr[], int l, int r) {if (l < r) {// Find the middle pointint m = l + (r - l) / 2;// Sort first and second halvessort(arr, l, m);sort(arr, m + 1, r);// Merge the sorted halvesmerge(arr, l, m, r);}} }在jdk中,使用Fork/Join框架的一個典型案例是Streams API,Streams API試圖簡化我們的并發編程,可以使用很簡單的流式API來處理我們的數據流,在我們無感知的狀態下,其實Streams的實現上借助了Fork/Join框架來實現了并發計算,所以強烈建議使用Streams API來處理我們的流式數據,這樣可以充分的利用機器的多核心資源,來提高數據處理的速度。鑒于Fork/Join框架的先進思想,理解并且學會使用Fork/Join框架來處理我們的實際問題是非常有必要的。
Java volatile關鍵字
volatile解決的問題是多個線程的內存可見性問題,在并發環境下,每個線程都會有自己的工作空間,每個線程只能訪問各自的工作空間,而一些共享變量會被加載到每個線程的工作空間中,所以這里面就有一個問題,內存中的數據什么時候被加載到線程的工作緩存中,而線程工作空間中的內容什么時候會回寫到內存中去。這兩個步驟處理不當就會造成內存可加性問題,也就是數據的不一致,比如某個共享變量被線程A修改了,但是沒有回寫到內存中去,而線程B在加載了內存中的數據之后讀取到的共享變量是臟數據,正確的做法應該是線程A的修改應該對線程B是可見的,更為通用一些,就是在并發環境下共享變量對多個線程是一致的。
對于內存可見性的一點補充是,之所以會造成多個線程看到的共享變量的值不一樣,是因為線程在占用CPU時間的時候,cpu為了提高處理速度不會直接和內存交互,而是會先將內存中的共享內容讀取到內部緩存中(L1,L2),然后cpu在處理的過程中就只會和內部緩存交互,在多核心的機器中這樣的處理方式就會造成內存可見性問題。
volatile可以解決并發環境下的內存可見性問題,只需要在共享變量前面加上volatile關鍵字就可以解決,但是需要說明的是,volatile僅僅是解決內存可見性問題,對于像i++這樣的問題還是需要使用其他的方式來保證線程安全。使用volatile解決內存可見性問題的原理是,如果對被volatile修飾的共享變量執行寫操作的話,JVM就會向cpu發送一條Lock前綴的指令,cpu將會這個變量所在的緩存行(緩存中可以分配的最小緩存單位)寫回到內存中去。但是在多處理器的情況下,將某個cpu上的緩存行寫回到系統內存之后,其他cpu上該變量的緩存還是舊的,這樣再進行后面的操作的時候就會出現問題,所以為了使得所有線程看到的內容都是一致的,就需要實現緩存一致性協議,cpu將會通過監控總線上傳遞過來的數據來判斷自己的緩存是否過期,如果過期,就需要使得緩存失效,如果cpu再來訪問該緩存的時候,就會發現緩存失效了,這時候就會重新從內存加載緩存。
總結一下,volatile的實現原則有兩條:
1、JVM的Lock前綴的指令將使得cpu緩存寫回到系統內存中去
2、為了保證緩存一致性原則,在多cpu的情景下,一個cpu的緩存回寫內存會導致其他的cpu上的緩存都失效,再次訪問會重新從系統內存加載新的緩存內容。
原子操作CAS
原子操作表達的意思是要么一個操作成功,要么失敗,中間過程不會被其他的線程中斷,這一點對于并發編程來說非常重要,在java中使用了大量的CAS來做并發編程,包括jdk的ConcurrentHsahMap的實現,還有AtomicXXX的實現等其他一些并發工具的實現都使用了CAS這種技術,CAS包括兩部分,也就是Compare and swap,首先是比較,然后再交互,這樣做的原因是,在并發環境下,可能不止一個線程想要來改變某個共享變量的值,那么在進行操作之前使用一個比較,而這個比較的值是當前線程認為(知道)該共享變量最新的值,但是可能其他線程已經改變了這個值,那么此時CAS操作就會失敗,只有在共享變量的值等于線程提供的用于比較的值的時候才會進行原子改變操作。
java中有一個類是專門用于提供CAS操作支持的,那就是Unsafe類,但是我們不能直接使用Unsafe類,因為Unsafe類提供的一些底層的操作,需要非常專業的人才能使用好,并且Unsafe類可能會造成一些安全問題,所以不建議直接使用Unsafe類,但是如果想使用Unsafe類的話還是有方法的,那就是通過反射來獲取Unsafe實例,類似于下面的代碼:
如果想要了解Unsafe類到底提供了哪些較為底層的操作,可以直接參考Unsafe的源碼。CAS操作解決了原子操作問題,只要進行操作,CAS就會保證操作會成功,不會被中斷,這是一種非常好非常強大的特性,下面就java 8中的ConcurrentHashMap的size實現來談談CAS操作在并發環境下的使用案例。
在java 7中,ConcurrentHashMap的實現是基于分段鎖協議的實現,本質上還是使用了鎖,只是基于一種考慮,就是多個線程訪問哈希桶具有隨機性,基于這種考慮來將數據存儲在不同的哈希段上面,然后每一個段配有一把鎖,在需要寫某個段的時候需要加鎖,而在這個時候,其他訪問其他段的線程是不需要阻塞的,但是對于該段的線程訪問就需要等待,直到這個加鎖的線程釋放了鎖,其他線程才能進行訪問。在java 8中,ConcurrentHashMap的實現拋棄了這種復雜的架構設計,但是繼承了這種分散線程競爭壓力的思想,其實就提高系統的并發度這一維度來說,分散競爭壓力是一種最為直接明了的解決方案,而java 8在實現ConcurrentHashMap的時候大量使用了CAS操作,減少了使用鎖的頻度來提高系統的響應度,其實使用鎖和使用CAS來做并發在復雜度上不是一個數量級的,使用鎖在很大程度上假設了多個線程的排斥性,并且使用鎖會將線程阻塞等待,也就是說使用鎖來做線程同步的時候,線程的狀態是會改變的,但是使用CAS是不會改變線程的狀態的(不太嚴謹的說),所以使用CAS比起使用synchronized或者使用Lcok來說更為輕量級。
現在就ConcurrentHashMap的size方法來分析一下如何將線程競爭的壓力分散出去。在java 7的實現上,在調用size方法之后,ConcurrentHashMap會進行兩次對哈希桶中的記錄累加的操作,這兩次累加的操作是不加鎖的,然后判斷兩次結果是否一致,如果一致就說明目前的系統是讀多寫少的場景,并且可能目前沒有線程競爭,所以直接返回就可以,這就避免了使用鎖,但是如果兩次累加結果不一致,那就說明此時可能寫的線程較多,或者線程競爭較為嚴重,那么此時ConcurrentHashMap就會進行一個重量級的操作,對所有段進行加鎖,然后對每一個段進行記錄計數,然后求得最終的結果返回。在最有情況下,size方法需要做兩次累加計數,最壞情況需要三次,并且會涉及全局加鎖這種重量級的加鎖操作,性能肯定是不高的。而在java 8的實現上,ConcurrentHashMap的size方法實際上是與ConcurrentHashMap是解耦的,size方法更像是接入了一個額外的并發計數系統,在進行size方法調用的時候是不會影響數據的存取的,這其實是一種非常先進的思想,就是一個系統模塊化,然后模塊可以進行更新,系統解耦,比如java 8中接入了并發計數組件Striped64來作為size方法的支撐,可能未來出現了比Striped64更為高效的算法來計數,那么只需要將Striped64模塊換成新的模塊就可以了,對原來的核心操作是不影響的,這種模塊化系統設定的思想應該在我們的項目中具體實踐。
上面說到java 8在進行size方法的設計上引入了Striped64這種并發計數組件,這種組件的計數思想其實也是分散競爭,Striped64的實現上使用了volatile和CAS,在Striped64的實現中是看不到鎖的使用的,但是Striped64確實是一種高效的適用于并發環境下的計數組件,它會基于請求計數的線程,Striped64的計數會根據兩部分的內容來得到最后的結果,類似于java 7中ConcurrentHashMap的size方法的實現,在Striped64的實現上也是借鑒了這種思想的,Striped64會首先嘗試將某個線程的計數請求累加到一個base共享變量上,如果成功了,那么說明目前的競爭不是很激烈,也就沒必要后面的操作了,但是很多情況下,并發環境下的線程競爭是很激烈的,所以嘗試累加到base上的計數請求很大概率是會失敗的,那么Striped64會維護一個Cell數組,每個Cell是一個計數組件,Striped64會為每個請求計數的線程計算一個哈希值,然后哈希到Cell數組中的某個位置上,然后這個線程的計數就會累加到該Cell上面去。
并發同步框架AQS
AQS是java中實現Lock的基礎,也是實現線程同步的基礎,AQS提供了鎖的語義,并且支持獨占模式和共享模式,對應于悲觀鎖和樂觀鎖,獨占模式的含義是說同一時刻只能有一個線程獲取鎖,而其他試圖獲取鎖的線程都需要阻塞等待,而共享鎖的含義是說可以有多個線程獲得鎖,兩種模式在不同的場景下使用。
而鎖在并發編程中的地位不言而喻,多個線程的同步很多時候是需要鎖來做同步的,比如對于某些資源,我們希望可以有多個線程獲得鎖來讀取,但是只允許有一個線程獲得鎖來執行寫操作,這種鎖稱為讀寫鎖,它的實現上結合了AQS的共享模式和獨占模式,共享模式對應于可以使得多個線程獲得鎖來進行讀操作,獨占模式對應于只允許有一個線程獲得鎖來進行寫操作。該文章詳細講述了多個Lock接口的實現類,以及他們是如何借助AQS來實現的具體細節。
某些時候,我們需要定制我們自己的線程同步策略,個性化的線程同步借助AQS可以很容易的實現,比如我們的需求是允許限定個數的線程獲得鎖來進行一些操作,想要實現這樣的語義,只需要實現一個類,繼承AQS,然后重寫方法下面兩個方法:??
還需要提到的一點是,鎖分為公平鎖和非公平鎖,java中大多數時候會使用隊列來實現公平鎖,而使用棧來實現非公平鎖,當然這是基于隊列和棧這兩種數據結構的特點來實現的,直觀的來說,使用隊列的FIFO的特性就可以實現類似排隊的效果,也就保證了公平性,而棧是一個后進先出的數據結構,它的這種結構造成的結果就是,最新進入的線程可能比那些等待過一段時間的線程更早的獲得鎖,更為具體的內容可以參考上面的文章進行了解。
synchronized(同步鎖)
相對于volatile,synchronized就顯得比較重量級了。
首先,我們應該知道,在java中,所有的對象都可以作為鎖??梢苑譃橄旅嫒N情況:
1、普通方法同步,鎖是當前對象
2、靜態方法同步,鎖是當前類的Class對象
3、普通塊同步,鎖是synchronize里面配置的對象
當一個線程試圖訪問同步代碼時,必須要先獲得鎖,退出或者拋出異常時必須要釋放鎖。
JVM基于進入和退出Monitor對象來實現方法同步和代碼塊同步,可以使用monitorenter和monitorexit指令實現。monitorenter指令是在編譯后插入到同步代碼塊的開始位置,而monitorexit指令則插入到方法結束和異常處,JVM保證每個monitorenter都有一個monitorexit閾值相對應。線程執行到monitorenter的時候,會嘗試獲得對象所對應的monitor的鎖,然后才能獲得訪問權限,synchronize使用的鎖保存在Java對象頭中。
并發隊列(阻塞隊列,同步隊列)
并發隊列,也就是可以在并發環境下使用的隊列,為什么一般的隊列不能再并發環境下使用呢?因為在并發環境下,可能會有多個線程同時來訪問一個隊列,這個時候因為上下文切換的原因可能會造成數據不一致的情況,并發隊列解決了這個問題,并且java中的并發隊列的使用時非常廣泛的,比如在java的線程池的實現上使用了多種不同特性的阻塞隊列來做任務隊列,對于阻塞隊列來說,它要解決的首要的兩個問題是:
1. 多線程環境支持,多個線程可以安全的訪問隊列
2. 支持生產和消費等待,多個線程之間互相配合,當隊列為空的時候,消費線程會阻塞等待隊列不為空;當隊列滿了的時候,生產線程就會阻塞直到隊列不滿。
Java中提供了豐富的并發隊列實現,下面展示了這些并發隊列的概覽:
根據上面的圖可以將java中實現的并發隊列分為幾類:
1. 一般的阻塞隊列
2. 支持雙端存取的并發隊列
3. 支持延時獲取數據的延時阻塞隊列
4. 支持優先級的阻塞隊列
這些隊列的區別就在于從隊列中存取數據時的具體表現,比如對于延時隊列來說,獲取數據的線程可能被阻塞等待一段時間,也可能立刻返回,對于優先級阻塞隊列,獲取的數據是根據一定的優先級取到的。下面展示了一些隊列操作的具體表現:
-
Throws Exception 類型的插入和取出在不能立即被執行的時候就會拋出異常。
-
Special Value 類型的插入和取出在不能被立即執行的情況下會返回一個特殊的值(true 或者 false)
-
Blocked 類型的插入和取出操作在不能被立即執行的時候會阻塞線程直到可以操作的時候會被其他線程喚醒
-
Timed out 類型的插入和取出操作在不能立即執行的時候會被阻塞一定的時候,如果在指定的時間內沒有被執行,那么會返回一個特殊值
總結
本文總結了Java并發編程中的若干核心技術,并且對每一個核心技術都做了一些分析,并給出了參考鏈接,可以在參考鏈接中查找到更為具體深入的分析總結內容。
Java并發編程需要解決一些問題,比如線程間同步問題,如何保證數據可見性問題,以及如何高效的協調多個線程工作等內容,本文在這些維度上都有所設計。
本文作為對閱讀java.util.Concurrent包的源碼閱讀的一個總結,同時本文也作為一個起點,一個開始更高層次分析總結的起點,之前的分析都是基于JDK源碼來進行的,并且某些細節的內容還沒有完全搞明白,其實在閱讀了一些源碼之后就會發現。
如果想要深入分析某個方面的內容,就需要一些底層的知識,否則很難完整的分析總結出來,但是這種不徹底的分析又是很有必要的,至少可以對這些內容有一些大概的了解,并且知道自己的不足,以及未來需要了解的底層內容。
對于Java并發包的分析研究,深入到底層就是對JVM如何管理內容,如何管理線程的分析,在深入下去,就是操作系統對內存的管理,對線程的管理等內容,從操作系統再深入下去,就是去理解CPU的指令系統,學習磁盤知識等內容。
當然,知識的關聯是無止境的,學習也是無止境的,目前來說,首要解決的問題是可以熟練的使用Java提供的并發包內容來進行并發編程,在業務上提高并發處理能力,在出現問題的時候可以很快找到問題并且解決問題,在達到這個要求之后,可以去了解一些JVM層次的內容,比如JVM的內存模型,以及線程的實現,并且可以與學習操作系統的相關內容并行進行。
總結
以上是生活随笔為你收集整理的Java并发编程中的若干核心技术,向高手进阶的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文学会 Maven 的版本发布
- 下一篇: 蚂蚁金服CTO鲁肃:支付宝成就了我,我做