可靠性不是测试出来的,是设计出来的!
產品可靠性是設計出來的,生產出來的,管理出來的? ? ? ?——錢學森
?
一、電路是設計出來的。不要做個畫圖,要做個設計師。
?
一個電解電容緊挨著散熱片焊接的,與電解電容相關聯的那部分電路參數容易漂,現象和結果就是機器參數不穩;?綠色發光二極管的色調不一致,外觀看起來不美觀,發光管都有個波長的要求,即使都是綠光,波長的細微差別也會導致色差,而設計文件上并沒對發光管的波長做出規定;?某塊電路工作不好,發現將PCB板信號線的一個電感換成磁珠就好了,于是就改了BOM單,電路板上趴著個磁珠大肆生產了。常規理解看來,磁珠似乎和電感的特性是相同的,但事實上磁珠表現的是一個隨頻率變化的電阻特性,是消耗性的,而電感是儲能特性,是儲存性的削峰填谷。即使從實際結果來看,似乎更換器件后沒問題,但其實并沒有搞通真正的器件機理。病雖然莫名其妙的好了,但病毒的隱患仍在。
?
?
還有很多類似的問題,比如散熱,似乎熱設計只和機箱內溫度有關,卻忽視了一個致命的問題,溫度系數,即使溫度不夠高到燙手的地步,溫度的升高是否會導致溫漂,溫漂后的參數值是否會將器件的特征參數推到電路正常工作的邊緣??
比如降額,幾乎所有工程師都說“我們降額了,基本降了50%,余量是足夠的,這個問題肯定沒有”。那么降額時,所有該降額的參數都降到了安全范圍嗎?同一類功能的器件,換了不同封裝形式或生產工藝的時候,一樣的降額系數能降出一樣的效果來嗎?在特定位置、特定電路下的器件,明確哪個特定參數該降的更大一點嗎??
還有電磁兼容、振動、可維修性、測試等等多方面的問題,知己知彼,百戰不殆,在實際的考察中,發現既不知己、也不知彼的設計太多,不知己是不知道自己不知道什么,不知彼是不知道設計所面對的對象的諸多參數、條件、工藝、特性,而恰恰是由此引出了太多的技術問題。
?
二、電子可靠性設計原則
?
電子可靠性的設計原則包括:RAMS定義與評價指標、電子設備可靠性模型、系統失效率的影響要素、電子產品可靠性指標、工作環境條件的確定、系統設計與微觀設計、過程審查與測試、設計規范與技術標準。?
?
錢學森的水平和優勢是什么?電子、機械、軟件、測試、管理?
都不是,是系統方法論和工程計算。
當我們要決策一個電路的器件選型的時候,如果有一個基本公式,直接告訴了我們應該重視哪個指標,器件選型和電路設計就遵循規范,自然可以提升我們的可靠性設計了。
?
例如一個插座電纜,上面要通過10A的電流,是用2根8A的導線并聯分流好呢?還是用一根14A的電纜好呢?通過可靠性模型可以輕松得到答案。?
驅動一個發光管,是用三極管好呢,還是用運放好呢?
?
電子產品的可靠性設計需要注意以下基本準確:
1、產品結構和電路應盡量簡便。
2、盡量選用成熟的結構和典型的電路。
3、結構要簡單化、積木化、插件化。
4、如采用新電路,應注意標準化。
5、采用新技術要充分注意繼承性。
6、盡量采用數字電路。
7、盡量采用集成電路。
8、邏輯電路要進行簡化設計。
9、對性能指標、可靠性指標要綜合考慮。
10、應盡量采用傳統工藝和習慣的操作方法。
11、應不斷采用新的可靠性設計技術。
12、在電子產品中,常采用的可靠性設計技術包括元器件的降額設計、冗余化設計、熱設計、電磁兼容設計、維修性設計、漂移設計、容錯設計與故障弱化設計等,有些還包括軟件的可靠性設計。
?
三、提高電路可靠性設計方法
?
電路可靠性設計方法包括降額設計(降額參數和降額因子)、熱設計(熱設計計算、熱設計測試、熱器件選型)、電路安全性設計規范、EMC設計、PCB設計(布局布線、接地、阻抗匹配、加工工藝)、可用性設計(可用性要素、用戶操作分析、設計準則)、可維修性設計(可維修性等級、評估內容、設計方法)?
?
電路可靠性設計規范的一個核心思想是監控過程,而不是監控結果。
?
比如熱設計,按照熱功率密度、熱流密度的計算確定下來的散熱方法,您就不必擔心散熱不夠了;按照熱阻和結溫的計算方法,選定了風扇和散熱片,只要有足夠的余量。?
?
1、降額設計
?
所謂降額設計,就是使元器件運用于比額定值低的應力狀態的一種設計技術。為了提高元器件的使用可靠性以及延長產品的壽命,必須有意識地降低施加在器件上的工作應力(如:電、熱、機械應力等),降額的條件及降額的量值必須綜合確定,以保證電路既能可靠地工作,又能保持其所需的性能。降額的措施也隨元器件類型的不同而有不同的規定,如電阻降額是降低其使用功率與額定功率之比;電容降額是使工作電壓低于額定電壓;半導體分立器件降額是使功耗低于額定值;接觸元件則必須降低張力、扭力、溫度和降低其它與特殊應用有關的限制。
電子元器件的降額,通常有一個最佳的降額范圍,在這個范圍內,元器件的工作應力的變化對其失效率有顯著的影響,設計也易于實施,而且不需要設備的重量、體積、成本方面付出太大的代價。因此,應根據元器件的具體應用情況來確定適當的降額水平。因為若降額不夠則元器件的失效率會比較大,不能達到可靠性要求;反之,降額過度,將使設備的設計發生困難,并將在設備的重量、體積、成本方面付出較大的代價,還可能使元器件數量產生不必要的增加,這樣反而會使設備可靠性下降。
?
降額的等級分為三個等級,分別稱為Ⅰ級降額、Ⅱ級降額和Ⅲ級降額。
?
Ⅰ級降額是最大降額,超過它的更大降額,元器件的可靠性增長有限,而且使設計難以實現。Ⅰ級降額適用于下述情況:設備的失效將嚴重危害人員的生命安全,可能造成重大的經濟損失,導致工作任務的失敗,失敗后無法維修或維修在經濟上不合算等。
?
Ⅱ級降額指元器件在該范圍內降額時,設備的可靠性增長是急劇的,且設備設計較Ⅰ級降額易于實現。Ⅱ級降額適用于設備的換效會使工作水平降級或需支付不合理的維修費用等場合。
?
Ⅲ級降額指元器件在該范圍內降額時設備的可靠性增長效益最大,且在設備設計上實現困難最小,它適用于設備的失效對工作任務的完成影響小、不危及工作任務的完成或可迅速修復的情況。
?
2、 熱設計
?
由于現代電子設備所用的電子元器件的密度越來越高,這將使元器件之間通過傳導、輻射和對流產生熱耦合。因此,熱應力已經成為影響電子元器件失效率的一個最重要的因素。對于某些電路來說,可靠性幾乎完全取決于熱環境。所以,為了達到預期的可靠性目的,必須將元器件的溫度降低到實際可以達到的最低水平。有資料表明:環境溫度每提高10℃,元器件壽命約降低1/2。這就是有名的“10℃法則”。熱設計包括散
熱、加裝散熱器和制冷三類技術,這里筆者主要談一談散熱技術。應用中常采用的方法:
?
第一種是傳導散熱方法,可選用導熱系數大的材料來制造傳熱元件,或減小接觸熱阻并盡量縮短傳熱路徑。
第二種是對流散熱方式,對流散熱方式有自然對流散熱和強迫對流散熱兩種方法。自然對流散熱應注意以下幾點:
設計印制板和元器件時必須留出多余空間;
安排元器件時,應注意溫度場的合理分布;
充分重視應用煙囪撥風原理;
加大與對流介質的接觸面積。
強迫對流散熱方式可采用風機(如計算機上的風扇)或雙輸入口推拉方式(如帶換熱器的推拉方式)。
第三種是利用熱輻射特性方式,可以采用加大發熱體表面的粗糙度、加大輻射體周圍的環境溫差或加大輻射體表面的面積等方法。
在熱設計中,最常采用的方法是加散熱器,其目的是控制半導體的溫度,尤其是結溫Tj,使其低于半導體器件的最大結溫TjMAX,從而提高半導體器件的可靠性。半導體器件和散熱器安裝在一起工作時的等效熱路圖如圖2所示。圖中各參數的含義如下:
RTj—半導體器件內熱阻,℃/W;
Tj—半導體器件結溫,℃;
Tc—半導體器件殼溫,℃;
Tf—散熱器溫度,℃;
Ta—環境溫度,℃;
Pc—半導體器件使用功率,W。
根據圖2,散熱器的熱阻RTf應為:
RTf=(RTj-Ta)/Pc-RTj-RTc
散熱器熱阻RTf是選擇散熱器的主要依據。Tj、RTj是半導體器件提供的參,Pc是設計要求的參數,RTc可以從熱設計專業書籍中查到。下面介紹一下散熱器的選擇。
?
(1)自然冷卻散熱器的選擇
首先按以下式子計算總熱阻RT和散熱器的熱阻RTf,即:
RT=(Tjmax-Ta)/Pc
RTf=RT-RTj-RT。
算出RT和RTf之后,可根據RTf和Pc來選擇散熱器。選擇時,根據所選散熱RTf和Pc曲線,在橫坐標上查出已知Pc,再查出與Pc對應的散熱器的熱阻R'Tf。
按照R'Tf≤RTf的原則選擇合理的散熱器即可。
(2)強迫風冷散熱器的選擇
強迫風冷散熱器在選擇時應根據散熱器的熱阻RTf和風速υ來選擇合適的散熱器和風速。
?
3、 冗余設計
冗余設計是用一臺或多臺相同單元(系統)構成并聯形式,當其中一臺發生故障時,其它單元仍能使系統正常工作的設計技術。冗余按特點分為熱冗余儲備和冷冗余儲備;按冗余程度分,有兩重冗余、三重冗余、多重冗余;安冗余范圍分,有元器件冗余、部件冗余、子系統冗余和系統冗余。這種設計技術通常應用在比較重要,而且對安全性及經濟性要求較高的場合,如鍋爐的控制系統、程控交換系統、飛行器的控制系統等。
?
4、電磁兼容性設計
電磁兼容性設計也就是耐環境設計。首先要明白什么是電磁兼容性問題,電磁兼容性問題可以分為兩類:一類是電子電路、設備、系統在工作時由于相互干擾或受到外界的干擾使其達不到預期的技術指標;另一類電磁兼容性問題就是設備雖然沒有直接受到干擾的影響,但不能通過國家的電磁兼容標準,如計算機設備產生超過電磁發射標準規定的極限值,或在電磁敏感度、靜電敏感度上達不到要求。為了使設備或系統達到電磁兼容狀態,通常采用印制電路板設計、屏蔽機箱、電源線濾波、信號線濾波、接地、電纜設計等技術。印制電路板在設計布置時,應注意以下幾點:
各級電路連接應盡量縮短,盡可能減少寄生耦合,高頻電路尤其要注意;
高頻線路應盡量避免平行排列導線以減少寄生耦合,更不能象低頻電路那樣連線扎成一束;
設計各級電路應盡量按原理圖順序排列布置,避免各級電路交叉排列;
每級電路的元器件應盡量靠近各級電路的晶體管和電子管,不應分布得太遠,應盡量使各級電路自成回路;
各級均應采用一點接地或就近接地,以防止地電流回路造成干擾,應將大電流地線和沁電流回路的地線分開設置,以防止大電流流進公共地線產生較強的耦合干擾;
對于會產生較強電磁場的元件和對電磁場感應較靈敏的元件,應垂直布置、遠離或加以屏蔽以防止和減小互感耦合;
處于強磁場中的地線不應構成閉合回路,以避免出現地環路電流而產生干擾;
電源供電線應靠近(電源的)地線并平行排列以增加電源濾波效果。
?
5、 漂移設計技術
產生漂移的原因主要是元器件的參數標準值與實際數值存在公差、環境條件變化對元器件性能產生影響或是使用在惡劣環境而導致元件性能退化等因素。
如果元器件參數值發生的漂移超出其設計參數范圍,就會使設備或系統不能完成規定的功能。漂移設計是通過在設計階段根據線路原理寫出特性方程,然后通過收集元器件的分布參數來計算它們的漂移范圍以使漂移結果處在設計范圍內來保證設備正常使用的一種設計方法。
?
6 、互連可靠性設計
由于在大部分電子產品中都有接插件,為了降低這些連接部分的故障率,因此有必要進行互連可靠性設計,常采用的方法有:
注意接插件的選型,印制電路板應盡量采用大板或多層板,以減少接插點:
盡量減少可拔插點,以提高其可靠性,重要部件可采用冗余設計;
兩個插頭同時相對時,應采用將其中一個固定,另一個浮動的方式,來保證對準和拔插;
采用機械固定方式;
對于常插拔的部件,最好設計成單面走線;
連接空間應選擇有序分割;
饋線和地線應隱蔽安裝。
此外,在電子產品在可靠性設計中,有時還采用維修性設計技術、軟件可靠性設計技術、機械零件可靠性設計技術、故障安全設計技術以及一些新的可靠性設計技術等。
?
四、可靠性工程
?
可靠性工程是在產品全壽命過程中同故障作斗爭的工程技術,是研究產品故障的發生、發展,故障發生后的處理,修理、保障,以及如何預防故障發生、直到消滅故障的工程技術。
提高系統(或產品或元器件)在整個壽命周期內可靠性的一門有關設計、分析、試驗的工程技術。系統可靠性是指在規定的時間內和規定條件(如使用環境和維修條件等)下能有效地實現規定功能的能力。系統可靠性不僅取決于規定的使用條件等因素,還與設計技術有關。有組織地進行可靠性工程研究,是20世紀50年代初從美國對電子設備可靠性研究開始的。到了60年代才陸續由電子設備的可靠性技術推廣到機械、建筑等各個行業。后來,又相繼發展了故障物理學、可靠性試驗學、可靠性管理學等分支,使可靠性工程有了比較完善的理論基礎。
?
產品的可靠性是設計出來的,生產出來的,管理出來的。可靠性工程是為了達到系統可靠性要求而進行的有關設計、管理、試驗和生產一系列工作的總和,它與系統整個壽命周期內的全部可靠性活動有關。可靠性工程是產品工程化的重要組成部分,同時也是實現產品工程化的有力工具。利用可靠性的工程技術手段能夠快速、準確地確定產品的薄弱環節,并給出改進措施和改進后對系統可靠性的影響。可靠性工程具體如下圖1所示。
?
產品在需求分析階段、設計階段、工程研制階段和生產制造階段都需開展一定的可靠性設計分析、管理、試驗工作。
?
按照產品的層次結構,產品的系統層次、裝置層次、部件層次和零件層次都分別有相應的可靠性工作內容,即產品不同層次的可靠性影響因素和薄弱環節各有特點,需要分別開展相應的可靠性設計、管理、試驗工作項目解決。系統設計師和項目管理者需要在產品的工程化角度把握可靠性工程的開展和實施。影響器件可靠性的主要因素包括器件的種類和數量、器件的額定工作電參數和電應力、額定工作溫度和環境溫度、元器件的質量等級和品質保證等級,器件的降額特性和熱敏感特性,器件的儲存可靠性;影響部件可靠性的主要因素包括器件本身的可靠性與器件相互影響,主要需要考慮的因素為熱分析、電磁兼容、耐環境、信號完整性、潛通路和工藝工裝;影響裝置可靠性的主要因素包括部件之間的相互影響和結構、工藝、連接;影響系統可靠性的主要因素包括冗余設計、人機工程和系統可靠性設計。
建立可靠性工程體系,開展和實施可靠性工程是產品高可靠性的必要條件,可靠性設計分析是可靠性工程的基礎,可靠性設計水平差的產品可靠性必然低;可靠性的設計需要可靠性管理,可靠性管理是開展可靠性設計的技術管理保證和組織結構保證;設計出的產品在生產階段難免引入“瑕疵”,需要可靠性試驗“暴露”。
按照鼓掌原因的統計,分析主要故障原因。針對主要矛盾,有針對性的制定措施,實現快速的可靠性提升。
可靠性工程,是將可靠性測試和設計,融入到設計過程中。
在概念階段,匯總所有可靠性需求;在計劃階段,從設備組網、架構設計、冗余設計、FMEA設計等方面,對可靠性哦啊進行考慮。
在開發階段,對計劃的可靠性設計進行落實;在驗證階段對可靠性需求進行驗證和測試。
?
五、可靠性測試
?
從硬件角度出發,可靠性測試分為兩類:
?
以行業標準或者國家標準為基礎的可靠性測試。比如電磁兼容試驗、氣候類環境試驗、機械類環境試驗和安規試驗等。
?
企業自身根據其產品特點和對質量的認識所開發的測試項目。比如一些故障模擬測試、電壓拉偏測試、快速上下電測試等。
?
下面分別介紹這兩類可靠性測試。
?
1 基于行業標準、國家標準的可靠性測試方法
?
產品在生命周期內必然承受很多外界應力,常見的應力有業務負荷、溫度、濕度、粉塵、氣壓、機械應力等。各種行業標準、國家標準制定者給出了某類產品在何種應用環境下會存在多大的應力等級,而標準使用者要根據產品的應用環境和對質量的要求選定相應的測試條件即應力等級,這個選定的應力等級實質上就是產品測試規格。
?
在產品的測試階段,我們必須在實驗室環境下對足夠的測試樣本一一施加相應的應力類型和應力等級,考察產品的工作穩定性。對于通信設備而言,常見的測試項目至少包括電磁兼容試驗、安規試驗、氣候類環境試驗和機械環境試驗,而上述四類測試項目還包含很多測試子項,比如氣候類環境試驗還包括高溫工作試驗、低溫工作試驗、濕熱試驗、溫度循環試驗等。此類測試項目還有很多,這里就不做詳細介紹。總的而言,所有的測試項目都屬于規格符合性測試(即PASS或者FAIL測試),試驗的目的都是模擬產品在生命周期內承受應力類型和應力等級,考察其工作穩定性。
?
2 企業設計的可靠性測試方法
由于網絡產品的功能千差萬別,應用場合可能是各種各樣的,而與可靠性測試相關的行業標準、國家標準,一般情況下只給出了某類產品的測試應力條件,并沒有指明被測設備在何種工作狀態或配置組合下接受測試,因此在測試設計時可能會遺漏某些測試組合。比如機框式產品,線卡種類、線卡安裝位置、報文類型、系統電源配置均可靈活搭配,這涉及到的測試組合會較多,這測試組合中必然會存在比較極端的測試組合。再如驗證該機框的系統散熱性能,最差的測試組合是在散熱條件機框上滿配最大功率的線卡板;如果考慮其某線卡板低溫工作性能,比較極端的組合時是在散熱條件最好的機框上配置最少的單板且配置的單板功耗最小,并且把單板放置在散熱最好的槽位上。
?
總之,在做測試設計時,需要跳出傳統測試規格和測試標準的限制,以產品應用的角度進行測試設計,保證產品的典型應用組合、滿配置組合或者極端測試組合下的每一個硬件特性、硬件功能都充分暴露在各種測試應力下,這個環節的測試保證了,產品的可靠性才得到保證。
?
以下舉兩個例子來說明如何根據產品特點設計出可靠性測試方法。
?
2.1實例一:包處理器外掛緩存(Buffer)的并行總線測試
為了應對網絡的突發流量和進行流量管理,網絡設備內部的包處理器通常都外掛了各種隨機訪問存儲器(即RAM)用來緩存包。由于包處理和RAM之間通過高速并行總線互連,一般該并行總線的工作時鐘頻率可能高達800Mhz,并且信號數量眾多,拓撲結構復雜,在產品器件密度越來越高的情況下,產品很可能遇到串擾、開關同步噪音(SSN)等嚴重的信號質量問題,針對上述可能遇到的問題,我們需進行仔細的業務設計,讓相應硬件電路的充分暴露在不利的物理條件下,看其工作是否穩定。
?
串擾,簡單的來說是一種干擾,由于ASIC內部、外部走線的原因,一根信號線上的跳動會對其他信號產生不期望的電壓噪聲干擾。為了提高電路工作速率和減少低功耗,信號的幅度往往很低,一個很小的信號干擾可能導致數字0或者1電平識別錯誤,這會對系統的可靠性帶來很大影響。在測試設計時,需要對被測設備施加一種特殊的業務負荷,讓被測試總線出現大量的特定的信號跳變,即讓總線暴露在盡可能大的串擾條件下,并用示波器觀察個總線信號質量是否可接受、監控業務是否正常。以16位并行總線為例,為了將這種串擾影響極端化,設計測試報文時將16根信號中有15根線(即攻擊信號線Agressor)的跳變方向一致,即15根信號線都同時從0跳變到1,同時讓另一根被干擾的信號線(即Victim)從1下跳到0,讓16根線都要遍歷這個情況。
?
開關同步噪音也是RAM高速并行接口可能出現的我們所不期望的一種物理現象。當IC的驅動器同時開關時,會產生瞬間變化的大電流,在經過回流途徑上存在的電感時,形成交流壓降,從而產生噪音噪聲(稱為SSN),它可能影響信號接收端的信號電平判決。這是并行總線非常惡劣的一種工作狀態,對信號驅動器的高速信號轉變能力、驅動能力、電源的動態響應、電源的濾波設計構成了嚴峻的考驗。為了驗證產品在這種的工作條件下工作是否可靠,必須被測設備(DUT)加上一種特殊的測試負荷,即特殊的測試報文。
舉例:
如果被測總線為16位寬,要使所有16跟信號線同步翻轉,報文內容應該為:
FFFF0000FFFF0000
如果被測總線為32位寬,要使所有32跟信號線同步翻轉,測試報文內容應該為:
FFFFFFFF00000000FFFFFFFF00000000
如果被測總線為64位寬,要使所有64根信號線同步翻轉,測試報文內容應該為:
FFFFFFFFFFFFFFFF0000000000000000FFFFFFFFFFFFFFFF0000000000000000
如果報文在DUT內部的業務通道同時存在上述位寬的總線,業務測試必須加載上述的報文,看DUTUUT在每種報文下工作是否正常,同時在相應總線上進行信號測試,看信號是否正常。
?
2.2實例二:熱測試
?
熱測試通過使用多通道點溫計測量產品內部關鍵點或關鍵器件的溫度分布狀況,測試結果是計算器件壽命(如E-Cap)、以及產品可靠性指標預測的輸入條件,它是產品開發過程中的一個重要的可靠性活動。
?
一般而言,熱測試主要是為了驗證產品的熱設計是否滿足產品的工作溫度范圍規格,是實驗室基準測試,這意味著為了保證測試結果的一致性,必然對測試環境進行嚴格要求,比如要求被測設備在一定范圍內無熱源和強制風冷設備運行、表面不能覆蓋任何異物。但實際上很多產品的工作環境跟上述測試環境是有差異的:
?
有些產品使用時可能放在桌子上,也可能掛在墻上,而這些設備基本上靠自然散熱,安裝方法不同會直接影響到設備的熱對流,進而影響到設備內部的溫度分布。因此,測試此類設備時必須考慮不同的安裝位置,在實驗室條件把設備擺放在桌子熱測試通過,并不代表設備掛在墻上熱測試也能通過。
?
有些網絡設備在網吧行業用得比較多,幾臺設備疊在一起使用比較常見,做類似產品的熱測試時,必須考慮到產品在此情況下熱測試是否符合要求。
?
一些機框式設備,由于槽位比較多,風道設計可能存在一定的死角。如果被測對象是一塊業務板,而這塊可以隨便插在多個業務卡槽位,熱測試時必須將被測板放在散熱最差的槽位,并且在其旁邊槽位插入規格所能支持的大功耗業務板,后讓被測單板輔助單板和滿負荷工作,在這種業務配置條件下進行熱測試。
?
針對不同的產品形態,硬件可靠性測試項目可能有所差異,但是其測試的基本思想是一致的,其基本的思路都是完備分析測試對象可能的應用環境,在可能的應用環境下會承受可能工作狀態包括極限工作狀態,在實驗室環境下制造各種應力條件、改變設備工作狀態,設法讓產品的每一個硬件特性、硬件功能都一一暴露在各種極限應力下,遺漏任何一種測試組合必然會影響到對產品的可靠性。
總結
以上是生活随笔為你收集整理的可靠性不是测试出来的,是设计出来的!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 黔东南天气预报软件测试,黔东南天气预报1
- 下一篇: Spring bean 不被 GC 的真