人工智能(AI)醫療器械是指基于“醫療器械數據”,采用AI技術實現其預期用途(即醫療用途)的醫療器械。隨AI技術在醫療器械行業快速發展和普及,AI醫療器械已經衍出了大量的創新用途和應用場景,正在從提升醫學裝備供給能力、優化診療流程、創新醫學手段等多個方面賦能醫療行業。《人工智能醫療器械注冊審查指導原則》
AI獨立軟件(SaMD)作為AI醫療器械一種,其有不同的預期用途,包括輔助檢測(如肺結節輔助檢測)、輔助診斷(如甲狀腺結節良惡性輔助診斷)、輔助治療(如輔助調整胰島素泵參數)、輔助測量(如邊緣勾畫)、輔助分診、轉診(如肺炎輔助分診、糖網輔助轉診)、智能預警(如低血壓預警)。也可以把這些用途分為輔助決策類和非輔助決策類:輔助決策是指通過提供診療活動建議輔助用戶(如醫務人員、患者)進行醫療決策,如通過病灶特征識別、病灶性質判定、用藥指導、治療計劃制定進行輔助分診、輔助檢測、輔助治療等,相當于用戶的“助手”;非輔助決策則僅提供醫療參考信息而不進行醫療決策,包括流程優化(如成像流程簡化、診療流程簡化等)、診療驅動(如成像質量改善、成像速度提高、自動測量、自動分割、三維重建等,相當于用戶的“工具”)。
依據醫療器械臨床法規要求,用于輔助決策類軟件功能,需要開展臨床試驗;而用于病情評估的量化分析等功能屬于非輔助類軟件功能,可提交相應臨床評價資料,或通過臨床試驗予以評價。
本文以輔助決策類軟件為例,解析了AI軟件類臨床試驗設計要素和注冊成功。
臨床試驗的主要目的是評價AI軟件在預期適用范圍下使用時輔助檢測的診斷學性能,包括其輔助檢測準確度、敏感度、特異度,亦可一并觀察AI軟件的可用性與安全性。通過臨床試驗,可以驗證AI軟件類產品在輔助檢測、診斷、分診等預期用途方面的有效性。
AI軟件產品一般需考慮開展對照試驗,部分AI軟件臨床試驗可以選擇單組目標值試驗。對照試驗根據產品特征及臨床診療實際,可以為隨機平行對照、交叉自身對照或多閱片者多數據樣本(multiple reader multiple case,MRMC)試驗設計。
隨機平行對照
隨機、平行對照的臨床試驗設計可使臨床試驗影響因素在試驗組和對照組間的分布趨于均衡,被認為可提供高等級的科學證據,是臨床試驗中應用最廣泛的設計之一。在該設計中,試驗組一般為醫師在軟件的輔助下完成異常/病變的檢測,對照組一般為臨床醫師獨立的異常/病變的檢測,比較二者的檢測準確度。
交叉自身對照
在交叉設計的臨床試驗中,同一組醫師按照先后順序在不同階段分別使用AI輔助和獨立診斷。此類設計要求前一階段的診斷對后一階段的另一種診斷不產生殘留效應,后一階段開始前,需要洗脫閱片者對影像樣本的記憶,確保閱片者對同一受試者影像樣本的兩次診斷結果互不影響。一般可以設置一個不少于4周的洗脫期。
MRMC(多閱片者多病例)設計
該設計為多名閱片者分別在有無AI輔助的條件下對同一組樣本進行診斷,并采用統計方法分析閱片者間及閱片者內的診斷差異。MRMC研究需選取具有代表性的樣本(包括金標準確診的患者與非患者)以及一定數量的閱片者。該設計能夠有效分離閱片者自身及閱片者之間的變異,最大限度減少閱片者間的偏倚。
目前,國際常用的MRMC統計分析方法主要包括Obuchowski-Rockette(OR)法及Dorfman-Berbaum-Metz(DBM)法。DBM法與OR法作為MRMC研究中廣泛認可的分析手段,相較于傳統ROC曲線分析方法具有顯著優勢。
AI軟件如何選擇合適的臨床試驗設計類型
對患者是否患有目標疾病,從而對患者的分診轉診提供輔助決策建議的產品:該類產品不給出具體病變情況,且無論輔助分診結果為陰性、陽性,均需專業醫師再一次對患者影像進行評閱,如糖尿病視網膜病變輔助分診、肺炎輔助分診、腦出血輔助分診等各類目標疾病患者的計算機輔助分診、轉診產品等,因這類產品的針對目標是患者個體,最后的分診結果是二分類(陰性/陽性),是一種篩查,由此可見該類產品的定位與醫生的綜合診斷不同,可以考慮采用單組目標值設計。
對目標疾病的病變病灶進行輔助檢測的產品:如肺結節輔助檢測產品、骨折CT影像輔助檢測產品等,該類產品基于病灶水平,扮演的角色與臨床醫生的工作類似,所以臨床試驗建議采用對照設計,試驗組為醫師與申報產品共同檢測,對照組為傳統檢測診斷方法(如臨床醫師的閱片/綜合診斷)。臨床試驗比較類型應能夠體現產品受益風險的可接受性,一般考慮優效性設計,如針對4mm以上肺結節CT影像輔助檢測軟件可考慮患者水平的特異度優效和病灶水平的敏感度非劣效。
適用人群的影像學樣本
預期人群的影像學樣本是人工智能輔助檢測產品臨床試驗的典型研究對象,影像學樣本需基于定義明確的入選和排除標準收集。為了保證臨床試驗質量以及結果的可靠性,選取研究對象時,申請人需考慮如下措施:
(1)納入數據樣本獨立于申報產品或前代產品開發所用數據集,如申報產品或前代產品的訓練集、測試集;
(2)采用臨床已有數據進行研究時,需基于明確且嚴格的入排標準和臨床試驗計劃,連續收集過往某段時間內、特定醫療機構內患者影像學數據,避免主觀挑選病例;
(3)考慮陽性樣本中,目標疾病的疾病譜分布(如分型、分期)合理性,某些對輔助檢測具有挑戰性的分期、分型,必要時在臨床試驗中富集相關具有代表性的亞組;
(4)通常情況下,需避免在一項臨床試驗中同時入組同一患者同一目標部位的多組樣本數據;
(5)臨床已有數據收集時,需盡可能全面的收集與疾病相關的信息(適用的),具體包括但不限于:
-人口統計學信息(如年齡、性別);
-與輔助檢測目標疾病相關的信息,如病史、疾病狀態、分期、分型、病變大小、病變位置、器官特征(如乳腺腺體分型)、伴隨疾病等。
-確定為陽性/陰性病例的依據,如既往診斷結論,以及確定疾病狀態、部位和程度的方法。
AI軟件臨床研究閱片者
一般情況下將閱片者也列入研究對象。在采用MRMC設計時,根據預期的使用者情況,選取不同年資的多位醫師作為閱片者。
AI軟件臨床試驗主要評價指標應綜合考慮產品設計特征,包括靈敏度、特異度、ROC曲線或其衍生指標等。在臨床試驗優先考慮設計優效性檢驗,例如ROC或其衍生曲線下面積(Area Under Curve,AUC)的優效設計等。
如AI軟件是對患者水平給出輔助分診結果,但需專業醫師再一次對患者影像進行評閱的產品,如糖尿病視網膜病變輔助分診、肺炎輔助分診、腦出血輔助分診等各類目標疾病患者的計算機輔助分診、轉診產品等,如上述所說選擇單組目標值的設計類型的,主要評價指標可考慮產品輔助分診結果的診斷準確度指標(如敏感度、特異度等,通常為患者水平);
如AI軟件是對目標疾病的病變病灶進行輔助檢測的產品:如肺結節輔助檢測產品、骨折CT 影像輔助檢測產品等,選擇對照的設計類型,主要評價指標考慮診斷準確度指標 (如敏感度、特異度、AFROC曲線、檢出率等,一般靈敏度考慮病灶病變水平,特異度考慮患者水平)。
AI軟件臨床參考標準的構建方法有兩種:一是以臨床已確認結果為臨床參考標準,即臨床上結合患者影像學檢查、病史、實驗室檢查(如病理檢查)、長期隨訪結果等方法綜合判定的臨床診斷結果;二是通過專家組對研究對象(影像樣本)的閱片判定作為臨床參考標準。
對于人工智能輔助檢測產品,若根據產品設計判定可采用專家組意見作為臨床參考標準,通常可選擇高年資醫師組成的閱片專家組綜合意見為臨床參考標準,閱片專家組的成員需獨立于“試驗和對照組的閱片研究者”。
AI軟件臨床樣本量估算需綜合考慮試驗設計、主要評價指標及統計學要求。
平行對照試驗樣本量可參考《醫療器械臨床試驗設計指導原則》。MRMC設計需明確分析方法、受試醫師數量、檢驗水準及預計效應值等。
若采用MRMC的試驗設計,樣本量計算需首先明確具體的分析方法,如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBM分析法),并進一步明確受試醫師數量,檢驗水準α、檢驗效能1-β、預計效應值,優效/非劣效界值,其中預計效應值可通過預試驗或調研并匯總分析目標病灶檢出的診斷學研究文獻獲得,優效/非劣效界值應通過同品種產品臨床試驗結果或權威文獻研究等確定。
評價XX肺結節輔助檢測產品用于輔助放射科醫生在胸部CT影像中檢測肺結節應用的多中心、隨機、交叉自身對照、優效性設計的臨床試驗:
試驗設計
本研究采用多中心、隨機、交叉自身、優效性設計。符合資格的放射科醫生被隨機分為兩組(AB組和BA組),分兩個階段閱讀相同的病例集。
AB組:第一階段在AI輔助下讀片,第二階段無AI輔助讀片。
BA組:第一階段無AI輔助讀片,第二階段在AI輔助下讀片。
兩組之間設有足夠的洗脫期,以消除記憶效應。
研究目的
主要目的:驗證與放射科醫生單獨閱片相比,XX肺結節輔助檢測產品能否優效地提高肺結節的檢測靈敏度、特異度、有效性。
次要目的:評估AI輔助對閱片效率的影響。
研究對象
患者人群:回顧性收集來自3家醫院的共240例患者的胸部CT影像序列。所有病例均經專家委員會確認的肺結節金標準(包含陽性結節病例180例,陰性病例60例)。
醫生人群:共招募了10名放射科醫生(住院醫師6名,主治醫師4名)作為閱片者參與試驗。
試驗方法
試驗組(AI輔助):醫生使用XX肺結節輔助檢測產品進行閱片。軟件自動標記疑似肺結節的位置并提供置信度評分,醫生在此基礎上做出最終診斷。
對照組(常規閱片):醫生在不使用任何AI輔助的情況下,獨立進行常規CT影像閱片。
評價指標
患者水平的肺結節檢測靈敏度、特異度、有效性,結節水平的檢測靈敏度、特異度、有效性,平均每例閱片時間。
瑞旭集團醫療器械臨床研究團隊參與多項AI獨立軟件的臨床試驗及注冊取證全流程服務,如果您有此類AI醫療軟件產品的臨床試驗和注冊取證需求,請隨時聯系我們0571-87206527。
