Prestazioni degli algoritmi di apprendimento automatico per prevedere la progressione verso la demenza nei pazienti della clinica della memoria
Mar 20, 2022
Contatto: Audrey Hu Whatsapp/hp: 0086 13880143964 E-mail:audrey.hu@wecistanche.com
Charlotte James, Ph.D.; Janice M. Ranson, Ph.D.; Richard Everson, Ph.D.; David J. Llewellyn, PhD
Astratto
IMPORTANZA: gli algoritmi di apprendimento automatico potrebbero essere utilizzati come base per ausili decisionali clinici per migliorare la pratica clinica. OBIETTIVO Valutare la capacità degli algoritmi di apprendimento automatico di prevedere l'incidenza della demenza entro 2 anni rispetto ai modelli esistenti e determinare l'approccio analitico ottimale e il numero di variabili richieste. DISEGNO, IMPOSTAZIONE E PARTECIPANTI: Questo studio prognostico ha utilizzato i dati di una coorte prospettica di 15 307 partecipanti senza demenza al basale per eseguire un'analisi secondaria dei fattori che potrebbero essere utilizzati per prevedere l'incidenza della demenza. I partecipanti hanno frequentato il National Alzheimer Coordinating Centermemoriacliniche negli Stati Uniti tra il 2005 e il 2015. Le analisi sono state condotte da marzo al 2 maggio021. ESPOSIZIONI: 258 variabili che abbracciano domini di misure cliniche correlate alla demenza e fattori di rischio. PRINCIPALI RISULTATI E MISURE: L'esito principale era la demenza incidente per tutte le cause diagnosticata entro 2 anni dalla valutazione di base. RISULTATI: In un campione di 15 307 partecipanti (età media [DS], 72,3 [9,8] anni; 9129 [60 percento] donne e 6178 [40 percento] uomini) senza demenza al basale, 1568 (10 percento) hanno ricevuto una diagnosi di demenza entro 2 anni dalla loro valutazione iniziale. Rispetto a 2 modelli esistenti per la previsione del rischio di demenza (ad es. Fattori di rischio cardiovascolare, Aging e Incidence of Dementia Risk Score e Brief Dementia Screening Indicator), gli algoritmi di apprendimento automatico sono risultati superiori nel predire la demenza incidente per tutte le cause entro 2 anni. L'algoritmo degli alberi con gradiente aumentato aveva una precisione complessiva media (SD) del 92 percento (1 percento), la sensibilità di 0,45 (0,05), la specificità di 0,97 (0,01) e l'area sotto la curva di 0,92 (0,01) utilizzando tutti i 258 variabili. L'analisi di importanza variabile ha mostrato che solo 6 variabili erano necessarie affinché gli algoritmi di apprendimento automatico raggiungessero una precisione del 91 percento e un'area sotto la curva di almeno 0,89. Gli algoritmi di apprendimento automatico hanno anche identificato fino all'84% dei partecipanti che hanno ricevuto una diagnosi iniziale di demenza che è stata successivamente invertita in un lieve deterioramento cognitivo o cognitivamente inalterato, suggerendo una possibile diagnosi errata. CONCLUSIONI E RILEVANZA: Questi risultati suggeriscono che gli algoritmi di apprendimento automatico potrebbero prevedere con precisione la demenza incidente entro 2 anni nei pazienti che ricevono assistenza amemoriacliniche utilizzando solo 6 variabili. Questi risultati potrebbero essere utilizzati per informare lo sviluppo e la convalida di ausili decisionali inmemoriacliniche.
introduzione
Molti pazienti valutati in contesti specialistici, come ad esmemoriacliniche, non hanno la demenza quando si presentano per la prima volta.1 È importante differenziare tra i pazienti che sviluppano la demenza in un arco di tempo clinicamente rilevante e quelli che rimangono liberi da demenza, poiché tale intuizione può essere utilizzata per dare priorità ai pazienti per le indagini di follow-up e interventi. Identificare i pazienti ad alto rischio di sviluppare demenza è una sfida per i medici. Un approccio consiste nel concentrarsi su coloro che hanno un lieve deterioramento cognitivo (MCI) quando inizialmente valutati e invitare questi pazienti per il follow-up. Tuttavia, ciò può comportare una notevole errata classificazione per i pazienti che non sono presi di mira per il follow-up ma che sviluppano la demenza e per i pazienti che sono presi di mira per ulteriori indagini ma non sviluppano la demenza.
Piùmemoriai pazienti clinici con MCI non progrediscono verso la demenza anche dopo 10 anni, con un tasso di conversione annuale del 9,6 percento.2 Gli ausili decisionali clinici possono migliorare la capacità dei medici di stimare l'insorgenza della demenza. Sono disponibili ausili decisionali clinici esistenti per stimare l'incidenza a medio e lungo termine della demenza in diverse popolazioni. Ad esempio, il punteggio di rischio per i fattori di rischio cardiovascolare, l'invecchiamento e l'incidenza della demenza (CAIDE)3 è stato progettato per prevedere il rischio di sviluppare demenza in 20 anni per le persone di mezza età e il Brief Dementia Screening Indicator (BDSI)4 mira a identificare gli anziani i pazienti a cui indirizzare lo screening cognitivo determinando il loro rischio di sviluppare la demenza in 6 anni. Tuttavia, a nostra conoscenza, non è stato sviluppato alcun ausilio decisionale clinico per prevedere l'incidenza della demenza inmemoriacliniche per un periodo clinicamente rilevante più breve. L'apprendimento automatico (ML) consente di sfruttare le informazioni provenienti da set di dati grandi e complessi. Recentemente è stato applicato alla diagnosi della demenza e alla previsione del rischio.5-9
Tuttavia, questi modelli spesso incorporano informazioni non tipicamente disponibili nella pratica clinica di routine, come neuroimaging avanzato, test genetici e biomarcatori del liquido cerebrospinale, limitando l'applicazione clinica a contesti specialistici o di ricerca. Abbiamo studiato se le tecniche di ML possono essere utilizzate per prevedere l'incidenza della demenza in un periodo di 2-anno utilizzandomemoriadati clinici del National Alzheimer Coordinating Center (NACC) degli Stati Uniti. Abbiamo anche esaminato l'insieme minimo di variabili necessarie affinché i modelli ML raggiungano le prestazioni diagnostiche complete.

Metodi
Lo studio NACC ha ricevuto l'approvazione etica dal comitato di revisione istituzionale di ciascun sito prima che potesse fornire dati e tutti i partecipanti avevano fornito un consenso scritto informato. Questo studio prognostico è stato ritenuto esente dall'approvazione etica istituzionale perché abbiamo utilizzato dati anonimi raccolti in precedenza. I dati utilizzati in questo studio sono disponibili su richiesta dei dati al NACC. Questo studio è riportato in conformità con le linee guida di segnalazione TRIPOD (Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis). I dati sono stati analizzati da marzo a maggio 2021.
Esempio di studio
Abbiamo utilizzato i dati raccolti in precedenza dal NACC Uniform Data Set (UDS).10 L'UDS contiene dati di coorte prospettici dal programma del National Institute on Aging Alzheimer Disease Center degli Stati Uniti per la ricerca collaborativa multicentrica sul morbo di Alzheimer e altri disturbi neurodegenerativi.11 Il nostro set di dati consiste dei dati clinici della memoria raccolti tra settembre 2005 e febbraio 2015 da 30 centri per la malattia di Alzheimer situati negli Stati Uniti. Il set di dati include le caratteristiche sociodemografiche dei partecipanti e dei co-partecipanti, la storia familiare, lo stato funzionale,12 sintomi comportamentali (valutati con i risultati del questionario dell'inventario neuropsichiatrico13), la batteria di test neuropsicologici14 e la diagnosi clinica di demenza NACC, assegnati da ciascun centro per la malattia di Alzheimer utilizzando criteri diagnostici clinici pubblicati sulla base della valutazione clinica standardizzata UDS. I dettagli dei criteri diagnostici adottati dal protocollo UDS e le relative linee guida sono stati pubblicati in precedenza.15
Abbiamo utilizzato UDS versioni 1 e 2, che includono 32 573 partecipanti alla clinica della memoria con una valutazione di base. Sebbene i nostri modelli siano progettati per prevedere l'incidenza della demenza entro 2 anni, per tenere conto della variazione del tempo tra gli appuntamenti di follow-up, abbiamo incluso il follow-up che si è verificato entro 29 mesi dalla visita iniziale per garantire che la visita fosse la prima o secondo appuntamento di controllo.
Variabile di risultato
La variabile di esito era la diagnosi di demenza per tutte le cause incidente entro 29 mesi (circa 2 anni) dalla valutazione di base. Ciò include i sottotipi di demenza, come la demenza di Alzheimer, la demenza a corpi di Lewy, la demenza vascolare e altri sottotipi più rari. La demenza di Alzheimer è stata diagnosticata secondo i criteri NINCSD-ADRDA,16 la demenza vascolare è stata diagnosticata secondo i criteri NINDS-AIREN,17 la demenza a corpi di Lewy (LBD) è stata diagnosticata secondo il terzo rapporto dei criteri del Dementia with Lewy Bodies Consortium,18 e la demenza frontotemporale è stato diagnosticato secondo i criteri del 1998 di Neary e colleghi.19
Candidati predittori
Abbiamo incluso tutte le variabili clinicamente rilevanti raccolte durante la visita iniziale nelle versioni 1 e 2 dell'UDS (eTabella 1 nel Supplemento). Sono state escluse le variabili con valori di testo libero, come i nomi dei farmaci, e le variabili che erano costanti per tutti i partecipanti, come il numero della visita. Sono state generate quattro variabili sintetiche per aiutare nella valutazione dell'importanza delle variabili (queste variabili dovrebbero essere classificate in basso); 3 di queste variabili erano permutazioni di variabili esistenti (1 binaria, 1 categoriale e 1 variabile numerica) e 1 variabile è stata generata casualmente da una distribuzione normale. Ciò ha comportato un totale di 258 variabili.
Le variabili dell'UDS incorporate nei nostri modelli includono caratteristiche demografiche dei partecipanti (15 variabili), caratteristiche demografiche dei partecipanti (7 variabili), storia familiare (3 variabili), storia medica (47 variabili), farmaci (21 variabili), fisica (12 variabili). ) e neurologici (4 variabili), la Unified Parkinson Disease Rating Scale20 (UDPRS) (28 variabili), la Clinical Dementia Rating (CDR) scale21 (8 variabili), lo stato funzionale (10 variabili), la batteria di test neuropsicologici (50 variabili) , Geriatric Depression Scale (17 variabili) e una valutazione clinica dei sintomi (32 variabili). Di queste variabili, 239 (93%) erano mancanti per almeno 1 partecipante ea tutti i partecipanti mancava almeno 1 variabile.
Sviluppo del modello
Abbiamo implementato 4 algoritmi ML22: regressione logistica (LR),23 support vector machine (SVM),24 random forest (RF),25,26 e alberi gradient-boosted (XGB)27 (eMethods nel Supplement). Questi algoritmi eseguono un'attività di classificazione: determinano se un partecipante rientra nella classe 0 (previsto che rimanga libero da demenza 29 mesi dal basale) o nella classe 1 (previsto che sperimenterà demenza incidente entro 29 mesi dal basale). La classificazione si basa su variabili registrate alla loro prima visita clinica della memoria (di riferimento). Per implementare gli algoritmi ML, abbiamo utilizzato la libreria sci-kit-learn Python (Python Software Foundation),28 con 5-fold cross-validation (eMethods nel supplemento). I valori mancanti sono stati imputati mediante campionamento con sostituzione dei valori non mancanti. Tutta l'elaborazione e l'analisi dei dati sono state implementate in Python versione 3.9, NumPy versione 1.19.4 e sci-kit-learn versione 0.24.0.
Analisi statistica
Valutazione del modello
Abbiamo valutato le prestazioni di tutti i modelli confrontando la loro accuratezza, sensibilità e specificità complessive per le soglie decisionali prespecificate in letteratura (modelli esistenti) o una soglia di 0.5 (modelli ML), che pesa ugualmente i falsi positivi ed errori falsi negativi. L'area sotto la curva caratteristica operativa del ricevitore (AUC)29 è stata utilizzata per riassumere le prestazioni del modello su tutte le possibili soglie e quindi le ponderazioni degli errori di classificazione errata.30 Le misure medie delle prestazioni e le SD sono state ottenute tramite bootstrap (eMethods nel Supplement).
Confronto con i modelli esistenti
Il BDSI e il CAIDE sono modelli di previsione del rischio di demenza esistenti che assegnano ai pazienti un punteggio che rappresenta il loro rischio di sviluppare la demenza su scale temporali più lunghe. Per derivare i punteggi di rischio BDSI e CAIDE, abbiamo selezionato dall'UDS le variabili che corrispondono più strettamente alle variabili utilizzate in precedenza (eTabella 2 nel Supplemento). Le prestazioni dei nostri modelli ML sono state confrontate con quelle del BDSI e del CAIDE per la previsione dell'incidenza della demenza in 2-anni.
Prestazioni del modello nei sottotipi di demenza
La demenza può avere una varietà di cause, corrispondenti a diversi sottotipi di demenza. Per valutare la capacità dei modelli ML di identificare diversi sottotipi di demenza, abbiamo diviso i casi di demenza incidente in demenza di Alzheimer, LBD, demenza vascolare e altri sottotipi di demenza. Utilizzando queste 4 stratificazioni, abbiamo calcolato la percentuale di partecipanti correttamente classificati (tasso di veri positivi) e confrontato le curve ROC per ciascun modello ML.
Indagine sulla stabilità diagnostica
È noto che la diagnosi clinica di demenza include pazienti a cui è stata inizialmente diagnosticata una diagnosi errata (in effetti errori sia falsi positivi che falsi negativi).31 Definiamo reversione quando un partecipante a cui è stata diagnosticata la demenza fino a 2 anni dopo la sua prima visita clinica della memoria e successivamente riceve una diagnosi di assenza di demenza (o MCI o cognizione non compromessa) entro 2 anni dalla diagnosi di demenza. Ragionando sul fatto che queste reversioni sono diagnosi instabili e probabilmente sono state il risultato di una diagnosi errata di demenza, abbiamo studiato l'accuratezza della classificazione dei modelli ML in un campione di partecipanti con reversione (eMethods nel supplemento). Abbiamo utilizzato la funzione di distribuzione cumulativa (CDF) dei punteggi di classificazione prodotti da ciascun modello ML per confrontare i partecipanti con reversione con pazienti che hanno sviluppato demenza e pazienti che sono rimasti liberi da demenza.

Risultati
Dopo aver escluso {{0}} partecipanti con una diagnosi di demenza al basale, 4557 partecipanti che non avevano dati di follow-up e 573 partecipanti che hanno avuto il loro primo follow-up più di 29 mesi dopo la loro prima visita , il campione analitico finale conteneva 15 307 partecipanti (età media [DS], 72,3 [9,8] anni; 9129 [60 percento] donne e 6178 [40 percento] uomini). Le caratteristiche del campione sono mostrate nella Tabella 1. Entro 2 anni dal basale, 1568 partecipanti (10%) hanno ricevuto una diagnosi di demenza. Dei 1568 partecipanti che hanno ricevuto una diagnosi di demenza, 273 (17%) sono stati diagnosticati da un singolo medico e 1216 (78%) sono stati diagnosticati da un panel di consenso; per 79 partecipanti (5 per cento), la fonte della diagnosi non è stata specificata. Le misure chiave delle prestazioni che valutano il potere predittivo di ciascun modello sono riportate nella Tabella 2. Rispetto ai modelli esistenti, i modelli ML erano superiori nella loro capacità di prevedere se un individuo avrebbe sviluppato la demenza entro 2 anni e hanno sovraperformato i modelli esistenti su tutte le misure. Tutti i modelli ML hanno funzionato allo stesso modo, con XGB che ha la massima potenza se misurata in base alla precisione complessiva (92 percento) e AUC (media [SD], 0,92 [0,01]). La curva caratteristica operativa del ricevitore per ciascun modello dimostra la somiglianza tra i modelli ML e la loro superiorità rispetto ai 2 modelli di rischio esistenti (Figura 1).

Prestazioni del modello nei sottotipi di demenza
Per valutare le prestazioni del modello ML in diversi sottotipi di demenza, abbiamo diviso la popolazione in 4 sottotipi di demenza: demenza di Alzheimer (1285 partecipanti), LBD (82 partecipanti), demenza vascolare (21 partecipanti) e altri sottotipi di demenza (180 partecipanti). Il modello LR è stato il migliore nell'identificare la demenza di Alzheimer e altri sottotipi, classificando correttamente 589 partecipanti (46%) con demenza di Alzheimer e 99 partecipanti (55%) con altri sottotipi. Il modello SVM ha ottenuto risultati migliori sui partecipanti con LBD, classificando correttamente 40 partecipanti (49%). Tutti i modelli hanno classificato correttamente 7 partecipanti (33%) con demenza vascolare. Le curve caratteristiche di funzionamento del ricevitore dimostrano che tutti i modelli si sono comportati approssimativamente allo stesso modo su ciascun sottotipo (eFigura 1 nel supplemento).
.
Indagine sul numero minimo di variabili
Un potenziale svantaggio dell'utilizzo di un approccio ML è il gran numero di variabili coinvolte. Con l'aumentare del numero di variabili richieste da un modello, l'implementazione in ambito clinico diventa meno pratica e l'interpretabilità del modello è compromessa. Per valutare quante variabili ciascun modello ML richiedeva per ottenere il potere predittivo equivalente a ciò che abbiamo trovato utilizzando tutte le 258 variabili (Tabella 2), abbiamo valutato come variava l'AUC con il numero di variabili incluse nei modelli. In particolare, abbiamo classificato le variabili per ciascun modello ordinandole in ordine decrescente di importanza (ovvero, il potere discriminatorio di ciascuna variabile in base all'algoritmo; eMethods nel Supplemento). Successivamente abbiamo riqualificato ogni modello con un numero crescente di variabili, a cominciare dalla più importante. Abbiamo scoperto che tutti i modelli richiedevano solo 22 variabili per ottenere prestazioni diagnostiche statisticamente indistinguibili dalle loro prestazioni medie ottimali (Figura 2; eFigura 2 nel Supplemento). Le variabili sintetiche aggiunte per garantire la validità della valutazione dell'importanza delle variabili non erano tra le prime 22 variabili per nessun modello, riflettendo il fatto che dopo il raggiungimento della piena performance diagnostica, c'erano poche informazioni per determinare fortemente il ranking della variabile.
Identificazione dei fattori chiave di rischio
Delle 22 variabili più importanti per ciascun modello, solo 5 erano comuni a tutti i modelli (vale a dire, giudizio clinico sul declino della memoria, capacità cognitive, comportamento, capacità di gestire gli affari o cambiamenti motori e motori; tempo per completare il Trail Making Test Parte B; CDR: menomazione dell'orientamento; CDR: menomazione della casa e degli hobby; e livello di indipendenza). Delle restanti variabili, c'erano 10 coppie che avevano una correlazione maggiore di 0.7, indicando che erano variabili simili (eTabella 3 nel Supplemento). Tenendo conto di questa correlazione mediante l'interscambio di variabili altamente correlate, abbiamo scoperto che c'erano 6 variabili altamente predittive (giudizio clinico di declino, tempo per completare il Trail Making Test Parte B, 3 componenti del CDR [orientamento, memoria, casa e hobby compromissione] e livello di indipendenza) che erano comuni a tutti i modelli ML (eTabella 4 nel Supplemento). Addestrando ciascun modello utilizzando solo queste variabili, abbiamo riscontrato che per LR e XGB non si è verificata una diminuzione significativa delle prestazioni diagnostiche: utilizzando questo set di 6 variabili, questi modelli avevano un'accuratezza media (SD) del 91% (0 percent ) per LR e 91 percento (1 percento ) per XGB e AUC media (SD) di 0,89 ({18}}.01) per LR e 0,89 (0,02) per XGB (eTabella 5 nel Supplemento).
Stabilità diagnostica Dei 1.568 partecipanti che hanno ricevuto una diagnosi di demenza entro 2 anni, abbiamo identificato 130 (8 percento) con regressione che probabilmente erano inizialmente diagnosticati erroneamente e quindi etichettati erroneamente per scopi di riciclaggio. Abbiamo scoperto che mentre le reversioni sono state segnalate solo nello 0,8% dei partecipanti, rappresentavano da 92 a 109 partecipanti (7% -8 percento) di partecipanti classificati in modo errato, con una piccola quantità di variazione tra i modelli (Tabella 3). Il modello RF presentava la più alta stabilità diagnostica, identificando correttamente 109 su 130 partecipanti con reversione (84%) classificandoli come previsto liberi da demenza a 2 anni. Per studiare la stabilità diagnostica dei modelli ML, abbiamo rimosso i partecipanti con reversione durante l'allenamento (eMethods nel supplemento). Dopo aver riqualificato i modelli senza reversioni, abbiamo scoperto che RF ha identificato 106 partecipanti che hanno subito reversioni (mediana [IQR], 82% [78% -82 percento]), SVM ha identificato 93 partecipanti che hanno subito reversioni (mediana [IQR], 72 percento [69 percento -74 percento ]) e LR e XGB hanno entrambi identificato 92 partecipanti che hanno sperimentato reversioni (mediana [IQR], 71 percento [68 percento -75 percento]). Gli IQR sono stati ottenuti avviando i partecipanti che hanno sperimentato la reversione.

Per comprendere la differenza tra partecipanti erroneamente classificati, partecipanti con reversione e partecipanti che hanno sviluppato demenza senza reversione, abbiamo analizzato i CDF dei punteggi di classificazione ottenuti da ciascun modello ML. Abbiamo scoperto che i punteggi dei partecipanti erroneamente classificati e dei partecipanti specifici con reversione erano diversi dai partecipanti che hanno sviluppato la demenza e da quelli che non lo hanno fatto (eFigura 3 nel supplemento). I CDF dei punteggi di classificazione per i partecipanti che non hanno sviluppato la demenza sono caduti all'estrema sinistra di ciascun diagramma, indicando che i modelli ML hanno assegnato a questi partecipanti una bassa probabilità di sviluppare la demenza. Al contrario, per i partecipanti che hanno sviluppato la demenza, i CDF sono caduti a destra delle trame: è stata assegnata loro un'alta probabilità di sviluppare la demenza. Per tutti i modelli, la distribuzione dei punteggi per i partecipanti con reversione è caduta a sinistra di quella per i partecipanti che hanno sviluppato demenza, il che significa che i partecipanti con reversione sono stati valutati come aventi una probabilità inferiore di sviluppare demenza secondo questi modelli.

Discussione
In questo studio prognostico, gli algoritmi ML avevano un'accuratezza prognostica superiore rispetto a BDSI e CAIDE nel predire l'incidenza della demenza entro 2 anni dalla prima valutazione clinica della memoria di un paziente. Due degli algoritmi ML sono stati valutati per ottenere un'accuratezza del 91 percento e un'AUC di 0,89 con solo 6 variabili chiave. Le analisi di sensibilità suggeriscono che i modelli ML potrebbero classificare correttamente un'alta percentuale di partecipanti che hanno sperimentato la reversione che sono stati potenzialmente diagnosticati erroneamente entro 2 anni dalla loro visita iniziale. Questo studio ha diversi punti di forza, tra cui l'ampio campione di pazienti derivati da più cliniche della memoria negli Stati Uniti, l'ampia gamma di tecniche di ML utilizzate, il benchmarking rispetto ai modelli di rischio esistenti e l'esplorazione della stabilità diagnostica e della probabile diagnosi errata.

Studi precedenti sull'uso della ML per predire il rischio di demenza si sono concentrati sulla conversione da cognizione inalterata a demenza di Alzheimer o MCI,6,8 o sulla conversione da MCI a demenza di Alzheimer.5 Questi approcci sono meno utili in ambito clinico, poiché escludono altri tipi di demenza5,6,8 o pazienti che inizialmente non avevano problemi cognitivi.5 I dati utilizzati in questi studi includevano scansioni tomografiche a emissione di positroni5,8 e biomarcatori del liquido cerebrospinale,8 dei quali non sono comunemente disponibili in un ambiente clinico della memoria. Uno studio di Lin et al6 ha superato questo problema utilizzando i dati NACC per trovare una serie di 15 variabili cliniche non invasive per valutare il rischio di conversione da cognizione inalterata a MCI in un periodo di 4-anno. Tuttavia, il costrutto di MCI rimane alquanto controverso,32 e i tassi di conversione tra MCI e demenza sono spesso bassi.32,33 I nostri modelli ML integrano queste analisi e hanno il vantaggio di incorporare solo 6 variabili chiave su una scala temporale clinicamente rilevante e di predire il esito di demenza per tutte le cause.
Dei modelli esistenti studiati nel nostro studio, il modello CAIDE era il meno accurato nel predire il rischio di demenza in 2 anni, il che non sorprende, dato che è stato sviluppato per predire il rischio di demenza a lungo termine negli adulti di mezza età per un periodo molto più lungo periodo di follow-up di 20 anni. Il BDSI ha ottenuto risultati migliori rispetto al CAIDE, probabilmente riflettendo che era stato progettato per l'uso negli anziani in un periodo di follow-up più moderato di 6 anni. Tuttavia, tutti i modelli ML hanno superato questi modelli esistenti. Utilizzando tutte le variabili, XGB è stato l'approccio ML più potente nella previsione dei pazienti a cui è probabile che venga diagnosticata la demenza entro 2 anni, suggerendo che il modo in cui i nuovi alberi decisionali vengono addestrati per correggere gli errori degli ultimi tre risultati in una performance marginale guadagno. Tuttavia, XGB sembrava anche essere l'approccio meno in grado di identificare i partecipanti che hanno sperimentato la reversione, cioè coloro a cui è stata inizialmente diagnosticata la demenza entro 2 anni e che la diagnosi è stata annullata entro 2 anni dalla diagnosi iniziale.
Le prestazioni dei modelli ML possono essere considerevolmente ridotte da dati di addestramento etichettati erroneamente.34 Controintuitivamente, l'esclusione di dati di addestramento etichettati erroneamente non migliora sempre le prestazioni.35 All'aumentare del livello di rumore nei dati di addestramento, il valore dell'esclusione o della riduzione di tale rumore diminuisce se lo stesso rumore è presente nei dati di convalida.36 Pertanto, il filtraggio dei dati di addestramento può persino ridurre i dati di invalidamento delle prestazioni, come rilevato in questo studio. Tuttavia, quando il livello di etichettatura errata è inferiore a circa il 20%-40%, la rimozione dei dati etichettati in modo errato può migliorare l'accuratezza dei dati di convalida, anche se ciò incorpora dati etichettati in modo errato.35,37,38 Ciò illustra l'importanza di indagare sulla stabilità diagnostica nella formazione e dati di convalida: anche i dati standard dei criteri incorporano errori.
Il tasso di reversione osservato (8%) era simile a quello riscontrato in uno studio del 2019 basato su una diversa popolazione statunitense.31 Nel nostro studio, la percentuale di falsi positivi variava dal 7% al 19%, a seconda del livello cognitivo valutazione utilizzata. A nostra conoscenza, questa è la prima analisi di una potenziale diagnosi errata nell'UDS NACC e suggerisce che l'utilizzo del ML come ausilio decisionale clinico ha il potenziale per ridurre la diagnosi errata di falsi positivi fino all'84%. Dato che i pazienti che sperimentano la reversione sono borderline in senso diagnostico, da un punto di vista clinico può essere sensato che vengano comunque seguiti, dato che ci sono stati motivi di preoccupazione clinica. Pertanto, XGB potrebbe essere il miglior modello per un aiuto decisionale clinico. In alternativa, un approccio d'insieme che fa previsioni secondarie sulla probabile stabilità diagnostica e sul potenziale di classificazione errata può rivelarsi ancora più utile.

Limitazioni
Questo studio ha diversi limiti. Innanzitutto, sia CAIDE che BDSI sono stati sviluppati utilizzando popolazioni diverse da quella utilizzata in questo studio. Non tutte le variabili utilizzate per lo sviluppo di questi modelli avevano un equivalente esatto nell'UDS che potrebbe aver influenzato le loro prestazioni in questo set di dati. In secondo luogo, il metodo utilizzato per imputare i dati può comportare un errore di imputazione. In particolare, l'imputazione sostituisce tutti i valori mancanti con un valore numerico, ma alcuni valori mancano a causa della loro relazione con un altro valore; pertanto, il fatto che manchi un valore è informativo. Tuttavia, mentre i partecipanti avevano una media del 14% di dati mancanti, le 6 variabili chiave identificate erano mancanti per una media dell'1% dei partecipanti. In terzo luogo, sebbene il nostro studio abbia utilizzato un ampio campione di partecipanti alla clinica della memoria negli Stati Uniti, rendendo i nostri risultati altamente applicabili a questo contesto, non è noto fino a che punto questi risultati si generalizzeranno ad altre popolazioni.
Conclusioni
Questo studio prognostico ha rilevato che i modelli ML hanno superato i modelli di previsione del rischio di demenza esistenti e potrebbero avere il potenziale per migliorare la previsione della demenza incidente in 2 anni nelle cliniche della memoria. Sei fattori chiave per il rischio di demenza identificati in questo studio potrebbero avere il potenziale per migliorare la pratica clinica nelle cliniche della memoria se incorporati in futuri ausili decisionali clinici.

