Цифровизация здравоохранения требует безопасного управления клиническими данными при сохранении конфиденциальности пациентов.
В новом исследовании, опубликованном в журнале Scientific reports, оцениваются модели GPT-3.5 и GPT-4 для обезличивания записей и генерации синтетических данных с использованием API и авторских подсказок для оптимизации вычислительной эффективности.
Клинические записи содержат важную информацию для медицинских исследований, включая демографические данные, историю болезни и планы лечения. Модели GPT-3.5 и GPT-4 способны имитировать тексты, что делает их подходящими для создания синтетических клинических заметок.
Исследователи оценивают способность GPT-3.5 и GPT-4 выявлять и обезличивать данные в рамках защиты данных в клинических записях, создавая синтетические заметки для сохранения конфиденциальности.
Данные были получены из EHR в Онкологическом центре имени короля Хусейна (KHCC), клинические записи были обработаны с использованием контекстного обучения. Показатели точности, отзыва, оценки F1 и аккуратности оценивали эффективность моделей. Ручные и автоматические проверки гарантировали сохранение лингвистического качества и клинической полезности заметок.
Результаты показывают, что GPT-4 значительно превзошел GPT-3.5, достигнув точности 0,9925, полноты 0,8318, и точности 0,9911. Эти результаты демонстрируют потенциал GPT-4 как инструмента для защиты конфиденциальности пациентов и повышения доступности клинических данных для исследований. Эта работа устанавливает ориентиры для поиска баланса между полезностью и конфиденциальностью данных в сфере управления медицинскими данными.