
互联网
互联网上存在不少公开的医学影像数据集,比如:
皮肤癌MNIST中的HAM10000、乳房组织病理学图像、胸部X光图像(
肺炎相关)、
疟疾细胞图像数据集、多标签视网膜疾病(MuReD)数据集,而且Kaggle网站也提供多种医学影像数据集。此外,还有一些专门的医学影像数据库拥有大量图像资源,像The Cancer Imaging Archive(TCIA)、用于肺结节检测的LIDC/IDRI、NIH Chest X - ray Dataset等。借助爬虫技术,能够从上述公开数据集网站和医学影像数据库中自动抓取数据。爬虫技术具备自动化与智能化的特性,可以运用模拟浏览器请求技术对网站进行深度与广度的抓取。开源项目方面,参与或者为Open Spider这类开源项目做贡献,就能够获取更多数据资源,并且借助社区的力量共同提升数据采集技术。在运用爬虫技术收集数据时,务必要遵守相关网站的服务条款,尊重版权以及数据使用协议。并且,收集到的数据需要进行清洗和预处理,这样才能保证数据质量以及模型训练的有效性。