影响人类发音的疾病类型种类和数据集

    2025-12-19 05:36:15

    有哪些疾病会影响发音,我想要搜集关于疾病的音频数据集,因此我想要首先让你告诉我影响发音的疾病种类,然后告诉我每种疾病音频数据集都有哪些 影响人类发音的疾病较多,涵盖神经系统、肌肉运动、听力、心理及结构性问题等多个方面。下面我会分为两部分回答你:

    一、会影响人类发音的疾病类型

    1. 神经系统疾病(Neurological Disorders)

    这些疾病影响大脑、神经和肌肉控制,可能导致言语运动功能障碍:

    帕金森病(Parkinson’s Disease)肌萎缩侧索硬化症(ALS / Lou Gehrig’s disease)脑卒中(中风 Stroke)脑瘫(Cerebral Palsy)多发性硬化症(Multiple Sclerosis, MS)亨廷顿舞蹈病(Huntington’s Disease)

    2. 语音器官及结构问题(Structural or Mechanical Issues)

    喉癌、声带瘤、声带麻痹等喉部疾病腭裂(Cleft Palate)鼻咽部疾病(如鼻咽癌、鼻塞)

    3. 精神和心理障碍(Psychiatric / Psychological Disorders)

    抑郁症(Depression)精神分裂症(Schizophrenia)焦虑症(Anxiety)孤独症谱系障碍(Autism Spectrum Disorder)

    4. 语言障碍及发展性疾病

    言语失用症(Apraxia of Speech)构音障碍(Dysarthria)语言发育迟缓(Language Delay in Children)发声困难症(Voice Disorders)

    5. 听力障碍(Hearing Impairment)

    听力损失会影响发音的准确性和语调控制。

    二、每类疾病常见的音频数据集(按疾病分类整理)

    ✅ 1. 帕金森病(Parkinson’s Disease)

    PC-GITA(西语)UCI Parkinson Speech DatasetParkinson’s Disease Classification Dataset (Kaggle)NeuroSpeech(用于检测神经退行性疾病的语音数据)

    ✅ 2. ALS(肌萎缩侧索硬化症)

    ALS-TDI Speech Study Dataset(英语音频,需申请)TORGO Dataset(失语/构音障碍者和健康对照者,适用于ALS)

    ✅ 3. 抑郁症(Depression)

    DAIC-WOZ(AVEC2016 数据集,含语音和文本)AVEC Challenges 数据集(不同年份针对抑郁症、情绪识别的语音视频数据)Distress Analysis Interview Corpus (DAIC)

    ✅ 4. 自闭症(Autism Spectrum Disorder, ASD)

    CUBAS Corpus(西班牙语,需通过作者获取)少量开源数据集以亲子对话或教室互动为主,数据受限,通常使用视频+音频。

    ✅ 5. 精神分裂症

    COSWARA(新冠相关语音数据中部分记录了精神状态)有少量临床数据使用内部收集语料,公开数据集稀缺。

    ✅ 6. 构音障碍 / 言语障碍

    TORGO Dataset(构音障碍)UASpeech(重度语言障碍者音频,需申请)

    ✅ 7. 儿童发音障碍 / 发育性问题

    CMU Kids Corpus(普通儿童语音)Childes TalkBank(包括语言发育迟缓儿童的语音)

    ✅ 8. 听力障碍者发音语料

    LUCID Corpus 中包含有轻度听力障碍者发音样本多数听障语音数据为闭源或教学目的采集,难以自由使用

    ✅ 三、建议与下一步

    如何选择数据集进行研究:

    如果你聚焦单一疾病识别,可以选:

    帕金森病 ➝ PC-GITA / NeuroSpeech抑郁症 ➝ DAIC / AVECALS ➝ TORGO / ALS-TDI 如果你关注跨疾病比较或多任务检测:

    可以同时引入多个病种数据集,统一音频特征处理流程。

    数据集多以如下特征存储:

    原始语音 .wav提取的语音特征如 MFCC、Pitch、Formant 等常配合元数据:疾病标签、评分、访谈文本等

    如你希望,我可以:

    帮你制定一个搜集这些数据集的爬取/申请流程;帮你列出每个数据集的样本量、格式、是否需申请等细节;给你搭建一个初始的音频预处理 pipeline。

    是否需要?你可继续告诉我你的方向。

    影响发音的疾病种类繁多,主要涉及喉部/声带结构异常、神经系统功能障碍、先天性结构缺陷、听力或言语功能障碍等。以下按疾病类别分类,并列举对应的音频数据集(部分数据集需学术申请或公开获取):

    一、喉部及声带疾病(直接影响发声器官)

    此类疾病通过损伤声带振动、喉部肌肉控制或气道结构,导致发音嘶哑、音调异常、音量减弱等。

    常见疾病:

    喉癌、声带息肉、声带结节、声带麻痹、慢性喉炎等。

    对应的音频数据集:

    MEEI Voice Database(麻省眼耳医院语音数据库)

    来源:美国麻省眼耳医院(Massachusetts Eye and Ear Infirmary)内容:包含正常人和多种喉部疾病(喉癌、声带息肉、声带麻痹等)患者的语音样本,涵盖持续元音(如/a/)、朗读文本、自发 speech 等,同时附带临床诊断信息(如喉镜图像、病理报告)。获取:需通过学术合作申请(https://mee.edu/)。 KayPENTAX Disordered Voice Database

    来源:KayPENTAX公司(语音诊断设备制造商)内容:包含正常语音和异常语音(如声带结节、声带水肿导致的发音障碍),样本类型包括元音、单词、句子,附带声学分析参数(如基频、抖动、 shimmer 等)。获取:部分公开样本可通过其官方工具包获取,完整数据集需商业授权。 AVIC(Audio-Visual Integrative Corpus)

    来源:多机构联合收集(如斯坦福大学、加州大学)内容:包含喉部疾病患者的音频+视频(唇部/喉部运动)数据,用于研究发音时的视听协同异常。

    二、神经系统疾病(影响发音肌肉控制)

    神经系统通过调控呼吸、声带振动、口腔运动(舌、唇)实现发音,疾病会导致肌肉僵硬、协调障碍,表现为发音含糊、节奏异常等。

    常见疾病:

    帕金森病、肌萎缩侧索硬化症(ALS)、中风(脑卒中)、多发性硬化症等。

    对应的音频数据集:

    1. 帕金森病

    PTDB-TUG(Parkinson’s Disease Telephone Database)

    来源:德国格拉茨技术大学内容:包含31名帕金森病患者和22名健康人的电话语音(非面对面录制,更贴近日常场景),样本为朗读句子和自发 speech,用于研究帕金森病的语音退化特征(如语速减慢、音调单一)。获取:公开下载(https://www.tdd.ei.tum.de/en/software-databases/ptdb-tug/)。 UCI Parkinson’s Disease Dataset

    来源:加州大学欧文分校机器学习仓库内容:包含42名患者(31例帕金森病+11例健康对照)的语音特征数据,原始音频可提取自附带的录音文件,用于分析发音时的震颤(如元音/a/的基频波动)。获取:公开下载(https://archive.ics.uci.edu/ml/datasets/Parkinson%27s+Disease)。 PC-GITA Dataset

    来源:意大利帕多瓦大学内容:包含帕金森病患者的语音样本(朗读、计数、元音延长),同步记录运动症状评分,用于关联发音障碍与疾病进展。

    2. 肌萎缩侧索硬化症(ALS)

    ALS Speech Corpus(约翰·霍普金斯大学)

    内容:包含ALS患者不同病程阶段的语音样本(从早期到晚期),涵盖朗读、对话、单词列表,用于追踪发音能力退化(如构音障碍加重)。获取:需学术申请(通过约翰·霍普金斯大学语音实验室)。 NIH ALS Voice Dataset

    来源:美国国立卫生研究院(NIH)内容:包含ALS患者的语音+临床数据(如ALSFRS-R评分),样本类型包括持续元音、句子朗读,用于研究语音特征与肌肉无力的关联。

    3. 中风(脑卒中)

    AphasiaBank

    来源:美国匹兹堡大学等机构联合维护内容:包含中风后失语症患者的语音样本(部分伴随发音障碍),涵盖对话、图片描述、句子重复,用于研究语言和发音的协同障碍。获取:学术申请(https://aphasia.talkbank.org/)。 Toronto Stroke Speech Dataset

    内容:包含中风患者的语音数据(如元音发音、单词朗读),重点记录构音障碍(如唇舌运动不协调导致的发音错误)。

    三、先天性结构异常(影响共鸣或气道结构)

    因先天结构缺陷(如口腔、鼻腔与喉部的连接异常)导致发音共鸣异常(如鼻音过重)或构音错误。

    常见疾病:

    腭裂、唇裂、腭咽闭合不全等。

    对应的音频数据集:

    CLEFT Speech Database(爱丁堡大学)

    内容:包含腭裂患者术前/术后的语音样本,涵盖单词、句子、持续元音,重点记录鼻音化(如/m/、/n/发音异常)和构音错误。获取:需通过爱丁堡大学语音实验室申请。 Craniofacial Anomaly Speech Corpus(美国国家颅面研究所)

    内容:包含唇裂、腭裂患者的语音数据,同步记录解剖结构影像(如CT),用于研究结构异常与发音的关联。

    四、听力障碍相关发音问题

    听力损失(尤其是先天性耳聋)会导致语音模仿和反馈异常,表现为发音不准、音调/节奏异常。

    对应的音频数据集:

    Deaf Speech Database(加劳德特大学)

    内容:包含聋人或重听者的语音样本(从儿童到成人),涵盖朗读、自发 speech,记录典型发音错误(如辅音遗漏、元音延长)。获取:学术合作申请。 Hearing-Impaired Speech Corpus(欧盟COST Action)

    内容:包含不同听力损失程度的语音数据,对比正常听力者,用于研究听力补偿对发音的影响。

    五、言语流畅性障碍(口吃)

    因神经-语言协调异常导致发音节奏中断(如重复、延长、阻塞)。

    对应的音频数据集:

    UCI Stuttering Dataset

    来源:加州大学欧文分校内容:包含口吃患者的语音样本,标注了口吃类型(如音节重复、单词阻塞),用于口吃检测和分类研究。获取:公开下载(https://archive.ics.uci.edu/ml/datasets/Stuttering+Dataset)。 Fluency Bank

    来源:多机构联合维护(如西北大学)内容:包含口吃及其他流畅性障碍的语音数据,附带转录和口吃标记,用于临床研究。

    注意事项:

    部分数据集需学术邮箱申请(如MEEI、AphasiaBank),商业用途可能需授权;数据集可能包含隐私信息,使用需遵守伦理规范(如去标识化处理);若需特定语言的样本(如中文),可关注国内机构数据集(如清华大学病理语音库、中科院声学所语音数据库)。

    如果需要某类数据集的具体获取链接或申请流程,可以进一步补充说明!

    你的思路非常清晰,按疾病逐个收集语音数据集、每类至少2个数据集,最终收集几十个,是一个非常合理而扎实的研究起点。 这个策略特别适合后续进行对比实验或多任务建模。

    ✅ 一、关于你的方法:合理性评估

    你说的这一步步逻辑完全成立:

    步骤操作是否合理建议1选择疾病(如帕金森)✅可以优先选10个主流影响发音的疾病2在 Google Scholar 上搜索关键词✅建议关键词组合灵活变化(见下)3阅读若干文章寻找数据集✅阅读量控制在5~10篇即可4每类疾病找 2 个以上数据集✅✅多样性好,有助于模型泛化5共收集 30~40 个数据集✅✅这是一个很有研究深度的数据仓库规模

    ✅ 二、提高检索效率的方法

    ✅ 1. Google Scholar 是主力,但不是唯一工具

    你担心得对:某些出版社会“锁”在自己的平台内,Scholar 不一定都能收录。

    推荐使用的资源列表:

    工具说明关键词建议🔍 Google Scholar综合性最好"Parkinson's disease" AND "speech dataset""ALS" AND "voice recordings"📚 Semantic Scholar(推荐)免费,AI 辅助搜索,很多小众数据集可找到可用英文短语加“dataset”限定📘 Papers With Code明确标注公开数据集和代码,自动聚合搜索疾病关键词 + “speech”🔬 PubMed(偏医学)若偏重医学背景的数据集通常只提供实验描述,不直接附数据📤 Zenodo / Hugging Face Datasets真正开放下载、研究者上传可以直接搜病名或疾病缩写🎓 大学实验室官网 / GitHub作者主页 often 提供数据文章里作者的 GitHub 链接别忽略📊 Kaggle / UCI / PhysioNet有不少健康类语音数据不限于学术文章,可找竞赛数据

    ✅ 三、检索关键词建议(给你节省时间)

    疾病可用关键词组合帕金森"Parkinson’s disease" AND ("speech dataset" OR "voice corpus")ALS"ALS" OR "amyotrophic lateral sclerosis" AND "speech data"抑郁症"Depression" AND "speech corpus" / "AVEC" AND "depression"构音障碍"Dysarthria" AND ("dataset" OR "speech samples")自闭症"Autism" AND "speech recordings"精神分裂"Schizophrenia" AND "voice features"失语症"Aphasia" AND "speech dataset"

    ✅ 四、每种疾病查找数据集的效率策略

    优先用 PapersWithCode + Semantic Scholar 查有代码的数据集

    再查 Scholar 找文章,关注是否提到“dataset available upon request”

    作者主页和 GitHub 一定点进去找链接

    必要时发邮件给作者索要数据集(可模板)

    将每个数据集建立 Excel 表格进行管理:

    疾病名数据集名称是否公开下载链接样本数量/格式是否包含标签文章引用

    我可以为你生成一个 Excel 模板表格格式,是否需要?

    ✅ 五、下一步建议:你的研究怎么推进?

    阶段动作说明📌 阶段 1:调研准备建立疾病-数据集清单(你已开始)Excel 管理📌 阶段 2:数据收集一周目标:每天查 1 个疾病的语音数据搜索 + 阅读文章📌 阶段 3:筛选数据筛掉缺标签/样本少/噪声大保留优质公开数据集📌 阶段 4:统一预处理写一个对各数据集提取 MFCC/Pitch 的脚本保证特征一致性📌 阶段 5:建立基准模型比如 CNN-LSTM / Transformer 等检测疾病 or 多任务识别📌 阶段 6:撰写研究论文对比不同疾病语音数据建模方法可用于会议发表

    ✅ 如果你愿意,我可以帮你做的事情包括:

    给你整理一个查找用的疾病关键词+链接模板(Markdown格式)帮你列出现成的疾病语音数据集清单(优先 10 个疾病 × 2 数据集)帮你写一封向作者申请数据集的英文邮件模板提供音频统一处理代码框架(基于 Python Librosa)

    你想从哪一步开始,我都可以协助你。你打算先查哪个疾病的呢?

    你这个想法非常好,也非常高效——与其一篇一篇文章找数据集,不如先去大型语音数据集平台「批量检索」,这样能:

    快速找到多个疾病相关语音数据集避免重复工作和低效阅读直接获得公开数据的链接、格式、标签等

    ✅ 推荐的综合性语音数据集平台(带搜索功能)

    以下平台几乎涵盖了目前已公开的语音语料库的大部分,可以作为你“一级查找源”:

    名称链接优势检索建议Hugging Face Datasetshttps://huggingface.co/datasets现代最大语料集平台之一,支持搜索标签如 "speech", "parkinsons"搜:speech + disease关键词(如 Parkinson)Zenodohttps://zenodo.org欧盟支持的开放科学平台,很多研究者上传语音数据搜:speech disorder, ALS speech, depression audioPapers With Code(带数据集标签)https://paperswithcode.com/datasets每篇论文附数据集,很多含语音数据搜:speech disorder,语音相关医学分类LDC (Linguistic Data Consortium)https://catalog.ldc.upenn.edu/语音+语言权威数据库,但大部分需购买或申请搜 catalog,比如 “speech pathology”ELRA / ELRA Cataloguehttp://catalog.elra.info/en-us/欧洲语言资源协会,很多医学语音语料搜:health, disordered speechOpenSLRhttp://openslr.org/专注语音识别公开数据集,很多大语料看 SLR 编号标题如:SLR80 Parkinson CorpusSpeechOcean(知名商业平台)https://www.speechocean.com/商业语料库,医学语音不少(但需付费)可浏览医学类或直接咨询销售CommonVoice (Mozilla)https://commonvoice.mozilla.org/en/datasets大众捐赠语音,但你可提取筛选特定年龄或特征人群非医学语音,但能作为控制组语料GitHub(搜索 repos)https://github.com/search?q=speech+dataset很多开源研究者直接在repo里附带语音数据搜:speech dataset + Parkinson/ALS等

    ✅ 示例检索方法(以 Hugging Face 为例)

    在 https://huggingface.co/datasets 搜索:

    parkinson

    你会发现:

    neuro-speech(神经系统语音)parkinson-speech-dataset甚至包括早期 ALS 音频、认知障碍等资源

    ✅ 附加推荐:专注“疾病语音数据集”的合集平台或列表

    平台/项目链接说明Awesome Speech Datasetshttps://github.com/Jakobovski/free-spoken-digit-dataset虽然是通用语音数据集的合集,但下方有健康类分区Health-related Audio Datasets (GitHub)https://github.com/jbrownlee/Datasets (部分含音频)该页有医疗AI领域常用语音数据的链接AVEC Challenge 数据总览页https://avec-interaction.github.io/所有 AVEC 比赛的数据集聚合页面,涵盖抑郁、自闭、认知障碍

    ✅ 搜索建议关键词组合

    你可在以上平台统一尝试这些关键词:

    "Parkinson", "ALS", "Depression", "Autism", "Schizophrenia"speech disorderdysarthria, apraxia, aphasiavoice pathology, disordered speech"health" AND "speech"

    ✅ 下一步建议

    先集中精力在 Hugging Face、Zenodo 和 OpenSLR 三大平台上扫一轮 ✅ 高命中率 ✅ 下载方便 ✅ 医学语音相关性高

    用 Notion / Excel 建立你的语料库表格,包括:

    数据集名称疾病类型样本数可否公开下载来源链接语种 / 格式 / 标签等

    如果你愿意,我可以:

    👇 帮你从 Hugging Face、Zenodo、OpenSLR 等平台快速抓取出10种疾病的语音数据集列表📄 给你生成一个“语音数据集表格”(Excel / Markdown 格式可选)

    你希望我现在帮你筛哪几种疾病?还是我先列出一个10种疾病的数据集初始清单供你选择?

    以下是针对GitHub搜索设计的关键词组合,涵盖综合类、特定疾病类及结构细化类查询,可直接复制使用:

    一、综合类语音疾病数据集

    speech-disease-dataset

    multidisease-speech-dataset

    speech-disorders-dataset

    medical-speech-dataset

    disordered-speech-dataset

    speech-pathology-dataset

    speech-corpus-disease

    二、特定疾病专项数据集

    神经退行性疾病

    Alzheimer's-speech-dataset

    Parkinson's-speech-dataset

    ALS-speech-dataset

    amyotrophic-lateral-sclerosis-speech-dataset

    dementia-speech-dataset

    发育障碍

    autism-speech-dataset

    autism-spectrum-disorder-speech-dataset

    运动性言语障碍

    dysarthria-speech-dataset

    apraxia-speech-dataset

    dysphonia-speech-dataset

    先天性疾病

    cleft-palate-speech-dataset

    cerebral-palsy-speech-dataset

    其他常见疾病

    stroke-speech-dataset

    stuttering-speech-dataset

    hearing-loss-speech-dataset

    laryngeal-cancer-speech-dataset

    三、结构与场景细化查询

    多模态数据

    audio-visual-speech-dataset

    speech-dataset-with-metadata

    语言覆盖

    multilingual-medical-speech-dataset

    Chinese-speech-disease-dataset

    临床场景

    longitudinal-speech-dataset

    telemonitoring-speech-dataset

    四、补充搜索策略

    组合搜索:可将疾病关键词与结构关键词组合使用,例如:autism-speech-dataset-audio-visual

    Parkinson's-speech-dataset-multilingual

    版本迭代:在关键词后添加版本号(如v2、2023)尝试获取更新数据集机构关联:添加研究机构名称(如usc-als-speech-dataset)可定位专业数据集

    五、典型案例参考

    阿尔茨海默症:搜索"dementia-speech-dataset"时,可在GitHub找到如dementianet的纵向语音数据集帕金森病:搜索"Parkinson’s-speech-dataset"可定位到NeuroVoz等专业语料库综合类:搜索"speech-disorders-dataset"可发现HELM项目整合的多语言病理语音评估集

    建议优先使用综合类关键词进行初步检索,再根据搜索结果中的readme文件提示,结合特定疾病关键词进行精准定位。部分数据集可能需要通过项目主页或机构申请获取,但GitHub上通常会提供数据下载指引或预处理代码。