智能教育网欢迎您!
当前位置:首页   /   学习快讯   /   社会讲堂
广东粤方言语音数据库的田野调查及思考
栏目:社会讲堂 2018-02-28

阅读:848次

作者:邵慧君 曾珊

提要  本文在田野调查实践的基础上,对运用TFW语言调查软件进行录音调查和分析整理提出一些初步的想法。分为三

部分:一、调查表格的制定;二、调查过程;三、对TFW语言调查软件的评价与思考。

关键词  TFW语言调查软件  评价与思考  广东粤语语音数据库

 

为配合广东省哲学社会科学“十一五”规划2008年度项目《广东粤语语音数据库》的全面开展,笔者率学生采用潘悟云教授和李龙副教授合作研发的语音调查录音软件TFW ( ToolsforFieldWork )前后做了三次调查:第一次在广州大学城做实验性调查,录音对象是广州市海珠区的学生;第二次则是2009年暑假在粤西茂名地区所做为期一个多月的田野调查,调查点依次为:茂南区新坡镇、茂港区羊角镇(旧属电白县)、信宜东镇镇、高州市区南关街、化州市区河西街、化州市长岐镇中塘村,当时使用旧版TFW软件;第三次于2010年1月使用新版TFW对广州市原东山区、广州市白云区嘉禾望岗村进行实地调查。本文即以此三次调查为基础对TFW软件的功能及问题作一番梳理,希望对后期田野调查的全面铺开以及软件的更新改良有一定参考价值。

一、调查表格的制定

我们在《方言调查字表》(以下简称《字表》)基础上,根据软件要求拟定一个分为五个字段的字音调查表。字目以繁体字出现,以便区分简化字中的同形字,注释则标注其简体字形并组词或释义。全表约3600字,其中少数《字表》有而粤方言不用的字如“汝、囥、繰~边、”等予以删除,而一些《字表》无而粤方言常用的字如“播、旭、叮”等则予以增加。全表按照《字表》先后顺序排列,但不明确标注其音韵地位,凡所增加的字根据其古音插入排序。该字表为xls表格形式,调查时须先将字表导入TFW软件。

原本初拟版调查表还有一个附表,主要收录《字表》中无而粤方言常用的口语字。其中有些有文字形式,如“揸”(拿,握,持)、“睺(伺机)”、“埕(小口坛子)”,有些则尚无本字或俗字可写,如“□na⁵⁵(疤)”、“□jɐi¹³(顽劣,差)”。后考虑到录音时发音人辨识有困难,需逐字解释,费时费力,且后续调查方言词汇时会触及此类口语词,故最后删去附表。

修订后的字音调查表较传统《字表》有所改善,但调查时仍发现存在一些问题需要改进:

1.字表有不少日常口语少用的书面语字,调查时会造成一定障碍。由于受教育程度不均衡,一些发音人对辨识繁体字和书面语词有困难。方言口语中不用或少用的书面语字很可能按照广州话甚至普通话的读音折合而成,如“绉、镊、敝、皿、犊、炙”等。这类字能否准确读出因地而异、因人而异,是否纳入字表尚可斟酌。目前我们的做法是尽量保留,在调查中由调查人解释,诱导发音人读音,若无法读出则空缺;不过这样做直接影响调查速度。

2.字表不注古音,比对颇不方便。TFW字表没有明确标注古音音韵地位,而以表格形式逐个依序排列。虽然排列顺序已考虑古音韵摄的先后次序,但与《字表》韵图式的表格形式相比,这个字表在寻找比字时颇为麻烦。邻近韵字比较问题不大,但相隔远或属字少的情况相对困难。这就要求调查者对所有字的音韵地位非常熟悉,如果田野经验不丰富或音韵地位无法默记,调查会遇到不少问题,因此最好配合《字表》一起使用。

 

*本文是广东省哲学社会科学“十一五”规划2008年度一般项目《广东粤语语音数据库》(项目批号:08J-03)的前期实验成果。

  [作者简介]邵慧君,华南师范大学文学院教授;曾珊,华南师范大学文学院08级硕士研究生。

 

3.多音字的困扰。字表有一批古音存在不同反切的字,它们对应于不同的音韵地位。如“洒”所卖切,又砂下切,分别见于马韵和卦韵;“猫”莫交切,又武瀌切,分见于肴韵和宵韵;“抹”《广韵》莫拨切,《集韵》莫葛切,分属山合一末、山开二黠韵;类似的还有“筛、簪、掘、核、盾、蚌、橙”等。其中不少字在粤方言中仅一个读音,需要结合古今音来折定一个恰当位置。

4.繁体字形的困扰。个别字目两种繁体字形,如No.1085“为”的繁体有“爲、為”,No.3204“并合并”的繁体有“併、倂”,字表以前字为目,若输入后字则查询无效。另有少数字繁简体相差无几,如“羡-羨、拼-拚、黄-黃” ,字表误以简体(前字)为目,应统一修改为繁体(后字)。

二、调查过程

2.1 设备硬件和录音技术指标的测定

2.1.1录音设备

电脑型号不限,目前我们使用的是120G硬盘、内存1G的IBM-X61笔记本,配备FirewireSolo外置声卡和铁三角ATM73a头戴式麦克风(麦克风选用“指向性”录音功能),并自带监听耳机,在实地调查时最好携带放音设备以备审核复听。

2.1.2录音参数

为达到较理想的信噪比,我们运用Adobe Audition软件测定录音环境参数,要求噪音分贝值db≧60绝对值,信号采样值范围大致在5000≦smpl≦15000间。为保持整个录音过程中噪音值和采样值基本稳定,我们在使用TFW录音同时还需用Audition录下整个调查过程,并不时切换界面监看各项技术参数是否偏离。

2.2  选择合适的发音人

我们对发音人的基本要求是:世居当地三代以上并长期居住于在出生地,初中或以上文化程度,年龄60或以上(最低不得低于55岁)的男性。具体有:

2.2.1口齿清晰,发音无明显生理缺陷

因录音质量要求较高,故发音人必须吐字清晰,所发音节标准、完整,发音无明显生理缺陷,这对发音人嘴型、牙型和声线均要全面考虑,即使一些平时说话听起来无大问题的发音人录音却不一定合格。发音人常见问题有:抽烟过多声线嘶哑或带有痰梗;鼻息音过重,发音过程中间或结束时带有明显的鼻腔气息;说话粗声大气,经常造成“喷唛”;读字时间长久出现疲态产生字音高低轻重飘忽不稳等等。这些问题若是传统的笔录调查可以忽略不计,然而对于制作高清语音数据库来说颇为困扰。若三千多字每字录音前都作归一处理,待其读音稳定可靠后再录,这样的做法恐怕仅适用少数字的语音实验分析,对于大批量的田野录音而言极不现实。

2.2.2文化程度适中,职业以务农为主

由于是纯字音调查,调查字目为繁体字形,因此发音人最好具备初中或以上文化程度,个别解放前受教育者高小毕业亦可。职业首选务农或基层村干部,因为教师或多或少会受普通话或广州话影响,书面化色彩较浓。

2.2.3身体健康、脾性耐心细致且领悟力强

整本字表的录音过程较长,枯燥乏味,并需长时间佩戴头戴式麦克风,集中精力紧盯电脑屏幕上的字目、注释和录音线,耳朵和眼睛承受较大压力,时间一长难免头昏眼花。所以发音人必须拥有较好的身体状况、耐心细致开朗的性格,并热衷于家乡文化的推广保存才能完成此项工作。

此外发音人还需具备较强的领悟力,能短时内掌握TFW的录音基本操作,如录音线的起止、声量和气息的控制、麦克风位置的调整等,这样才能更好地配合调查录音,提高效率和录音质量。

目前看来要找到非常合乎调查要求且愿意合作的发音人存在较大困难,需要寻求当地政府或地方院校的支持和帮助。

2.3  对调查记音人的要求

2.3.1  扎实的调查功底和吃苦耐劳的精神

因字表未标注古音地位,这对记音人提出了更高的专业素质要求。调查者不仅要当场快速反应每个字的实际读音,而且要迅速联系中古音系廓清该方言的音韵特征,有些较难或易混淆之处还要马上联想关键比字进行比对分析,这些都需要在操作机器的同时完成,因此调查者必须有过硬的调查功底方能胜任,而且精神高度紧张、劳动强度颇高。

TFW目前设计了一个135字的音系字表,基本涵盖所有声韵调,其目的是让调查者先记录、熟悉声韵调系统,在反复校验、核实音系后进行整体字表的录音,此时可以只录不记等田野调查结束后再输入音标,节省实地调查时间。但从目前的试验来看,这样做效果未必理想:一是135字尚有个别缺漏;二是许多字光听录音很难分辨,尤其是处于演变过程中本身读音不稳定的字必须当场比对校验;三是一旦回来输入音标时发现可能有误读、漏读情况,还必须重新回去补录。我们目前的做法是白天录音,晚上一边输入音标一边校听,第二天先重录昨天的问题字然后再录新字。这样势必工作强度很大,发音人必须学会打硬仗。

2.3.2  必要的电脑知识和物理知识

录音调查要求调查者能熟练操作电脑和TFW田野调查软件,懂得使用录音软件Adobe Audition来分析信噪比参数,能通过观察语图及相关数据大致判断录音质量是否理想。工作时既要打开TFW逐字录音,同时也要打开Audition软件将整个调查过程录下备份,以方便随时监测信噪比参数和事后回忆调查过程。

此外调查者还需懂得基本的电脑硬件装置和物理知识,田野调查的客观条件好坏不一,经常有突发性问题出现,如电脑中毒或硬件损伤,电线老化电压不稳导致电流声过大等,调查者必须随时排查各种影响因素,及时解决突发问题。

最后,调查者必须每天及时、谨慎地备份调查数据,将工作数据和原始数据分区备份妥当,以免数据丢失无法找回。

2.4  工作流程

1.测试和试录。使用Adobe Audition监测当地录音环境,要求环境噪音值达到db≧60绝对值;选择几组有代表性的例字进行试录,监测采样值和信噪比,调整麦克风位置和声卡音量等。

2.打开TFW软件,新建语言点,导入调查字表,先做音系调查录音,录完即时输入国际音标,利用校音界面反复核实比对,确定该方言的声韵调系统。

3.字表录音,同时打开TFW和Adobe Audition软件,录音过程中需经常监测录音参数是否合格,不要经常调整外置声卡的音量大小。

4.输入当天所录字的音标,边输边核听,记下问题字以便第二天补录或重录。

5.将当天资料分类备份。

6.总体校音,归纳音系和音韵特点。这部分工作可以回来再做。

三、对TFW语言调查软件的评价与思考

3.1  TFW语言调查软件的贡献

1.突破传统语言调查记录的技术瓶颈,完整保留方言资料。传统方言语音调查,调查者都是自己独自听音、辨音,书面记录该方言的语音,并通过一套严格的复检程序(如声韵调配合表、同音字表等)来尽量减少错误和疏漏,成果亦为书面形式。这样的调查结果,因缺少录音凭证容易产生纰漏,而且不同方言不同调查者均有各自不同的处理习惯,对于大面积跨方言的材料由于缺少语音资料的佐证往往产生隔阂和误解。TFW的优势在于能够以录音文件的形式真实地记录该方言的读音,对纯粹书面记录的方言资料起到很好的补充和印证作用,从而确保方言调查资料的可信度。即使没有亲自参与田野调查的学者,也能通过录音和音系资料的比对,充分、真实地了解该方言语音面貌。调查者也可根据各方的意见或质疑随时补充和修改,有疑问处还可通过语音的实验分析加以确认,这就尽可能地保证了方言调查记录的科学性。可以预见,建立配有语音甚至图像的开放式语料库势必成为未来语言资料的主要保存方式。

2.界面设计清晰合理,每字独立切分并配合语图。TFW录音界面切分设计合理,左栏为字表字音界面:最上为字表;中间是简体字形及释义;下面是大字体的繁体字形;最下一栏是音标输入显示栏,输入法自动切换为云龙国际音标。右栏为录音及语图界面:最上面是录音界面,录音过程中可显示录音线的起始;中间是共振峰图;最下是基频调型图。整个界面简洁明晰、方便操作,并做到一字一音一图。字表可随时检索目标字,亦可随时增加字目,方便记录异读字和多音字;语图的参考可以提高方言调查的准确度。

3.分步进行录音,方便调查者及早掌握音系概况,对于不熟悉该方言的调查者有一定帮助。大规模的田野调查很难确保所有调查者都具有较高的专业素质和一定的目标方言熟悉度,因此TFW设计调查分两步进行,先作音系探摸,待确定、熟悉后再作整表调查。这样可以有效降低调查失误,方便调查者及早熟悉目标方言的特点。音系字共135个,综合涵盖所有的声类、韵类和调类,具有一定代表性。录完音系可先做音系校对,待反复校核后再进入整表调查,这个过程与《字表》前的声韵调简表有异曲同工之效。

4.设有校音环节,方便归纳音系、校验错误记录和归纳同音字表。由于TFW要求录音音质与国际音标完全吻合,因此记录时一般使用严式记音法,音系归纳结果并不直接反映在录音记录上,这无疑会令调查者一开始有凌乱之感。好在设计有校音环节,可以分别从声、韵、调不同维度反复校听比对,还可调用相近音比较功能方便比对,确定音位及其变体。从目前使用情况来看,校听环节的设计的确可以大大提高语料记录的准确性。

3.2  TFW调查软件的不足与思考

3.2.1  TFW语言调查软件的操作条件较为苛刻

前文所提到的对发音人、记音人、录音环境和录音设备的高要求都属于操作条件苛刻的表现,在实际的大范围田野调查中经常会遇见不可预估的问题。此外录音调查程序比传统的纸笔调查更为紧张劳累,从录音到输入音标到校听补录,必须力求压缩时间当场完成,这样的工作强度不利于时间持久、范围较大的田野调查。

3.2.2 TFW软件设计的不足

1)音系字太少,综合涵盖声、韵、调信息,个别韵类字数极少的可能有漏,而且对于

不熟悉中古音系的调查者来讲,其比对校验功能不如《方言调查字表》前面的声韵调那么清晰明了。

2)国际音标的规范与识别尚需完善。由于程序设计的漏洞,发现个别元音辅音的归类有误,如辅音声母ʋ和韵母ᴇi在TFW程序中被分别误认为介音和韵母i。

    3)目前新版的校音功能较旧版有很大改善,但仍有不少细节可进一步优化。比如校音比字,在选择相近音比听时应考虑智能选择音节,若比听相近声母则选择与目标字同韵、同调的,比听相近韵母则选择与目标字同声、同调的,比听相近声调则选择与目标字同声、同韵的。另外比听相近音时应同时显示双方的语图,目前只显示目标字的语图,被比字语图无法显现。

4)连读变调的词表有一些缺漏和错误的地方需要改正,连调词表的设计也不太接近实际口语。目前词表只能调查语音词的连读形式,对于语素变调尚无能为力。

5)应添加粘贴录音的程序,有时在后期校听修改过程中误删了读音,应能从原始备份

中找出该字录音并粘贴回去。

    6)用外置声卡前必须先手动“停用”机器本身内置声卡,若操作人一时忘记停用内置声卡,就有可能影响录音效果。最好设计为优选选择外置声卡。

以上是我们使用TFW软件进行田野调查后所归纳的一些问题与思考。希望大家试用后都能指出缺漏,使软件不断优化完善,为语言调查提供最大便利。

 

(原载《南方语言学》创刊号,2009)


智能教育平台拥有强大的教学实力,尤其在教研和师资方面积累深厚。课程覆盖小学、初中、高中的包括语文.数学.英语.物理.化学.生物在内的所有主要学科。师资方面,采取统一选聘、严格培训的制度,引入“授课老师+辅导老师”的双师模式,授课老师团队对课堂负责,辅导老师团队对学习效果负责。
粤ICP备17159544号   |   版权所有@肇庆市经纬信息技术有限公司   |   技术支持:佰牛科技
关于我们  |   课程中心  |   信息咨询  |   联系我们  |   网站地图