An Investigation of Furigana Annotations in Japanese Song Lyrics

Date: 2026-01-19

研究背景

在日文文本中，经常可以见到标注在汉字上方（竖排则为右方）、常用以表示被标注文本发音的假名，即“振假名（振り仮名）”。在现代日语的语境下，“ルビ（ruby）”一词在语义上基本与“振り仮名”等同，即同样用来表示上述标注读音的假名，但“ruby”一词在英语中可以用来表示在包括汉语、日语、朝鲜语和越南语在内的语言中标注汉字读音的“注音文本”（如汉语拼音等），并且该词语已经在诸如W3C发布的HTML5标准等正式场合中得到使用^[^1]。历史上，围绕“振假名”和“ruby”的定义和区别，以及其与“假借字（当て字）”等的关系等问题，学界有所争论^[^2]。但无可否认的是，二者均涉及“标注文本”和“被标注文本”的映射关系。因此，为了避免混淆，在无特殊说明的情况下，本文将日文文本中存在这种映射关系的各种“标注文本”（无论其是否为假名）均称作“振假名”。

王勇（1992）^[^2]分别根据文字类型（字種）和文字给人的感受（字感）之间的关系将振假名（ルビ）分成了7类；若考虑到歌词中时常出现的“振假名”非假名的情况，则对其的分类可以更为复杂。可以说这在一定程度上反映了振假名的多样性。

而在日文歌词文本中，这种振假名的多样性体现得尤为明显。首先，日文歌词中振假名的使用较为常见；更为重要的是，日文歌词中“振假名”与被标注文本之间映射关系不仅仅局限于语音上的对应，而是已经扩展到了诸如语义上的换言关系、上下位关系、“字感”上的对比等更为复杂的情况。尽管如此，关于日文歌词中的振假名的研究成果较少。张小蕊（2018）^[^3]的研究是一个例子，其中主要涉及到的流行音乐中的假借字实际包括本文所定义的“振假名”中比较特殊的部分。

鉴于有关日文歌词中振假名的研究较少，并且相关研究方法多局限于对少量文本的人工分析，本文旨在利用数字人文方法获取和处理大量数据，进而对日文歌词文本进行全面考察，以便总结和分析其中振假名的用法和特征、补充相关研究空白。以此为思路，本文主要分为数据获取、数据处理和数据分析3大部分，其中数据获取部分主要涉及通过网络爬虫获取大量歌词文本的工作，数据处理部分主要涉及对获取的原始数据进行去重、纠错等清洗的工作，数据分析部分主要涉及利用处理完毕的数据对日文歌词中的振假名进行全面分析的工作。

数据获取

综合考虑歌词文本的质量以及获取的难易度，本文最终选取日本知名歌词检索服务网站“UTA-NET（歌ネット）”作为数据来源。

本文利用Python构建的网络爬虫对UTA-NET的歌曲页面进行了爬取，最终构建了一个包含歌词及其他歌曲相关信息（详见表1）的数据集。截至2023年4月22日，UTA-NET上的编码歌曲的ID最大达336404，因此本文采取了每10首歌抽取1首的方式进行爬取。除去获取失败的记录后，最终共收集了33310首歌曲的数据。

表1 数据集中歌曲的基本信息

属性	说明
歌曲ID	UTA-NET为每首歌曲分配的唯一编号，可通过歌词页面的网址识别。
歌名	歌曲的名称。
演唱者	歌曲的演唱者。
Tie-up	歌曲的联动信息，比如被用作电视剧或电视动画的片头曲等。可能缺省。
作词	歌曲的作词人。
作曲	歌曲的作曲人。
编曲	歌曲的编曲人。可能缺省。
发售日期	歌曲的发售日期。

数据处理

从UTA-NET上获取的原始数据中仍然存在歌词重复、存在非日文歌曲等错误；并且振假名与歌词文本相混合，并不容易对其进行处理。为了解决这些问题，该部分尝试对数据集中的数据进行处理。处理过程大体上可分为3步：

1. 去除重复歌曲、纯外文歌曲对应的数据。

2. 对歌词中的振假名进行提取。

3. 对批量处理过的进行人工筛选，尽可能地检查出其中的错误。

1. 去重、去外文

首先可以通过识别完全一致的歌词，并且仅保留其中ID最小的歌词的方式对数据集进行初步的去重。最终成功去除96首重复歌曲。需要注意的是，数据集中同样存在歌词仅有一小部分不同（如空格位置不同、标点符号不同、少数词句不同等）的歌曲重复的情况。为了去除这部分重复歌词，我们又通过识别完全一致的句子的方式额外识别并去除了27首重复的歌曲。

对于歌词为纯外文的1054首歌曲，考虑到这些歌曲与本文的考察对象无关，因此此处将其全部去除。

2. 振假名的提取

从UTA-NET获得的数据中，歌词中的振假名通过置于西文括号“()”内的方式被标记。然而这种标记方式的使用造成了振假名标注的文本难以被识别的困难，同时由于歌词中同样经常出现不充当振假名标记的西文括号（如表示和声、标记演唱者、作为颜文字等特殊符号组合的一部分出现的情况），如何准确识别振假名也是需要解决的问题。

为此，首先需要对歌词文本进行分句，并且通过筛选掉不含西文括号及其他不合要求的句子的方式对可能含有振假名的句子进行识别。接着，考虑到有嵌套括号的句子中非最内层括号含振假名的可能性很小，此处可以通过逐个识别每个句子中最内层西文括号的方式进行振假名的提取，同时可以通过对每个被提取西文括号左方的句段进行分词并保留紧邻括号的词的方式获取振假名对应的被标注文本。在这一步中，同样可以基于振假名提取和分词的结果对可能为振假名的内容进行进一步的筛选（如排除分词结果为空或空格的数据）。

经过提取和初步筛选，可以获得包含6739首歌曲中26405个振假名的振假名数据集。

3. 人工筛选

该部分主要通过人工检查提取出的振假名数据，去除不合格的振假名，并对有错误的振假名数据进行更正。常见的错误包括：

（1）分词错误，包括分词过细（如“幻想/曲(ファンタジア)”）和分词过粗（如“我が/侭(まま)”）。

（2）误把不含振假名的括号当作振假名。

经过处理，振假名数据集中最终保留了5330首歌的16465条振假名数据。

数据分析

1. 振假名及被标注文本的基本性质与统计特征

该部分主要通过对最终的振假名数据集进行描述性统计的方式，考察振假名及被标注文本的一些基本性质和统计特征，进而全面了解日文歌词文本中振假名的基本情况。

（1）包含振假名的歌词数量及比例：

如前所述，最终的振假名数据集涉及5330首歌曲。考虑到最初获取了33310首歌曲的信息，其中完全重复的有96首，部分重复的27首，纯外文的1054首，因此若把重复的歌曲看作一首，则实际获取的歌曲数应为32133首。因此，可以认为样本中含有振假名的歌曲比例为5330/32133，也即约为16.59%。由此可知，使用了振假名的日文歌曲占所有日文歌曲的近二成。

（2）振假名及被标注文本的文字类型：

如前所述，16465条振假名数据对应着同样多数量的被标注文本。分别对二者不重复地计数得被标注文本5012种、振假名4603种。其中，被标注文本大部分为纯汉字文本（包括重复标记“々”），其余的大致可分为含汉字的特殊文本、纯假名文本、其他含英文字母和数字的文本、特殊符号及其他4类；振假名大部分为纯平假名文本，少部分为纯片假名文本（二者均包括长音符号“―”和对应重复标记如“ゝ”等），还包括少量其他的含假名、汉字、英文字母和特殊符号的文本。由此可见，符合常规用法的汉字被标注文本和平假名振假名占大多数，但仍然存在相当数量的非常规用例，这进一步体现了歌词文本中振假名使用的多样性。有关这些非常规用例的详细考察将在接下来的部分进行。

表2 数据集中被标注文本和振假名的文字类型

被标注文本			振假名
类型	数量（种类/计数）	示例	类型	数量（种类/计数）	示例
纯汉字文本	4587/15664	時間	纯平假名文本	3459/14036	とき
含汉字的特殊文本	151/205	幸せ	纯片假名文本	939/2078	ステージ
纯假名文本	19/50	カギ	含假名的特殊文本	64/116	イー、アル、サン
其他含英文字母和数字的文本	219/450	AM8:00	其他含汉字文本	37/51	無限大
特殊符号及其他	36/96	〇	其他含英文字母文本	104/184	mirage
总计	5012/16465		总计	4603/16465

（3）振假名及被标注文本出现频次：

分别统计不同被标注文本和振假名的出现频次，绘制频次分布直方图如图1所示。可见绝大多数被标注文本和振假名出现频次均较低。在少数频次较高的当中，按频次排序的前20名表3所示。可见和张小蕊（2018）^[^3]的研究相比，虽然排名有所波动，但总体重合度较高。统计结果也印证了张小蕊提到的高频被标注文本和振假名集中于与时间相关的概念上的结论。事实上，可以发现这些高频用例中被标注文本和振假名之间多相互对应，并且其中振假名的内容往往并非被标注文本的常规读音，比如“運命”在歌词中常常读作“さだめ”，尽管后者实际上来源于另一个词“定め”。


被标注文本	振假名

图1 被标注文本和振假名的频次直方图（注：为了便于观察，纵轴采用了对数变换。）

表3 出现频次最高的前20个被标注文本和振假名

排名	被标注文本	频次	振假名	频次
1	時間	318	とき	732
2	明日	296	ひと	382
3	瞬間	243	あす	273
4	運命	229	さだめ	236
5	未来	216	とわ	217
6	瞳	192	め	207
7	永遠	185	そら	203
8	宇宙	145	いま	179
9	理由	132	あした	176
10	女	128	ほし	145
11	現在	120	いのち	131
12	故郷	109	わけ	119
13	他人	106	こ	108
14	生命	100	ゆ	108
15	地球	97	まち	103
16	時代	96	ひ	96
17	娘	93	うた	88
18	愛	92	ゆめ	75
19	灯	87	みち	72
20	真実	85	か	69

（4）振假名及被标注文本的长度：

分别统计不同被标注文本和振假名的长度（按字符数计），绘制频次分布直方图如图2所示。可见大多数被标注文本和振假名长度较短，这比较符合常规振假名常被用于标注个别字或词的读音的情况。在长度较长的文本当中，按长度排序的前20名如表4所示。可见，长度较长的文本多对应对较长的句子或短语整体进行振假名的标注的情况。这同样反映着歌词振假名的一种特殊用法。


被标注文本	振假名

图2 被标注文本和振假名的长度直方图（注：为了便于观察，纵轴采用了对数变换。）

表4 长度最长的前20个被标注文本和振假名

排名	被标注文本	长度	振假名	长度
1	CHANTEZ TOUTZ MONDE CHANTEZ	27	Random and Order,A Winner Lovers and Power	42
2	cha mu-cha mu-cha mu-cha	24	Rouge and Noir, A Winner Gold and King	38
3	Ding！Dong！Ding！Dong！	20	CONNECT TO ARCHIVE	18
4	tick-tack tick-tack	19	おんなころしあぶらのじごくじょうるり	18
5	kaleid/friendship	17	eight - oh - five	17
6	CHANTEZ AVEC MOI	16	twenty-four/seven	17
7	Pas de deux noir	16	カコプラスイマカケルミライ	17
8	kaleid/festival	15	いちおくさんぜんまんぶんのふたり	16
9	Buono pescatore	15	ひじゅつがあればだいじょうぶ	16
10	Engagement Ring	15	シャンテトゥモンシャンテ	15
11	自由と道理勝者には欲望と権力	15	ナインティーンナインティナイン	15
12	Ti voglio bene	14	ワンツースリーフォーファイブ	14
13	FRIENDS ENERGY	14	My shinography	14
14	Uno, dos, tres	14	Haneda Airport	14
15	virtual world	13	チャムチャムチャムチャ	14
16	Anima gemeila	13	Shooting Star	13
17	demonstration	13	おおえどはっぴゃくやちょう	13
18	赤と黒勝者には黄金と玉座	13	わったーうちなーうみんちゅ	13
19	Rock'n'Roll.	12	わったーうちなーしまんちゅ	13
20	2人/130000000	12	リクツかけるチョクジョウは	13

（5）振假名及被标注文本出现年份：

以振假名对应歌曲的发售时间作为这些歌曲的年份对歌曲中的振假名总数进行统计，可绘制如图3 (a)所示的折线图。由图可知，使用各年度歌曲中使用的振假名的总个数随时间推移有上升趋势。考虑到数据库中年代较近的歌曲数量较多，此处考察了各年度含振假名的歌曲中振假名平均个数的变化，结果如图3 (b)所示。可知，从1982年到2022年，使用振假名的歌曲中振假名使用数量总体上呈上升的趋势。也就是说，可以认为作词人越来越喜欢在歌词中使用振假名。


(a)	(b)

图3 歌曲中振假名数量随时间的变化（注：图(a)显示了各年份歌曲中振假名总个数的变化；图(b)显示了个各年度含振假名的歌曲中振假名平均个数的变化。由于数据收集于2023年4月，可以认为2023年对应的数据量不足，无法反映该年度的真实情况，因此图中排除了2023年的结果，实际年份范围是1982年到2022年。）

2. 对被标注文本和振假名间语义对应关系的总体考察

由1中的分析可知，歌词中的振假名与被标注词间的对应关系已经不局限于语义上完全等同的标音关系。因此，该部分尝试对二者语义上的对应关系进行更为全面的考察。

张小蕊（2018）^[^3]把日文歌词中的假借字（振假名）与读音词（被标注文本）间的语义相关性分成了“意义换言”“意义扩大/缩小”和“派生义”3小类。据此，本文将被标注文本和振假名间的对应关系分为意义完全一致的等价关系（主要包括一般的标音关系）、意义基本一致的换言关系、意义扩大的上位关系、意义缩小的下位关系以及意义无明显关联的派生关系。

为了对被标注文本和振假名的组合间的对应关系进行考察，此处首先通过对表3中展示的最高频的20个被标注文本对应的所有组合的关系类型进行了统计，以期借此认识歌词振假名语义对应的普遍规律。统计得到的频次如表5所示。可以发现，这些组合中严格实现“标音”功能的等价关系占比较少，这可能与这些高频被标注文本本身较为常用，无需标音有关，因此总体上等价关系的比例应该更高。对应特殊用法的非等价关系的比例显著较高，其中派生用法占到半数以上，换言的频率次之，上下位关系最少。

表5 最高频的20个被标注文本对应组合的关系类型

关系类型	数量	比例	示例
等价	39	17.57%	明日(あした)
换言	49	22.07%	宇宙(コスモス)
上位	20	9.01%	女(ひと)
下位	17	7.66%	未来(あす)
派生	97	43.69%	地球(ウタ)

其中，对于等价关系，虽然其系完全对等的“标音”关系，但当中仍然普遍存在同一被标注文本对应多种振假名的情况。这主要分几种情况：1. 同一被标注文本对应读音不同的多个词，如“愛”不仅对应“あい”，还对应“愛でる”的“め”、“愛しい”的“いと”或“かな”。同一被标注文本对应同一个词，但该词有多种读音，如“明日”对应的振假名中有常见读音“あす”“あした”以及方言读音“あつぁ”“あちゃ”。3. 同一被标注文本对应一个词的一种读音，但对应振假名写法不同，如“運命”对应“うんめい”“ウンメイ”。当然，若把考察范围扩展到所有的被标注文本–振假名组合，如“Tonight(トゥナイト)”这类用假名转写外文词的情况，以及如“ステージ(場所)”这类“颠倒”的标音关系也可归入等价关系。

对于换言关系，其可大致分为两类：1. 一般的近义词，如“瞳”对应“め”。2. 汉语、和语、外来语之间的互换，其中被标注汉语词对应振假名和语词或外来语的情况较为常见，如“時間”对应“とき”“タイム”。需要注意的是，由于没有统一、公认的标准判断两个表述是同义还是近义，换言和等价关系之间的界限在语义上比较模糊，因此这里仅把等价关系处理为“有广泛接受的标音关系”的表述之间的关系。因此，若扩展考察范围至所有的组合，诸如“赤と黒勝者には黄金と玉座(Rouge and Noir, A Winner Gold and King)”这样的原文与译文间的关系以及“×(かける)”这样的符号与含义间的关系也被归入换言关系。

对于上位和下位关系，前者如“女(ひと)”，即将“女子”的概念扩大为“人”；后者如“未来(あす)”，即将“未来”的概念缩小至“明天”。同样，由于表述的多义性以及模糊性，上下位关系有时与换言等关系也难以界定，如“瞬間(とき)”，因此难以避免一定的主观性。

对于派生关系，这类关系较为庞杂，实际上包含了各种低相关度的关系，例如：1. 隐喻如“運命(いと)”“宇宙(うみ)”。2. 特指如“故郷(ここ)”。其不同于上下位关系，仅在歌词语境中是有效的。3. 双关如“愛(I)”。4. 反义或讽刺如“真実(ウソ)”。

3. 对被标注文本和振假名间特殊类型对应关系的考察

（1）“惯例性”非常规对应：

4.1中对被标注文本和振假名的出现频次的分析的部分已经提及了如“運命(さだめ)”这样的“惯例性”非常规对应。而4.2中统计得到的换言关系中，这种“惯例性”对应同样占有相当的比例。因此，有必要对这类对应出现的理由进行讨论。

可以发现，常见“惯例性”非常规对应中振假名的音拍数较常规读音更少，且对应中多数被标注的词为汉字词，其较振假名在给人的感受上更为正式、书面、高雅。因此可以有如下猜想：1. 歌词中需要使用对应汉字代表的含义，但由于歌曲节拍的限制，需要缩减音拍数，因此只能用含义相似而音拍数更短的词代替。2. 歌词本可以直接使用振假名对应的词，但为了追求汉字正式、高雅等的“字感”而进行了转写。当然，考虑到“惯例性”非常规对应较高的出现频率，可以认为即使不刻意追求上述效果，其在歌词中的运用仍有较高优先级，也即这种对应已经在一定程度上演变成了固定的组合。

（2）对特殊文字类型的考察：

该部分主要基于表2的统计结果，对属于其中非常规文字类型的被标注假名–振假名组合进行考察。

对于被标注文本属于含汉字的特殊文本的组合，可以发现其中被标注文本中的非汉字成分主要包括送假名或表示助词的假名（如“切り札”“知恵の輪”）、数字（如“1片”）、标点符号（如“一、二、三”）。和特殊符号（如“過去＋今×未来”）。可以发现，这些组合中属于等价关系的比例较被标注文本为纯汉字的类更小，这也许是由于文本中的非汉字成分通常并不是振假名的标音对象，因此需要标音时倾向于选择单独为其中的汉字而非给整个文本标音。

对于被标注文本属于纯假名文本的组合，可以发现其中纯粹的等价关系仅“ミっつ(3つ)”1例，这可能是由于假名本身即可显示其发音，因此不必使用振假名注音。其中的换言和派生关系多数与被标注文本为汉字的并无过多区别，这种情况下被标注的假名多数为对应表达的常规书写形式，如“ミネルヴァ”“キャンバス”等。值得注意的是该类组合中振假名为汉字或英文字母的组合占比较大，如“ステージ(場所)”“ミネルヴァ(Minerva)”，可以推测这可能与片假名被标注文本与汉字或字母振假名在视觉上更能形成对比的“字感”相关。

对于被标注文本属于其他含英文字母和数字文本的组合，可以发现其中振假名发挥标音功能的等价关系组合较为常见。其中，对于表示外文单词、短语或句子的被标注文本，这种等价关系体现在对外语内容发音的“日语化”转写上（如“X(エックス)”“Pas de deux noir(パドウドウノアール)”），也因此对应振假名多为片假名；对于数字被标注文本，对应振假名常常显示出该数字的不同读法（如固有读音“2(ふた)”、汉字读音“1(いち)”、外来语读音“3(スリー)”），这可能与日语中数字读法众多有关。

对于被标注文本属于特殊符号及其他的组合，可以发现除了少数被归入此类的由非英文字母组成的外文内容（如“один”）之外，其振假名多表示对应符号的意义。这些意义也不局限于符号的基本含义（如“+(プラス)”，体现换言关系），还可以引申到符号对人感情的体现或者符号本身形象的类比等方面（如“♡(いいね)”，体现派生关系）。值得注意的是，标有振假名的特殊符号多数在歌词中起到替代具有实际意义的词语的作用，而在歌词中使用符号而非对应含义的文字也许和符号本身的形象带来的“字感”有关。

对于振假名的特殊文字类型，考虑到振假名的主要功能是表示发音，可以认为是一种在“字感”上起作用的特殊用法。因此，该部分仅作概述，详细的分析见4.4中的分析。振假名为纯片假名的情况较多，其中不少系常规书写形式就是片假名写的（如“鈴(ベル)”“米国(アメリカ)”这样的外来语），也有相当一部分属于可以写成平假名的情况（如“瞬間(トキ)”“男(ヒト)”）。其他含假名的振假名总体与前一类相差不大，多数为附加标点符号的情况（如“月光淑女(ムーン・ビーナス)”），但也有表现形式更自由的（如“Take HEART(テイクはあと)”这样的平、片假名混合式等）。汉字振假名的例子较少，属于比较特殊的用法，可以认为有赋予振假名以汉字“字感”的作用，但也包括如“音(恩)”“I(愛)”的双关式用法。后者由于被标注文本和振假名发音相同，若写成平假名则难以体现双关。英文字母振假名可以认为分担了片假名的作用，但“字感”上与之稍有不同。

4. 振假名的“字感”考察：

王勇（1992）^[^2]的研究中着重论述了振假名的不同形式带来的“字感”差异，也即文字类型的不同给人带来的视觉感受的差异。其中平假名、片假名、汉字的“字感”差异如表6所示。歌词的文字类型中除此之外还有英文字母和数字以及特殊符号，这些不同的文字类型可以带来不同的“字感”。

表6 不同文字类型的典型“字感”

	正面	负面
汉字	格调高、权威、悦耳、有力、可靠	生硬、严肃、沉重、做作
平假名	柔软、亲切、易懂、美、生动、优雅、流畅	俗气、娘、软弱
片假名	新鲜、新奇、显眼	陌生、洋里洋气

按照“字感”的凸显方式，歌词中被标注文本–振假名组合可大致分为3类：

（1）追求被标注文本的“字感”：这一类中，振假名作为本意存在，但作词人为了追求“字感”上的效果而用另外的被标注文本替代。如上文提到的“惯例性”振假名用法中的一些例子可以体现汉字书面、正式、高雅的“字感”。当然，“惯例性”用法中的文本替换带来的感受变化也可以说是由常用的和语词转换为书面、文雅的汉语词带来的，但和语词和汉语词之间的感受差异同样有“字感”作用的体现，并且如“わけ”这种常以假名书写的和语词作为振假名更能直接体现汉字与假名间“字感”的差异。其他的例子如“♡(いいね)”，用符号代替“いいね”，可能因为“♡”是部分社交平台上点赞的符号，用该符号表示“点赞”比起单纯的文字更有指向性。

（2）追求振假名的“字感”：这一类中，振假名并不以平假名或常规的写法出现，其文字类型根据所需的“字感”有所改变。如“恋(ユメ)”用片假名可能是为了利用片假名显眼的“字感”，起强调恋爱作为“梦想”的作用；“営業(脅迫)”用沉重有力的汉字书写更能体现“营业”的“胁迫”感；“宇宙(こすも)”用平假名而非外来语常用的片假名书写可以强调歌曲中“宇宙”的亲切感，从而避免歌词读者将其与“黑暗”“虚无”等“宇宙”的惯常负面特征联系起来；“円(￥えん)”在用平假名标注的读音旁又标注了表示日元的符号，可以认为是在追求特殊符号形象化、易理解的“字感”。

（3）追求被标注文本和振假名间“字感”的对比：这一类常见的用法是通过不同文字类型的文本间“字感”的对比、碰撞，带来视觉上的冲击力。比如前文提到的“ステージ(場所)”“ミネルヴァ(Minerva)”，由于被标注文本以片假名书写，若振假名再以假名书写则不容易加以区分，以汉字或字母书写则更加显眼，视觉上对比效果明显。

总结与讨论

本文利用数字人文方法，以数据获取、数据处理、数据分析为主要步骤，对日文歌词中振假名的特征、类型、用法等进行了全面的总结和分析。本研究的特色一是在于针对日文歌词振假名进行了全面详尽的探讨，填补了这方面研究相对的空白，二是在于采用了数字人文方法对大量数据进行定性、定量相结合的统计分析，得出的结论更全面、更可靠。

当然，本研究仍然存在一些值得改进的部分。比如，由于歌曲BK等资源难以获取，筛选振假名时大多只能根据歌曲的演唱内容判断其真伪，这在一定程度上限制了振假名数据的准确性。再如，考察语义关系和“字感”等方面时判断较为主观，且结论多为猜想。为此，在今后的研究中，一方面可以尝试利用或者构建更准确的日文歌词振假名数据库（比如使用HTML标签标记振假名的数据库），另一方面可以在分析部分通过更多定量的统计对提出的猜想加以补充。

参考文献

[1] Richard Ishida. Ruby Markup[EB/OL]. (2016-06-14)[2023-06-02]. https://www.w3.org/
International/articles/ruby/markup.en.html.

[2] 王勇. 振仮名(ふりがな)(ルビ)と文字論--文化的な視点より[J]. 神奈川大学言語研究, 1992, 15: 153-176.

[3] 张小蕊. 关于现代日语中假借字的考察——以流行音乐中的歌词为研究对象[J]. 高等日语教育, 2018(02): 109-124+170.