es_FONIPA_zh.txt (12084B)
1 # © 2016 and later: Unicode, Inc. and others. 2 # License & terms of use: http://www.unicode.org/copyright.html 3 # Generated using tools/cldr/cldr-to-icu/ 4 # 5 # File: es_FONIPA_zh.txt 6 # Generated from CLDR 7 # 8 9 # Transforms Spanish to Mandarin Chinese. The input Spanish string must be in 10 # phonemic IPA transcription (es_FONIPA); the output is in Simplified Chinese. 11 $word_boundary = [-\ $]; 12 $vowel = [aeijouw]; # Vowels and glides 13 $not_vowel = [^$vowel]; 14 # First pass: Collapse phonetic distinctions not preserved in Mandarin. 15 ð → | d; 16 ɣ → | g; 17 ŋ → | n; 18 θ → | s; 19 ɾ → | r; 20 ff → f ; 21 kk → k ; 22 mm → m ; 23 nn → n ; 24 pp → p ; 25 tt → t ; 26 tʧ → ʧ ; 27 aa → a ; 28 oi\u032F → oi ; 29 oo → o ; 30 uu → u ; 31 [^dgktx] { ei\u032F → e ; 32 [^-\ .$] { eu\u032F → eu ; 33 [^-\ .$] { ou\u032F → o; 34 [^j] { ui → wi ; 35 [^$word_boundary] { m } [bp] → n; # GB/T 17693.5-2009, 5.3.2 36 s[θs] → s; # GB/T 17693.5-2009, 5.3.4 37 [^ʧ] { jo → io; # GB/T 17693.5-2009 表 1, 注 7 38 ::Null; 39 j } an $not_vowel → i ; # GB/T 17693.5-2009 表 1, 注 8 40 # GB/T 17693.5-2009 表 1, 注 8 also says that <uai> should be treated as if 41 # it was <u> plus <ai>. This is not borne out by the observed data, which 42 # suggests that <ua> plus <i> is the more appropriate choice in some 43 # situations. 44 [g.$] { wai\u032F → wai ; 45 wai\u032F → uai\u032F ; 46 [g.$] { wau\u032F → wau ; 47 wau\u032F → uau\u032F ; 48 jau\u032F → iau\u032F ; 49 # Even though "ao" is not a diphthong in Spanish, Mandarin treats it as one. 50 [^jw] { ao } [^n] → au\u032F ; 51 [^jw] { ao } n $vowel → au\u032F ; 52 # Main pass: Phoneme to Hanzi conversion. 53 # This generally follows GB/T 17693.5-2009 表 1, unless otherwise noted. 54 ::Null; 55 '.' → ; 56 ai\u032F → 艾 ; 57 an } $not_vowel → 安 ; 58 au\u032F → 奥 ; 59 a → 阿 ; 60 bai\u032F → 拜 ; 61 ban } $not_vowel → 班 ; 62 bau\u032F → 包 ; 63 ba → 巴 ; 64 ben } $not_vowel → 本 ; 65 be → 贝 ; 66 bin } $not_vowel → 宾 ; 67 bi → 比 ; 68 bja → 比亚 ; 69 bjen } $not_vowel → 比恩 ; 70 bje → 别 ; 71 bju → 比乌 ; 72 bon } $not_vowel → 邦 ; 73 bo → 博 ; 74 bun } $not_vowel → 本 ; 75 bu → 布 ; 76 bwan } $not_vowel → 布安 ; 77 bwa → 布阿 ; 78 bwen } $not_vowel → 布恩 ; # Should be be 本, per GB/T 17693.5-2009 表 1. 79 bwe → 布埃 ; 80 bwin } $not_vowel → 布因 ; # Nonstandard, but fits observed data. 81 bwi → 布伊 ; 82 bwo → 博 ; 83 b → 布 ; 84 βai\u032F → 瓦伊 ; 85 βan } $not_vowel → 万 ; 86 βau\u032F → 沃 ; 87 βa → 瓦 ; 88 βen } $not_vowel → 文 ; 89 βe → 韦 ; 90 βin } $not_vowel → 温 ; 91 βi → 维 ; 92 βja → 维亚 ; 93 βjen } $not_vowel → 维恩 ; 94 βje → 维耶 ; 95 βju → 维乌 ; 96 βon } $not_vowel → 翁 ; 97 βo → 沃 ; 98 βun } $not_vowel → 文 ; 99 βu → 武 ; 100 βwan } $not_vowel → 万 ; 101 βwa → 瓦 ; 102 βwen } $not_vowel → 文 ; 103 βwe → 武埃 ; 104 βwi → 维 ; 105 βwo → 沃 ; 106 β → 夫 ; 107 dai\u032F → 代 ; 108 dan } $not_vowel → 丹 ; 109 dau\u032F → 道 ; 110 da → 达 ; 111 dei\u032F → 代 ; 112 den } $not_vowel → 登 ; 113 de → 德 ; 114 din } $not_vowel → 丁 ; 115 di → 迪 ; 116 dja → 迪亚 ; 117 djen } $not_vowel → 迪恩 ; 118 dje → 迭 ; 119 dju → 迪乌 ; 120 don } $not_vowel → 东 ; 121 do → 多 ; 122 dun } $not_vowel → 敦 ; 123 du → 杜 ; 124 dwan } $not_vowel → 端 ; 125 dwa → 杜阿 ; 126 dwen } $not_vowel → 敦 ; 127 dwe → 杜埃 ; 128 dwi → 杜伊 ; 129 dwo → 多 ; 130 d } $word_boundary → ; 131 d → 德 ; 132 ei\u032F → 埃 ; 133 en } $not_vowel → 恩 ; 134 eu\u032F → 欧 ; 135 e → 埃 ; 136 fai\u032F → 法伊 ; 137 fan } $not_vowel → 凡 ; 138 fau\u032F → 福 ; 139 fa → 法 ; 140 fe → 费 ; 141 fin } $not_vowel → 芬 ; 142 fi → 菲 ; 143 fja → 菲亚 ; 144 fjen } $not_vowel → 菲恩 ; 145 fje → 菲耶 ; 146 fju → 菲乌 ; 147 fon } $not_vowel → 丰 ; 148 fo → 福 ; 149 fun } $not_vowel → 丰 ; 150 fu → 富 ; 151 fwan } $not_vowel → 富安 ; 152 fwa → 富阿 ; 153 fwen } $not_vowel → 丰 ; 154 fwe → 富埃 ; 155 fwi → 富伊 ; 156 fwo → 福 ; 157 # The choice of 弗 vs. 夫 sounds simple according to the GB/T standard, but the 158 # data suggest otherwise. Ideally, 弗 should occur at the beginning of a 159 # morpheme (e.g. in "villafranca" 比利亚弗兰卡) and 夫 everywhere else. Since 160 # we don't have morpheme boundaries, we'll fudge it by writing 夫 at the end of 161 # a word and 弗 everywhere else. 162 f } $word_boundary → 夫 ; 163 f → 弗 ; 164 gai\u032F → 盖 ; 165 gan } $not_vowel → 甘 ; 166 gau\u032F → 高 ; 167 ga → 加 ; 168 gei\u032F → 盖 ; 169 gen } $not_vowel → 根 ; 170 ge → 格 ; 171 gin } $not_vowel → 金 ; 172 gi → 吉 ; 173 gja → 吉亚 ; 174 gjen } $not_vowel → 吉恩 ; 175 gje → 吉耶 ; 176 gju → 吉乌 ; 177 gon } $not_vowel → 贡 ; 178 go → 戈 ; 179 gun } $not_vowel → 贡 ; 180 gu → 古 ; 181 gwan } [$] → 古安 ; # Nonstandard, but fits observed data. 182 gwan } $not_vowel → 关 ; 183 gwa → 瓜 ; 184 gwen } $not_vowel → 古恩 ; 185 gwe → 圭 ; 186 gwi → 圭 ; 187 gwo → 果 ; 188 g → 格 ; 189 in } $not_vowel → 因 ; 190 i → 伊 ; 191 ʝai\u032F → 亚伊 ; 192 ʝan } $not_vowel → 扬 ; 193 ʝau\u032F → 尧 ; 194 ʝa → 亚 ; 195 ʝen } $not_vowel → 延 ; 196 ʝe → 耶 ; 197 ʝin } $not_vowel → 因 ; 198 ʝi → 伊 ; 199 ʝon } $not_vowel → 永 ; 200 ʝo → 约 ; 201 ʝun } $not_vowel → 云 ; 202 ʝu → 尤 ; 203 ʝwan } $not_vowel → 元 ; 204 ʝwa → 尤阿 ; 205 ʝwen } $not_vowel → 云 ; 206 ʝwe → 尤埃 ; 207 ʝwi → 尤伊 ; 208 ʝwo → 约 ; 209 ʝ → 伊 ; 210 kai\u032F → 凯 ; 211 kan } $not_vowel → 坎 ; 212 kau\u032F → 考 ; 213 ka → 卡 ; 214 kei\u032F → 凯 ; 215 ken } $not_vowel → 肯 ; 216 ke → 克 ; 217 kin } $not_vowel → 金 ; 218 ki → 基 ; 219 kja → 基亚 ; 220 kjen } $not_vowel → 基恩 ; 221 kje → 基耶 ; 222 kju → 基乌 ; 223 kon } $not_vowel → 孔 ; 224 ko → 科 ; 225 kun } $not_vowel → 昆 ; 226 ku → 库 ; 227 kwan } $not_vowel → 宽 ; 228 kwa → 夸 ; 229 kwen } $not_vowel → 昆 ; 230 kwe → 库埃 ; 231 kwin } $not_vowel → 昆 ; 232 kwi → 奎 ; 233 kwo → 阔 ; 234 k → 克 ; 235 lae } [^n] → 莱 ; 236 lai\u032F → 莱 ; 237 lan } $not_vowel → 兰 ; 238 lau\u032F → 劳 ; 239 la → 拉 ; 240 len } $not_vowel → 伦 ; 241 le → 莱 ; 242 lin } $not_vowel → 林 ; 243 li → 利 ; 244 lja → 利亚 ; 245 ljen } $not_vowel → 连 ; 246 lje → 列 ; 247 lju → 柳 ; 248 lon } $not_vowel → 隆 ; 249 lo → 洛 ; 250 lun } $not_vowel → 伦 ; 251 lu → 卢 ; 252 lwan } $not_vowel → 卢安 ; 253 lwa → 卢阿 ; 254 lwen } $not_vowel → 伦 ; 255 lwe → 卢埃 ; 256 lwi → 卢伊 ; 257 lwo → 洛 ; 258 l → 尔 ; 259 ʎan } $not_vowel → 良 ; 260 ʎau\u032F → 廖 ; 261 ʎa → 利亚 ; 262 ʎen } $not_vowel → 连 ; 263 ʎe → 列 ; 264 ʎin } $not_vowel → 林 ; 265 ʎi → 利 ; 266 ʎon } $not_vowel → 利翁 ; 267 ʎo → 略 ; 268 ʎu → 柳 ; 269 ʎwan } $not_vowel → 柳安 ; 270 ʎwa → 柳阿 ; 271 ʎwen } $not_vowel → 柳恩 ; 272 ʎwe → 柳埃 ; 273 ʎwi → 柳伊 ; 274 ʎwo → 略 ; 275 ʎ → 尔 ; 276 mai\u032F → 迈 ; 277 man } $not_vowel → 曼 ; 278 martin → 马丁 ; 279 mau\u032F → 毛 ; 280 ma → 马 ; 281 men } $not_vowel → 门 ; 282 me → 梅 ; 283 min } $not_vowel → 明 ; 284 mi → 米 ; 285 mja → 米亚 ; 286 mjen } $not_vowel → 缅 ; 287 mje → 米耶 ; 288 mju → 缪 ; 289 mon } $not_vowel → 蒙 ; 290 mo → 莫 ; 291 mun } $not_vowel → 蒙 ; 292 mu → 穆 ; 293 mwan } $not_vowel → 穆安 ; 294 mwa → 穆阿 ; 295 mwen } $not_vowel → 门 ; 296 mwe → 穆埃 ; 297 mwin } $not_vowel → 穆因 ; # Nonstandard, but fits observed data. 298 mwi → 穆伊 ; 299 mwo → 莫 ; 300 m → 姆 ; 301 nai\u032F → 奈 ; 302 nan } $not_vowel → 南 ; 303 nau\u032F → 瑙 ; 304 na → 纳 ; 305 nen } $not_vowel → 嫩 ; 306 ne → 内 ; 307 nin } $not_vowel → 宁 ; 308 ni → 尼 ; 309 nja → 尼亚 ; 310 njen } $not_vowel → 年 ; 311 nje → 涅 ; 312 nju → 纽 ; 313 non } $not_vowel → 农 ; 314 no → 诺 ; 315 nun } $not_vowel → 嫩 ; 316 nu → 努 ; 317 nwan } $not_vowel → 努安 ; 318 nwa → 努阿 ; 319 nwen } $not_vowel → 农 ; 320 nwe → 努埃 ; 321 nwi → 努伊 ; 322 nwo → 诺 ; 323 n → 恩 ; 324 ɲan } $not_vowel → 尼扬 ; 325 ɲau\u032F → 尼奥 ; 326 ɲa → 尼亚 ; 327 ɲen } $not_vowel → 年 ; 328 ɲe → 涅 ; 329 ɲin } $not_vowel → 宁 ; 330 ɲi → 尼 ; 331 ɲon } $not_vowel → 尼翁 ; 332 ɲo → 尼奥 ; 333 ɲu → 纽 ; 334 ɲwan } $not_vowel → 纽安 ; 335 ɲwa → 纽阿 ; 336 ɲwen } $not_vowel → 纽恩 ; 337 ɲwe → 纽埃 ; 338 ɲwi → 纽伊 ; 339 ɲwo → 尼奥 ; 340 on } $not_vowel → 翁 ; 341 ou\u032F → 欧 ; 342 o → 奥 ; 343 pai\u032F → 派 ; 344 pan } $not_vowel → 潘 ; 345 pau\u032F → 保 ; 346 pa → 帕 ; 347 pen } $not_vowel → 彭 ; 348 pe → 佩 ; 349 pin } $not_vowel → 平 ; 350 pi → 皮 ; 351 pja → 皮亚 ; 352 pjen } $not_vowel → 皮恩 ; 353 pje → 彼 ; 354 pju → 皮乌 ; 355 pon } $not_vowel → 蓬 ; 356 po → 波 ; 357 pun } $not_vowel → 蓬 ; 358 pu → 普 ; 359 pwan } $not_vowel → 普安 ; 360 pwa → 普阿 ; 361 pwen } $not_vowel → 蓬 ; 362 pwe → 普埃 ; 363 pwi → 普伊 ; 364 pwo → 波 ; 365 p → 普 ; 366 rai\u032F → 赖 ; 367 ran } $not_vowel → 兰 ; 368 rau\u032F → 劳 ; 369 ra → 拉 ; 370 ren } $not_vowel → 伦 ; 371 re → 雷 ; 372 rin } $not_vowel → 林 ; 373 ri → 里 ; 374 rja → 里亚 ; 375 rjen } $not_vowel → 连 ; 376 rje → 列 ; 377 rju → 留 ; 378 ron } $not_vowel → 龙 ; 379 ro → 罗 ; 380 run } $not_vowel → 伦 ; 381 ru → 鲁 ; 382 rwan } $not_vowel → 鲁安 ; 383 rwa → 鲁阿 ; 384 rwen } $not_vowel → 伦 ; 385 rwe → 鲁埃 ; 386 rwi → 鲁伊 ; 387 rwo → 罗 ; 388 r → R ; 389 sai\u032F → 赛 ; 390 san } $not_vowel → 桑 ; 391 sau\u032F → 绍 ; 392 sa → 萨 ; 393 sen } $not_vowel → 森 ; 394 se → 塞 ; 395 sin } $not_vowel → 辛 ; 396 si → 西 ; 397 sja → 西亚 ; 398 sjen } $not_vowel → 先 ; 399 sje → 谢 ; 400 sju → 休 ; 401 son } $not_vowel → 松 ; 402 so → 索 ; 403 sun } $not_vowel → 孙 ; 404 su → 苏 ; 405 swan } $not_vowel → 苏安 ; 406 swa → 苏阿 ; 407 swen } $not_vowel → 孙 ; 408 swe → 苏埃 ; 409 swi → 绥 ; 410 swo → 索 ; 411 s → 斯 ; 412 tai\u032F → 泰 ; 413 tan } $not_vowel → 坦 ; 414 tau\u032F → 陶 ; 415 ta → 塔 ; 416 tei\u032F → 泰 ; 417 ten } $not_vowel → 滕 ; 418 te → 特 ; 419 tin } $not_vowel → 廷 ; 420 ti → 蒂 ; 421 tja → 蒂亚 ; 422 tjen } $not_vowel → 蒂恩 ; 423 tje → 铁 ; 424 tju → 蒂乌 ; 425 ton } $not_vowel → 通 ; 426 to → 托 ; 427 # The rules for /ts/ (tz in the orthography) are nonstandard and derived 428 # entirely from the observed data. They apply mostly to native toponyms 429 # in Mexico. 430 tsa → 察 ; 431 tsen } $not_vowel → 岑 ; 432 tse → 采 ; 433 tsin } $not_vowel → 钦 ; 434 tsi → 齐 ; 435 tso → 措 ; 436 tsun } $not_vowel → 聪 ; 437 tsu → 楚 ; 438 ts → 茨 ; 439 tun } $not_vowel → 通 ; 440 tu → 图 ; 441 twan } $not_vowel → 图安 ; 442 twa → 图阿 ; 443 twen } $not_vowel → 通 ; 444 twe → 图埃 ; 445 twi → 图伊 ; 446 two → 托 ; 447 t → 特 ; 448 ʧai\u032F → 柴 ; 449 ʧan } $not_vowel → 钱 ; 450 ʧau\u032F → 乔 ; 451 ʧa → 查 ; 452 ʧen } $not_vowel → 琴 ; 453 ʧe → 切 ; 454 ʧin } $not_vowel → 钦 ; 455 ʧi → 奇 ; 456 ʧjan } $not_vowel → 钱 ; 457 ʧja → 恰 ; 458 ʧjen } $not_vowel → 钱 ; 459 ʧje → 切 ; 460 ʧjon } $not_vowel → 琼 ; 461 ʧju → 丘 ; 462 ʧon } $not_vowel → 琼 ; 463 ʧo → 乔 ; 464 ʧun } $not_vowel → 琼 ; # Should be 春, per GB/T 17693.5-2009 表 1. 465 ʧu → 丘 ; 466 ʧwan } $not_vowel → 丘安 ; 467 ʧwa → 丘阿 ; 468 ʧwen } $not_vowel → 琼 ; 469 ʧwe → 丘埃 ; 470 ʧwi → 崔 ; 471 ʧwo → 乔 ; 472 ʧ → 奇 ; 473 un } $not_vowel → 温 ; 474 u → 乌 ; 475 wan } $not_vowel → 万 ; 476 wa → 瓦 ; 477 wen } $not_vowel → 温 ; 478 we → 韦 ; 479 win } $not_vowel → 温 ; 480 wi → 维 ; 481 won } $not_vowel → 翁 ; # Unseen. 482 wo → 沃 ; 483 xai\u032F → 海 ; 484 xan } $not_vowel → 汉 ; 485 xau\u032F → 豪 ; 486 xa → 哈 ; 487 xei\u032F → 黑 ; 488 xen } $not_vowel → 亨 ; 489 xe → 赫 ; 490 xin } $not_vowel → 欣 ; 491 xi → 希 ; 492 xja → 希亚 ; 493 xjen } $not_vowel → 希恩 ; 494 xje → 希耶 ; 495 xju → 休 ; 496 xon } $not_vowel → 洪 ; 497 xo → 霍 ; 498 xun } $not_vowel → 洪 ; 499 xu → 胡 ; 500 xwan } $not_vowel → 胡安 ; 501 xwa → 华 ; 502 xwen } $not_vowel → 洪 ; 503 xwe → 胡埃 ; 504 xwi → 惠 ; 505 xwo → 霍 ; 506 x → 赫 ; 507 # 尔 simplification pass. The idea is to drop most occurrences of 尔 508 # corresponding to <r> (not to <l> or <ll>) from a word if there is another /l/ 509 # sound nearby. There is a vague pattern like this in the data, but the details 510 # remain to be determined. At the moment, this does nothing, it just puts 尔 in 511 # for every <r> in a syllable coda. 512 ::Null; 513 $r = [R利拉]; 514 # 515 # 516 # R } . $r → ; 517 # R } .. $r → ; 518 # R } ... $r → ; 519 # R } .... $r → ; 520 R → 尔 ; 521 # Dong-nan-xi-hai pass. Per GB/T 17693.5-2009 表 1, 注 4, replace confusing 522 # characters at the beginning and end of a word. 523 ::Null; 524 $word_boundary { 东 → 栋 ; 525 $word_boundary { 南 → 楠 ; 526 $word_boundary { 西 → 锡 ; 527 海 } $word_boundary → 亥 ; 528 ::NFC;