tor-browser

The Tor Browser
git clone https://git.dasho.dev/tor-browser.git
Log | Files | Refs | README | LICENSE

rbbitst.txt (157397B)


      1 # Copyright (C) 2016 and later: Unicode, Inc. and others.
      2 # License & terms of use: http://www.unicode.org/copyright.html
      3 # Copyright (c) 2001-2016 International Business Machines
      4 # Corporation and others. All Rights Reserved.
      5 #
      6 # RBBI Test Data
      7 #
      8 #   File:  rbbitst.txt
      9 #
     10 #     The format of this file looks vaguely like some kind of xml-ish markup,
     11 #     but it is NOT.  The syntax is this..
     12 #
     13 #   <word>    any following data is for word break testing
     14 #   <sent>    any following data is for sentence break testing
     15 #   <line>    any following data is for line break testing
     16 #   <char>    any following data is for char break testing
     17 #   <title>   any following data is for title break testing
     18 #   <rules> rules ... </rules>  following data is tested against these rules.
     19 #                               Applies until a following occurrence of <word>, <sent>, etc. or another <rules>
     20 #   <locale locale_name>  Switch to the named locale at the next occurrence of <word>, <sent>, etc.
     21 #   <data> ... </data>   test data.  May span multiple lines.
     22 #      <>        Break position, status == 0
     23 #      •         Break position, status == 0   (Bullet, \u2022)
     24 #      <nnn>     Break position, status == nnn
     25 #      \         Escape.  Normal ICU unescape applied.
     26 #      \ at end of line  ->  Line Continuation.  Remove both the backslash and the new line
     27 #
     28 # In ICU4C, this test data is run by intltest, rbbi/RBBITest/TestExtended.
     29 # In ICU4J, this test data is run by com.ibm.icu.dev.test.rbbi.RBBITestExtended
     30 #
     31 # There are two copies of this file in the source repository,
     32 #   [ICU4C]   source/test/testdata/rbbitst.txt
     33 #   [ICU4J]   main/core/src/test/resources/com/ibm/icu/dev/test/rbbi/rbbitst.txt
     34 #
     35 # ICU4C's copy is the primary one.  If any changes are made to ICU4J's copy, make sure they
     36 #  are merged back into ICU4C's copy of the file, lest they get overwritten later.
     37 # TODO:  figure out how to have a single copy of the file for use by both C and Java.
     38 
     39 
     40 #   Temp debugging tests
     41 #
     42 <word>
     43 <data>•
     44 •</data>
     45 
     46 ## FILTERED BREAK TESTS
     47 
     48 # (William Bradford, public domain. http://catalog.hathitrust.org/Record/008651224 ) - edited.
     49 <locale en>
     50 <sent>
     51 <data>\
     52 •In the meantime Mr. •Weston arrived with his small ship, which he had now recovered. •Capt. •Gorges, who informed the Sgt. here that one purpose of his going east was to meet with Mr. •Weston, took this opportunity to call him to account for some abuses he had to lay to his charge.•</data>
     53 
     54 <locale en@ss=standard>
     55 <sent>
     56 <data>\
     57 •In the meantime Mr. Weston arrived with his small ship, which he had now recovered. •Capt. Gorges, who informed the Sgt. here that one purpose of his going east was to meet with Mr. Weston, took this opportunity to call him to account for some abuses he had to lay to his charge.•</data>
     58 
     59 # This hits the case where "D." would match the end of "Ph.D.".
     60 <locale en@ss=standard>
     61 <sent>
     62 <data>\
     63 •Doctor with a D. •As in, Ph.D., you know.•</data>
     64 
     65 # ICU-21459 logic error.
     66 <locale en@ss=standard>
     67 <sent>
     68 <data>•on. •But after a day in the arena sun, the metal feels hot enough to blister my hands.•</data>
     69 
     70 # same as root (unless some exceptions are added!)
     71 <locale tfg@ss=standard>
     72 <sent>
     73 <data>\
     74 •In the meantime Mr. •Weston arrived with his small ship, which he had now recovered. •Capt. •Gorges, who informed the Sgt. here that one purpose of his going east was to meet with Mr. •Weston, took this opportunity to call him to account for some abuses he had to lay to his charge.•</data>
     75 
     76 # same as root (unless some exceptions are added!)
     77 <locale ja@ss=standard>
     78 <sent>
     79 <data>\
     80 •In the meantime Mr. •Weston arrived with his small ship, which he had now recovered. •Capt. •Gorges, who informed the Sgt. here that one purpose of his going east was to meet with Mr. •Weston, took this opportunity to call him to account for some abuses he had to lay to his charge.•</data>
     81 
     82 ## END FILTERED BREAK TESTS
     83 
     84 
     85 ########################################################################################
     86 #
     87 #
     88 #       G r a p h e m e    C l u s t e r     T e s t s
     89 #
     90 #
     91 ##########################################################################################
     92 <char>
     93 
     94 <data>•a•b•c• •,•\u0666•</data>                 # Quick Test
     95 <data>•\r•\r•\r\n•\r\n•\n•\r•</data>            # don't break CR/LF
     96 
     97 # Always break after controls.  Combining chars don't combine with them.
     98 <data>•\u0003•\N{COMBINING GRAVE ACCENT}•\r•\N{COMBINING GRAVE ACCENT}•</data>
     99 <data>•\u0085•\N{COMBINING MACRON}•A\N{COMBINING MACRON}•</data>
    100 
    101 # Surrogates
    102 <data>•\U00011000•\U00010020•\U00010000\N{COMBINING MACRON}•</data>
    103 <data>•\ud800\udc00•\udbff\udfff•a•</data>
    104 
    105 # Extend (Combining chars) combine.
    106 <data>•A\N{COMBINING GRAVE ACCENT}•B•</data>
    107 <data>•\N{GREEK SMALL LETTER MU}\N{COMBINING LOW LINE}\N{COMBINING HORN}•</data>
    108 <data>•a\u0301•b\u0302•c\u0303•d\u0304•e\u0305•f\u0306•g\u0307•h\u0308•i\u0309•</data>
    109 
    110 <data>•a\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304\u0301\u0302\u0303\u0304•</data>
    111 
    112 # Don't break Hangul Syllables
    113 #   L : \u1100
    114 #   V : \u1161
    115 #   T : \u11A8
    116 #  LV : \uAC00
    117 # LVT : \uAC01
    118 
    119 <data>•\u1100\u1161\u11a8•\u1100\u1161\u11a8•</data>  #LVT
    120 <data>•\u1100\u1161•\u1100\u1161•</data>
    121 <data>•\u1100\u1161\u11a8•\u1161•\u1100•\u11a8•\u1161\u1161\u1161\u11a8•</data>
    122 <data>•\u1100\u1100\uac01•\u1100\uac01•\u1100\uac01\u0301•\uac01•</data>
    123 <data>•\u1100\u0301•\u1161\u11a8\u0301•\u11a8•</data>
    124 
    125 
    126 
    127 # Hindi combining chars.  (An old test)
    128 #   TODO:  Update these tests for Unicode 5.1 Extended Grapheme clusters
    129 #<data>•भ••ा•\u0930•\u0924• •\u0938\u0941\u0902•\u0926•\u0930•
    130 #•\u0939•\u094c•\u0964•</data>
    131 #<data>•\u0916\u0947•\u0938\u0941\u0902•\u0926•\u0930•\u0939•\u094c•\u0964•</data>
    132 
    133 
    134 #  Bug 1587.  Tamil.  \u0baa\u0bc1 is an Extended Grpaheme Cluster
    135 <data>•\u0baa\u0bc1•\u0baa\u0bc1•</data>
    136 
    137 #   Regression test for bug 1889
    138 <data>•\u0f40\u0f7d•\u0000•\u0f7e•</data>
    139 
    140 
    141 #     0xffff is a legal character, and should not stop the break iterator early.
    142 #     (Requires special casing in implementation, which is why it gets a test.)
    143 <data>•\uffff•\uffff• •a•</data>
    144 
    145 #  Treat Japanese Half Width voicing marks as combining
    146 <data>•A\uff9e•B\uff9f\uff9e\uff9f•C•</data>
    147 
    148 # Test data originally from Java BreakIteratorTest.TestCharcterBreak()
    149 <data>•S\u0300•i\u0317•m•p•l•e\u0301• •s•a\u0302•m•p•l•e\u0303•.•w•a\u0302•w•a•f•q•\n•\r•\r\n•\n•</data>
    150 
    151 ########################################################################################
    152 #
    153 #
    154 #       E x t e n d e d    G r a p h e m e    C l u s t e r     T e s t s
    155 #
    156 #
    157 ##########################################################################################
    158 #<xgc>
    159 
    160 # Plain Vanilla grapheme clusters
    161 #<data>•a•b•c•</data>
    162 #<data>•a\u0301\u0302• •b\u0303\u0304•</data>
    163 
    164 # Assorted Hindi combining marks
    165 #<data>•\u0904\u0903• •\u0937\u093E• •\u0904\u093F• •\u0937\u0940• •\u0937\u0949• •\u0937\u094A• •\u0937\u094B• •\u0937\u094C•</data>
    166 
    167 # Thai Clusters
    168 # $Prepend $Extend* $PrependBase $Extend*;
    169 #
    170 #<data>•\u0e40\u0e01•\u0e44\u0301\u0e23\u0302\u0303•\u0e40•\u0e40\u0e02•\u0e02• •</data>
    171 
    172 # From L2/14-131, §3.2; made into a single EGC by UTC-179-C31.
    173 # This test would have caught ICU-22956.
    174 <data>•સૻ્સૻ•</data>
    175 
    176 #
    177 # From cldr/common/testData/segmentation/graphemeCluster/TestSegmenter-Bengali.txt
    178 #
    179 
    180 # ব্যক্তিত্বের ;
    181 <data>•ব্য•ক্তি•ত্বে•র•</data>
    182 # আত্মবিশ্বাস ;
    183 <data>•আ•ত্ম•বি•শ্বা•স•</data>
    184 # ব্যাক্টেরিয়া ;
    185 <data>•ব্যা•ক্টে•রি•য়া•</data>
    186 # সমস্যার  ;
    187 <data>•স•ম•স্যা•র•</data>
    188 # মিশ্রণ ;
    189 <data>•মি•শ্র•ণ•</data>
    190 # দুর্গন্ধ ;
    191 <data>•দু•র্গ•ন্ধ•</data>
    192 # পরীক্ষার ;
    193 <data>•প•রী•ক্ষা•র•</data>
    194 # কোলেস্টেরল ;
    195 <data>•কো•লে•স্টে•র•ল•</data>
    196 # ব্যায়ামকে ;
    197 <data>•ব্যা•য়া•ম•কে•</data>
    198 # সপ্তাহে ;
    199 <data>•স•প্তা•হে•</data>
    200 # পরীক্ষার ;
    201 <data>•প•রী•ক্ষা•র•</data>
    202 # চর্বিজাতীয় ;
    203 <data>•চ•র্বি•জা•তী•য়•</data>
    204 # নিয়ণ্ত্রণ ;
    205 <data>•নি•য়•ণ্ত্র•ণ•</data>
    206 # অবশ্যই ;
    207 <data>•অ•ব•শ্য•ই•</data>
    208 # নয়াদিল্লির ;
    209 <data>•ন•য়া•দি•ল্লি•র•</data>
    210 # সমীক্ষাটা ;
    211 <data>•স•মী•ক্ষা•টা•</data>
    212 # #ভূমিকম্পের ;
    213 # <data>•ভূ•মি•ক•ম্পের•</data>   # line 17 in TestSegmenter-Bengali.txt
    214 # কেন্দ্রীয় ;
    215 <data>•কে•ন্দ্রী•য়•</data>
    216 # উস্কানিই ;
    217 <data>•উ•স্কা•নি•ই•</data>
    218 # সমীক্ষকরা ;
    219 <data>•স•মী•ক্ষ•ক•রা•</data>
    220 # মুহূর্তে ;
    221 <data>•মু•হূ•র্তে•</data>
    222 # সম্পর্কে ;
    223 <data>•স•ম্প•র্কে•</data>
    224 # পৌষসংক্রান্তির ;
    225 <data>•পৌ•ষ•সং•ক্রা•ন্তি•র•</data>
    226 # মুখ্যমন্ত্রী ;
    227 <data>•মু•খ্য•ম•ন্ত্রী•</data>
    228 
    229 #
    230 # from cldr/common/testData/segmentation/graphemeCluster/TestSegmenter-Devanagari.txt
    231 #
    232 
    233 # संदिग्ध ;
    234 <data>•सं•दि•ग्ध•</data>
    235 # सुरक्षा ;
    236 <data>•सु•र•क्षा•</data>
    237 # टक्कर ;
    238 <data>•ट•क्क•र•</data>
    239 # सत्र  ;
    240 <data>•स•त्र•</data>
    241 # दक्षिण ;
    242 <data>•द•क्षि•ण•</data>
    243 # मिश्रणाने ;
    244 <data>•मि•श्र•णा•ने•</data>
    245 # दुर्घटनाग्रस्त ;
    246 <data>•दु•र्घ•ट•ना•ग्र•स्त•</data>
    247 # मुहूर्त ;
    248 <data>•मु•हू•र्त•</data>
    249 # शर्करायुक्त ;
    250 <data>•श•र्क•रा•यु•क्त•</data>
    251 # अंतरराष्ट्रीय ;
    252 <data>•अं•त•र•रा•ष्ट्री•य•</data>
    253 # राष्ट्रपति ;
    254 <data>•रा•ष्ट्र•प•ति•</data>
    255 # फ्रांस ;
    256 <data>•फ्रां•स•</data>
    257 # ट्रैक्टर ;
    258 <data>•ट्रै•क्ट•र•</data>
    259 # सिट्रोनेलाचे ;
    260 <data>•सि•ट्रो•ने•ला•चे•</data>
    261 # टुक्रालाई ;
    262 <data>•टु•क्रा•ला•ई•</data>
    263 # इकट्ठा ;
    264 <data>•इ•क•ट्ठा•</data>
    265 # शास्त्र ;
    266 <data>•शा•स्त्र•</data>
    267 # स्त्री ;
    268 <data>•स्त्री•</data>
    269 # लक्ष्य ;
    270 <data>•ल•क्ष्य•</data>
    271 # तीक्ष्ण ;
    272 <data>•ती•क्ष्ण•</data>
    273 # Words ;
    274 <data>•W•o•r•d•s•</data>
    275 # त्रिवेदी ;
    276 <data>•त्रि•वे•दी•</data>
    277 # कृत्रिम ;
    278 <data>•कृ•त्रि•म•</data>
    279 # मात्रामा ;
    280 <data>•मा•त्रा•मा•</data>
    281 # सिद्धार्थनगर ;
    282 <data>•सि•द्धा•र्थ•न•ग•र•</data>
    283 # श्रद्धालुओं ;
    284 <data>•श्र•द्धा•लु•ओं•</data>
    285 # वृद्धिसँग ;
    286 <data>•वृ•द्धि•सँ•ग•</data>
    287 # अंतःज्ञानी  ;
    288 <data>•अं•तः•ज्ञा•नी• •</data>
    289 # गन्नदी॑धिम ;
    290 <data>•ग•न्न•दी॑•धि•म•</data>
    291 # प्प्रप॑द्ये॒ ;
    292 <data>•प्प्र•प॑•द्ये॒•</data>
    293 # मनस्तापः ;
    294 <data>•म•न•स्ता•पः•</data>
    295 # हविष्करोमि ;
    296 <data>•ह•वि•ष्क•रो•मि•</data>
    297 # अहर्पतिः ;
    298 <data>•अ•ह•र्प•तिः•</data>
    299 # गच्छति ;
    300 <data>•ग•च्छ•ति•</data>
    301 # अयम् ;
    302 <data>•अ•य•म्•</data>
    303 # शिवश्चोदति ;
    304 <data>•शि•व•श्चो•द•ति•</data>
    305 # मनष्टालयति ;
    306 <data>•म•न•ष्टा•ल•य•ति•</data>
    307 # अश्वष्ठक्कस्य ;
    308 <data>•अ•श्व•ष्ठ•क्क•स्य•</data>
    309 # दुष्पुत्रः ;
    310 <data>•दु•ष्पु•त्रः•</data>
    311 # द्विःपक्वम् ;
    312 <data>•द्विः•प•क्व•म्•</data>
    313 # द्विष्कामः ;
    314 <data>•द्वि•ष्का•मः•</data>
    315 # भर्तुर्भोगः ;
    316 <data>•भ•र्तु•र्भो•गः•</data>
    317 # शॆत्युल  ;
    318 <data>•शॆ•त्यु•ल• •</data>
    319 # महारॆन्य ;
    320 <data>•म•हा•रॆ•न्य•</data>
    321 # सॆक्युल ;
    322 <data>•सॆ•क्यु•ल•</data>
    323 # ल्यॊदुर ;
    324 <data>•ल्यॊ•दु•र•</data>
    325 # फयॊक ;
    326 <data>•फ•यॊ•क•</data>
    327 # मॊहन्युव ;
    328 <data>•मॊ•ह•न्यु•व•</data>
    329 # अन्यर ;
    330 <data>•अ•न्य•र•</data>
    331 # ख्वजि ;
    332 <data>•ख्व•जि•</data>
    333 # खॅरिन्य ;
    334 <data>•खॅ•रि•न्य•</data>
    335 # उच्छ्वास ;
    336 <data>•उ•च्छ्वा•स•</data>
    337 # व्यक्तिमत्व ;
    338 <data>•व्य•क्ति•म•त्व•</data>
    339 # दातांच्यामध्ये ;
    340 <data>•दा•तां•च्या•म•ध्ये•</data>
    341 # दुर्गंधी ;
    342 <data>•दु•र्गं•धी•</data>
    343 # दुर्गंधीपासूनसुद्धा ;
    344 <data>•दु•र्गं•धी•पा•सू•न•सु•द्धा•</data>
    345 # नित्यकर्मामध्ये ;
    346 <data>•नि•त्य•क•र्मा•म•ध्ये•</data>
    347 # आजारांपासूनसुद्धा ;
    348 <data>•आ•जा•रां•पा•सू•न•सु•द्धा•</data>
    349 # भाज्यांमध्ये ;
    350 <data>•भा•ज्यां•म•ध्ये•</data>
    351 # उच्छ्वासाच्या ;
    352 <data>•उ•च्छ्वा•सा•च्या•</data>
    353 # सुकिल्लीं ;
    354 <data>•सु•कि•ल्लीं•</data>
    355 # स्लिपां ;
    356 <data>•स्लि•पां•</data>
    357 # मिसळिल्ल्यान ;
    358 <data>•मि•स•ळि•ल्ल्या•न•</data>
    359 # रोंप्यांची ;
    360 <data>•रों•प्यां•ची•</data>
    361 # वर्सांतल्यान ;
    362 <data>•व•र्सां•त•ल्या•न•</data>
    363 # रोंप्याच्या ;
    364 <data>•रों•प्या•च्या•</data>
    365 # नाशिल्ल्यान ;
    366 <data>•ना•शि•ल्ल्या•न•</data>
    367 # जिल्ल्याच्या ;
    368 <data>•जि•ल्ल्या•च्या•</data>
    369 # कुरुक्षेत्रांतल्या ;
    370 <data>•कु•रु•क्षे•त्रां•त•ल्या•</data>
    371 # भाज्ज्यांची ;
    372 <data>•भा•ज्ज्यां•ची•</data>
    373 # सिट्रोनेलाका ;
    374 <data>•सि•ट्रो•ने•ला•का•</data>
    375 # गरिनुपर्छ ;
    376 <data>•ग•रि•नु•प•र्छ•</data>
    377 # सामान्यतः ;
    378 <data>•सा•मा•न्य•तः•</data>
    379 # वृद्धिसँग ;
    380 <data>•वृ•द्धि•सँ•ग•</data>
    381 # रिपोर्टनि ;
    382 <data>•रि•पो•र्ट•नि•</data>
    383 # टोस्टर्ज़ ;
    384 <data>•टो•स्ट•र्ज़•</data>
    385 # वक्तव्य ;
    386 <data>•व•क्त•व्य•</data>
    387 # प्रक्रिया ;
    388 <data>•प्र•क्रि•या•</data>
    389 # निर्दिष्ट ;
    390 <data>•नि•र्दि•ष्ट•</data>
    391 # अस्वीकृत ;
    392 <data>•अ•स्वी•कृ•त•</data>
    393 # प्रयोक्ता ;
    394 <data>•प्र•यो•क्ता•</data>
    395 # प्रकार्यक ;
    396 <data>•प्र•का•र्य•क•</data>
    397 # ट्रेक्टरु ;
    398 <data>•ट्रे•क्ट•रु•</data>
    399 # स्थानधारक ;
    400 <data>•स्था•न•धा•र•क•</data>
    401 # प्रकार्यक ;
    402 <data>•प्र•का•र्य•क•</data>
    403 # अनुच्छेदसँ ;
    404 <data>•अ•नु•च्छे•द•सँ•</data>
    405 # गर्मीपदु ;
    406 <data>•ग•र्मी•प•दु•</data>
    407 # शास्त्रु ;
    408 <data>•शा•स्त्रु•</data>
    409 # इन्द्री ;
    410 <data>•इ•न्द्री•</data>
    411 # श्रधालू ;
    412 <data>•श्र•धा•लू•</data>
    413 # आस्तिकु ;
    414 <data>•आ•स्ति•कु•</data>
    415 # सकार्थो ;
    416 <data>•स•का•र्थो•</data>
    417 # सन्ॿंधु ;
    418 <data>•स•न्ॿं•धु•</data>
    419 # मनुक्खो ;
    420 <data>•म•नु•क्खो•</data>
    421 # हानिफ्राय ;
    422 <data>•हा•नि•फ्रा•य•</data>
    423 # दैथाइहरग्रा ;
    424 <data>•दै•था•इ•ह•र•ग्रा•</data>
    425 # बोसोरब्रै ;
    426 <data>•बो•सो•र•ब्रै•</data>
    427 # रांखान्थियारि ;
    428 <data>•रां•खा•न्थि•या•रि•</data>
    429 # खान्थियाव ;
    430 <data>•खा•न्थि•या•व•</data>
    431 # स्लिप्स ;
    432 <data>•स्लि•प्स•</data>
    433 
    434 #
    435 # cldr/common/testData/segmentation/graphemeCluster/TestSegmenter-Gujarati.txt
    436 #
    437 
    438 # અંગ્રેજી ;
    439 <data>•અં•ગ્રે•જી•</data>
    440 # શબ્દકોશ ;
    441 <data>•શ•બ્દ•કો•શ•</data>
    442 # બાપ્તિસ્મા ;
    443 <data>•બા•પ્તિ•સ્મા•</data>
    444 # મિસ્ત્રી  ;
    445 <data>•મિ•સ્ત્રી•</data>
    446 # સિક્કા ;
    447 <data>•સિ•ક્કા•</data>
    448 #6 ; એકત્રીસમું ; એ÷કત્રી÷સ÷મું
    449 
    450 # સ્વસ્થાને ;
    451 <data>•સ્વ•સ્થા•ને•</data>
    452 # પ્રશ્નાર્થ ;
    453 <data>•પ્ર•શ્ના•ર્થ•</data>
    454 # વર્તમાનકૃદંત ;
    455 <data>•વ•ર્ત•મા•ન•કૃ•દં•ત•</data>
    456 # વાક્યની ;
    457 <data>•વા•ક્ય•ની•</data>
    458 # સાર્વજનિક ;
    459 <data>•સા•ર્વ•જ•નિ•ક•</data>
    460 # સમાપ્તિ ;
    461 <data>•સ•મા•પ્તિ•</data>
    462 # પધાર્યા ;
    463 <data>•પ•ધા•ર્યા•</data>
    464 # વ્યક્તિત્વને ;
    465 <data>•વ્ય•ક્તિ•ત્વ•ને•</data>
    466 # આત્મવિશ્વાસ ;
    467 <data>•આ•ત્મ•વિ•શ્વા•સ•</data>
    468 # વ્યાયામથી ;
    469 <data>•વ્યા•યા•મ•થી•</data>
    470 # યુક્ત ;
    471 <data>•યુ•ક્ત•</data>
    472 # #18 ; પુરુષોત્તમ ;
    473 <data>•પ•રુ•ષો•ત્ત•મ•</data>
    474 # કેન્દ્રીય ;
    475 <data>•કે•ન્દ્રી•ય•</data>
    476 # ક્ષત્રિય ;
    477 <data>•ક્ષ•ત્રિ•ય•</data>
    478 # ફોર્મ્યુલા ;
    479 <data>•ફો•ર્મ્યુ•લા•</data>
    480 # કેન્દ્રમાં ;
    481 <data>•કે•ન્દ્ર•માં•</data>
    482 # સ્પ્રિંગ ;
    483 <data>•સ્પ્રિં•ગ•</data>
    484 # પ્રારંભ ;
    485 <data>•પ્રા•રં•ભ•</data>
    486 # વિદ્યાર્થીઓ  ;
    487 <data>•વિ•દ્યા•ર્થી•ઓ•</data>
    488 # સ્વાર્થની  ;
    489 <data>•સ્વા•ર્થ•ની•</data>
    490 # લોન્ગયરબ્યેન  ;
    491 <data>•લો•ન્ગ•ય•ર•બ્યે•ન•</data>
    492 # સ્થાનિક  ;
    493 <data>•સ્થા•નિ•ક•</data>
    494 # બિલ્ડિંગની  ;
    495 <data>•બિ•લ્ડિં•ગ•ની•</data>
    496 # ઉત્પાદક  ;
    497 <data>•ઉ•ત્પા•દ•ક•</data>
    498 # ઝૂકાવ્યું  ;
    499 <data>•ઝૂ•કા•વ્યું•</data>
    500 # પ્રપૌત્ર  ;
    501 <data>•પ્ર•પૌ•ત્ર•</data>
    502 
    503 
    504 #
    505 # cldr/common/testData/segmentation/graphemeCluster/TestSegmenter-Malayalam.txt
    506 #
    507 
    508 # സ്ഥാനമൊഴിയുക ;
    509 <data>•സ്ഥാ•ന•മൊ•ഴി•യു•ക•</data>
    510 # വ്യക്തി ;
    511 <data>•വ്യ•ക്തി•</data>
    512 # കൗമാരക്കാരി ;
    513 <data>•കൗ•മാ•ര•ക്കാ•രി•</data>
    514 # കല്യാണം  ;
    515 <data>•ക•ല്യാ•ണം•</data>
    516 # റദ്ദാക്കിയ ;
    517 <data>•റ•ദ്ദാ•ക്കി•യ•</data>
    518 # വ്യാപിക്കുക ;
    519 <data>•വ്യാ•പി•ക്കു•ക•</data>
    520 # സ്തുതി ;
    521 <data>•സ്തു•തി•</data>
    522 # ഭക്ഷ്യസുരക്ഷ ;
    523 <data>•ഭ•ക്ഷ്യ•സു•ര•ക്ഷ•</data>
    524 # പൂഴ്ത്തിവെക്കുക ;
    525 <data>•പൂ•ഴ്ത്തി•വെ•ക്കു•ക•</data>
    526 # നിശ്ചയിച്ച ;
    527 <data>•നി•ശ്ച•യി•ച്ച•</data>
    528 # പ്രശ്നം ;
    529 <data>•പ്ര•ശ്നം•</data>
    530 # സംസ്ഥാനം ;
    531 <data>•സം•സ്ഥാ•നം•</data>
    532 # പ്രോത്സാഹം ;
    533 <data>•പ്രോ•ത്സാ•ഹം•</data>
    534 # ഉദ്യോഗസ്ഥ ;
    535 <data>•ഉ•ദ്യോ•ഗ•സ്ഥ•</data>
    536 # സ്ഥാപനം ;
    537 <data>•സ്ഥാ•പ•നം•</data>
    538 # അത്ഭുതം ;
    539 <data>•അ•ത്ഭു•തം•</data>
    540 # പ്രഖ്യാപനം ;
    541 <data>•പ്ര•ഖ്യാ•പ•നം•</data>
    542 
    543 #
    544 # cldr/common/testData/segmentation/graphemeCluster/TestSegmenter-Odia.txt
    545 #
    546 
    547 # ଅସ୍ବରାନ୍ତ ;
    548 <data>•ଅ•ସ୍ବ•ରା•ନ୍ତ•</data>
    549 # ଅକର୍ମଣ୍ୟତା ;
    550 <data>•ଅ•କ•ର୍ମ•ଣ୍ୟ•ତା•</data>
    551 # ଅକର୍ମା ;
    552 <data>•ଅ•କ•ର୍ମା•</data>
    553 # ଆକର୍ଣ୍ଣ  ;
    554 <data>•ଆ•କ•ର୍ଣ୍ଣ•</data>
    555 # ଆକସ୍ମିକୀ ;
    556 <data>•ଆ•କ•ସ୍ମି•କୀ•</data>
    557 # ଇଞ୍ଚମନୌତୀ ;
    558 <data>•ଇ•ଞ୍ଚ•ମ•ନୌ•ତୀ•</data>
    559 # ଅଗତ୍ୟା ;
    560 <data>•ଅ•ଗ•ତ୍ୟା•</data>
    561 # ଇନ୍ଦ୍ରଧ୍ବଜ ;
    562 <data>•ଇ•ନ୍ଦ୍ର•ଧ୍ବ•ଜ•</data>
    563 # ଊରୁତ୍ରାଣ ;
    564 <data>•ଊ•ରୁ•ତ୍ରା•ଣ•</data>
    565 # ଐଶ୍ବର୍ଯ୍ୟ ;
    566 <data>•ଐ•ଶ୍ବ•ର୍ଯ୍ୟ•</data>
    567 # ଅଗତ୍ୟା ;
    568 <data>•ଅ•ଗ•ତ୍ୟା•</data>
    569 # ଔପନ୍ୟାସିକ ;
    570 <data>•ଔ•ପ•ନ୍ୟା•ସି•କ•</data>
    571 # ଔଷ୍ଠ୍ୟ ;
    572 <data>•ଔ•ଷ୍ଠ୍ୟ•</data>
    573 # ଯଜୁର୍ବେଦୀ ;
    574 <data>•ଯ•ଜୁ•ର୍ବେ•ଦୀ•</data>
    575 # ପକ୍ଷ୍ମ ;
    576 <data>•ପ•କ୍ଷ୍ମ•</data>
    577 # ପଞ୍ଚଭୌତିକ ;
    578 <data>•ପ•ଞ୍ଚ•ଭୌ•ତି•କ•</data>
    579 # ତନ୍ତ୍ରିକାତନ୍ତ୍ର ;
    580 <data>•ତ•ନ୍ତ୍ରି•କା•ତ•ନ୍ତ୍ର•</data>
    581 # ସ୍ନାୟୁତନ୍ତ୍ର ;
    582 <data>•ସ୍ନା•ୟୁ•ତ•ନ୍ତ୍ର•</data>
    583 # ତପ୍ତକୁଣ୍ଡ ;
    584 <data>•ତ•ପ୍ତ•କୁ•ଣ୍ଡ•</data>
    585 # ଚଣ୍ଡୋଦରୀ ;
    586 <data>•ଚ•ଣ୍ଡୋ•ଦ•ରୀ•</data>
    587 # ଝଙ୍କାର ;
    588 <data>•ଝ•ଙ୍କା•ର•</data>
    589 # କଙ୍କପୃଷ୍ଠୀ ;
    590 <data>•କ•ଙ୍କ•ପୃ•ଷ୍ଠୀ•</data>
    591 # ଖଣ୍ଡନୀୟ ;
    592 <data>•ଖ•ଣ୍ଡ•ନୀ•ୟ•</data>
    593 # ଖମ୍ଭାବତୀ ;
    594 <data>•ଖ•ମ୍ଭା•ବ•ତୀ•</data>
    595 # ଘାଣେନ୍ଦ୍ରିୟ  ;
    596 <data>•ଘା•ଣେ•ନ୍ଦ୍ରି•ୟ•</data>
    597 # ଘୁଞ୍ଚାଇବା  ;
    598 <data>•ଘୁ•ଞ୍ଚା•ଇ•ବା•</data>
    599 
    600 #
    601 # cldr/common/testData/segmentation/graphemeCluster/TestSegmenter-Telugu.txt
    602 #
    603 
    604 # అదృశ్యం ;
    605 <data>•అ•దృ•శ్యం•</data>
    606 # ఉద్యోగాలు ;
    607 <data>•ఉ•ద్యో•గా•లు•</data>
    608 # ఉన్నాయన్న ;
    609 <data>•ఉ•న్నా•య•న్న•</data>
    610 # కార్యదర్శి  ;
    611 <data>•కా•ర్య•ద•ర్శి•</data>
    612 # సామర్థ్యం ;
    613 <data>•సా•మ•ర్థ్యం•</data>
    614 # అభిప్రాయం ;
    615 <data>•అ•భి•ప్రా•యం•</data>
    616 # రాష్ట్రస్థాయి ;
    617 <data>•రా•ష్ట్ర•స్థా•యి•</data>
    618 # నిర్లక్ష్యం ;
    619 <data>•ని•ర్ల•క్ష్యం•</data>
    620 # వ్యాజ్యాలన్నీ ;
    621 <data>•వ్యా•జ్యా•ల•న్నీ•</data>
    622 # న్యాయవ్యవస్థ ;
    623 <data>•న్యా•య•వ్య•వ•స్థ•</data>
    624 # వ్యాఖ్యలు ;
    625 <data>•వ్యా•ఖ్య•లు•</data>
    626 # నేతృత్వం ;
    627 <data>•నే•తృ•త్వం•</data>
    628 # ఉద్రిక్తత ;
    629 <data>•ఉ•ద్రి•క్త•త•</data>
    630 # వ్యాఖ్యలు ;
    631 <data>•వ్యా•ఖ్య•లు•</data>
    632 # అత్యున్నత ;
    633 <data>•అ•త్యు•న్న•త•</data>
    634 # మనస్పర్ధలు ;
    635 <data>•మ•న•స్ప•ర్ధ•లు•</data>
    636 # కార్యక్రమం ;
    637 <data>•కా•ర్య•క్ర•మం•</data>
    638 # గుప్పిస్తున్నారు ;
    639 <data>•గు•ప్పి•స్తు•న్నా•రు•</data>
    640 # నటిస్తున్నారు ;
    641 <data>•న•టి•స్తు•న్నా•రు•</data>
    642 # ద్వితీయార్ధం ;
    643 <data>•ద్వి•తీ•యా•ర్ధం•</data>
    644 # జీర్ణవ్యవస్థ ;
    645 <data>•జీ•ర్ణ•వ్య•వ•స్థ•</data>
    646 # ఉత్సాహం ;
    647 <data>•ఉ•త్సా•హం•</data>
    648 # హృద్రోగాలు ;
    649 <data>•హృ•ద్రో•గా•లు•</data>
    650 # పాల్గొనాల్సింది ;
    651 <data>•పా•ల్గొ•నా•ల్సిం•ది•</data>
    652 # మార్గదర్శకాలు  ;
    653 <data>•మా•ర్గ•ద•ర్శ•కా•లు•</data>
    654 
    655 
    656 ########################################################################################
    657 #
    658 #
    659 #       W o r d    B o u n d a r y      T e s t s
    660 #
    661 #
    662 ##########################################################################################
    663 
    664 <word>
    665 #
    666 # Quick sanity test
    667 #
    668 <data>•hello<200> •there<200> •goodbye<200></data>
    669 <data>•hello<200> •12345<100> •,•</data>
    670 
    671 
    672 #
    673 # Test data originally in RBBIAPITest::TestFirstNextFollowing() and TestLastPreviousPreceding()
    674 #
    675 
    676 <word>
    677 <data>•This<200> •is<200> •a<200> •word<200> •break<200>.•  •Isn't<200> •it<200>?• •2.25<100></data>
    678 
    679 
    680 
    681 #
    682 # Data originally from TestDefaultRuleBasedWordIteration()
    683 #
    684 <data>•Write<200> •wordrules<200>.• •123.456<100> •alpha\u00adbeta\u00adgamma<200> •\u092f\u0939<200> •</data>
    685 <data>• •\u0939\u093f\u0928\u094d\u200d\u0926\u0940<200> •\u0939\u0948<200> •\u0905\u093e\u092a<200> •\u0938\u093f\u0916\u094b\u0917\u0947<200>?•</data>
    686 
    687 #Hindi Numbers
    688 <data>• •\u0968\u0966.\u0969\u096f<100> •\u0967\u0966\u0966.\u0966\u0966<100> •\N{RUPEE SIGN}•\u0967,\u0967\u0966\u0966.\u0966\u0966<100>  •\u0905\u092e\u091c<200>\n•</data>
    689 
    690 <data>•\u0938\u094d\u200d\u0935\u0924\u0902deadTA\u0930<200>\r•It's<200> •$•30.10<100> •12,34<100>¢•£•¤•¥•alpha\u05f3beta\u05f4gamma<200> •</data>
    691 
    692 <data>•Badges<200>?• •BADGES<200>!•?•!• •We<200> •don't<200> •need<200> •no<200> •STINKING<200> •BADGES<200>!•!•1000,233,456.000<100> •1,23.322<100>%•123.1222<100>$•123,000.20<100> •179.01<100>%•X<200> •Now<200>\r•is<200>\n•the<200>\r\n•time<200> •</data>
    693 
    694 #Hangul
    695 <data>•\uc5f0\ud569<200> •\uc7a5\ub85c\uad50\ud68c<200> •\u1109\u1161\u11bc\u1112\u1161\u11bc<200> •\u1112\u1161\u11ab\u110b\u1175\u11ab<200> •Hello<200>,• •how<200> •are<200> •you<200> •</data>
    696 
    697 <data>•Hello<200>,• •how<200> •are<200> •you<200> •\uc5f0\ud569<200> •\uc7a5\ub85c\uad50\ud68c<200> •\u1109\u1161\u11bc\u1112\u1161\u11bc<200> •\u1112\u1161\u11ab\u110b\u1175\u11ab<200> •</data>
    698 
    699 # Words containing non-BMP letters
    700 <data>•abc\U00010300<200> •abc\N{DESERET SMALL LETTER ENG}<200> •abc\N{MATHEMATICAL BOLD SMALL Z}<200> •abc\N{MATHEMATICAL SANS-SERIF BOLD ITALIC PI SYMBOL}<200> •</data>
    701 
    702 # Unassigned code points
    703 <data>•abc<200>\U0001D800•def<200>\U0001D3FF• •</data>
    704 
    705 # Hiragana & Katakana stay together, but separates from each other and Latin.
    706 # *** what to do about theoretical combos of chars? i.e. hiragana + accent
    707 #<data>•abc<200>\N{HIRAGANA LETTER SMALL A}<400>\N{HIRAGANA LETTER VU}\N{COMBINING ACUTE ACCENT}<400>\N{HIRAGANA ITERATION MARK}<400>\N{KATAKANA LETTER SMALL A}\N{KATAKANA ITERATION MARK}\N{HALFWIDTH KATAKANA LETTER WO}\N{HALFWIDTH KATAKANA LETTER N}<400>def<200>#•</data>
    708 
    709 # test normalization/dictionary handling of halfwidth katakana: same dictionary phrase in fullwidth and halfwidth
    710 <data>•芽キャベツ<400>芽キャベツ<400></data>
    711 
    712 # more Japanese tests
    713 # TODO: some script=common characters in the Hiragana and the Katakana block may not be treated correctly
    714 # (was formerly true for U+30FC); need to check and fix if so.
    715 #<data>•どー<400>せ<400>日本語<400>を<400>勉強<400>する<400>理由<400>について<400> •て<400>こと<400>は<400>我<400>でも<400>知<400>ら<400>も<400>い<400>こと<400>なん<400>だ<400>。•</data>
    716 <data>•日本語<400>を<400>勉強<400>する<400>理由<400>について<400> •て<400>こと<400>は<400>我<400>でも<400>知<400>ら<400>も<400>い<400>こと<400>なん<400>だ<400>。•</data>
    717 
    718 # Testing of word boundary for dictionary word containing both kanji and kana
    719 <data>•中だるみ<400>蔵王の森<400>ウ離島<400></data>
    720 
    721 # Testing of Chinese segmentation (taken from a Chinese news article)
    722 <data>•400<100>余<400>名<400>中央<400>委员<400>和<400>中央<400>候补<400>委员<400>都<400>领<400>到了<400>“•推荐<400>票<400>”•,•有<400>资格<400>在<400>200<100>多<400>名<400>符合<400>条件<400>的<400>63<100>岁<400>以下<400>中共<400>正<400>部<400>级<400>干部<400>中<400>,•选出<400>他们<400>属意<400>的<400>中央<400>政治局<400>委员<400>以<400>向<400>政治局<400>常委<400>会<400>举荐<400>。•</data>
    723 
    724 # Words with interior formatting characters
    725 <data>•def\N{COMBINING ACUTE ACCENT}\N{SYRIAC ABBREVIATION MARK}ghi<200> •</data>
    726 
    727 # to test for bug #4097779
    728 <data>•aa\N{COMBINING GRAVE ACCENT}a<200> •</data>
    729 
    730 # fullwidth numeric, midletter characters etc should be treated like their halfwidth counterparts
    731 <data>•ISN'T<200> •19<100>日<400></data>
    732 
    733 #      to test for bug #4098467
    734 #      What follows is a string of Korean characters (I found it in the Yellow Pages
    735 #      ad for the Korean Presbyterian Church of San Francisco, and I hope I transcribed
    736 #      it correctly), first as precomposed syllables, and then as conjoining jamo.
    737 #      Both sequences should be semantically identical and break the same way.
    738 #      precomposed syllables...
    739 <data>•\uc0c1\ud56d<200> •\ud55c\uc778<200> •\uc5f0\ud569<200> •\uc7a5\ub85c\uad50\ud68c<200> •\u1109\u1161\u11bc\u1112\u1161\u11bc<200> •\u1112\u1161\u11ab\u110b\u1175\u11ab<200> •\u110b\u1167\u11ab\u1112\u1161\u11b8<200> •\u110c\u1161\u11bc\u1105\u1169\u1100\u116d\u1112\u116c<200> •</data>
    740 
    741 # more Korean tests (Jamo not tested here, not counted as dictionary characters)
    742 # Disable them now because we don't include a Korean dictionary.
    743 #<data>•\ud55c\uad6d<200>\ub300\ud559\uad50<200>\uc790\uc5f0<200>\uacfc\ud559<200>\ub300\ud559<200>\ubb3c\ub9ac\ud559\uacfc<200></data>
    744 #<data>•\ud604\uc7ac<200>\ub294<200> •\uac80\ucc30<200>\uc774<200> •\ubd84\uc2dd<200>\ud68c\uacc4<200>\ubb38\uc81c<200>\ub97c<200> •\uc870\uc0ac<200>\ud560<200> •\uac00\ub2a5\uc131<200>\uc740<200> •\uc5c6\ub2e4<200>\u002e•</data>
    745 
    746 <data>•abc<200>\u4e01<400>\u4e02<400>\u3005<400>\u4e03\u4e03<400>abc<200> •</data>
    747 
    748 <data>•\u06c9<200>\uc799\ufffa•</data>
    749 
    750 
    751 #
    752 #      Try some words from other scripts.
    753 #
    754 
    755 #       Try some words from other scripts.
    756 #          Greek, Cyrillic, Hebrew, Arabic, Arabic, Georgian, Latin
    757 #
    758 <data>•ΑΒΓ<200> •БВГ<200> •אבג֓<200> •ابت<200> •١٢٣<100> •\u10A0\u10A1\u10A2<200> •ABC<200> •</data>
    759 
    760 <data>•\u0301•A<200></data>
    761 
    762 
    763 #
    764 #  Hindi word break tests, imported from the old RBBI tests.
    765 #    An historical note:  a much earlier version of ICU break iterators had a number
    766 #    of special case rules for Hindi, which were tested by an earlier version of
    767 #    this test data.  The current RBBI rules do not special case Hindi in
    768 #    any way, making this test data much less signfificant.
    769 #
    770 <data>•\u0917\u092a\u00ad\u0936\u092a<200>!•\u092f\u0939<200> •\u0939\u093f\u0928\u094d\u200d\u0926\u0940<200> •\u0939\u0948<200> •\u0905\u093e\u092a<200> •\u0938\u093f\u0916\u094b\u0917\u0947<200>?•\n•:•\u092a\u094d\u0930\u093e\u092f\u0903<200>
    771 •\u0935\u0930\u094d\u0937\u093e<200>\r\n•\u092a\u094d\u0930\u0915\u093e\u0936<200>,•\u0924\u0941\u092e\u093e\u0930\u094b<200> •\u092e\u093f\u0924\u094d\u0930<200> •\u0915\u093e<200> •\u092a\u0924\u094d\u0930<200> •\u092a\u095d\u094b<200> •\u0938\u094d\u0924\u094d\u0930\u093f<200>.• •\u0968\u0966.\u0969\u096f<100> •\u0967\u0966\u0966.\u0966\u0966<100>\u20a8•\u0967,\u0967\u0966\u0966.\u0966\u0966<100> •\u0905\u092e\u091c<200>\n•\u0938\u094d\u200d\u0935\u0924\u0902\u0924\u094d\u0930<200>\r•</data>
    772 
    773 #
    774 #  Failures from monkey tests
    775 #
    776 <data>•\u8527<400>\u02ba<200>\u0027\u0d42•\u00b7•\u09ea<100></data>
    777 
    778 #
    779 # Jitterbug 5276 - treat Japanese half width voicing marks as Grapheme Extend
    780 #
    781 <data>•A\uff9e\uff9fBC<200> •1\uff9e\uff9f23<100></data>
    782 
    783 # User guide example:
    784 <data>•Parlez<200>-•vous<200> •français<200> •?•</data>
    785 
    786 # Test for #11673
    787 <word>
    788 <data>•ジョージア<400> •</data>
    789 
    790 <word>
    791 <data>•[<0>携帯<400>電話<400>]<0>お金<400>が<400>かかる<400>ん<400>です<400>。<0></data>
    792 
    793 # Test for #11723
    794 <word>
    795 <data>•アレルギー性<400>結膜炎<400></data>
    796 <data>•アテ<400>ローム<400>性<400>動脈硬化<400></data>
    797 
    798 # Ticket #11996
    799 <locale en>
    800 <word>
    801 <data>•栃木<400>県<400>足利<400>市<400>で<400>の<400>撮影<400>が<400>公開<400></data>
    802 <data>•栃木<400>県<400>足利<400>市<400>で<400>の<400>撮影<400>が<400>公開<400>さ<400>れ<400>た<400></data>
    803 
    804 # Ticket #11999
    805 #   Unhandled Break Engine was consuming all characters, not just unhandled.
    806 #   \U00011700 is AHOM LETTER KA. There is no dictionary for AHOM, triggering the unhandled engine,
    807 #       which then incorrectly also consumed the following Japanese text. (ICU4J only)
    808 <word>
    809 <locale en>
    810 <data>•ロ<400>から<400>売却<400>完了<400>時<400>の<400>時価<400>が<400>提示<400>さ<400>れ<400>て<400>いる<400></data>
    811 <data>•\U00011700<200>ロ<400>から<400>売却<400>完了<400>時<400>の<400>時価<400>が<400>提示<400>さ<400>れ<400>て<400>いる<400></data>
    812 
    813 #
    814 # Ticket #13549
    815 #   CjiBreakEngine::divideUpDictionaryRange: assertion failure.
    816 #
    817 <locale en>
    818 <word>
    819 <data>•\U00020029<400>\u3300<400>\U0002C400<400></data>
    820 <data>•\uFAD7<400>\u331B<400>\u87DF<400>\u006D<200>\uFFFD•</data>
    821 
    822 #
    823 # What Is Unicode in Japanese
    824 # From http://unicode.org/standard/translations/japanese.html
    825 
    826 <locale en>
    827 <word>
    828 <data><0>ユニ<400>コード<400>と<400>は<400>何<400>か<400>?<0></data>
    829 <data><0>ユニ<400>コード<400>は<400>、<0>すべて<400>の<400>文字<400>に<400>固有<400>の<400>番号<400>を<400>付与<400>し<400>ます<400></data>
    830 <data><0>プラットフォーム<400>に<400>は<400>依存<400>しま<400>せん<400></data>
    831 <data><0>プログラム<400>に<400>も<400>依存<400>しま<400>せん<400></data>
    832 <data><0>言語<400>に<400>も<400>依存<400>しま<400>せん<400></data>
    833 
    834 <data><0>コンピューター<400>は<400>、<0>本質<400>的<400>に<400>は<400>数字<400>しか<400>扱う<400>こと<400>が<400>でき<400>ま<400>せん<400>。<0>\
    835 コンピューター<400>は<400>、<0>文字<400>や<400>記号<400>など<400>の<400>それぞれに<400>番号<400>を<400>割り振る<400>こと<400>によって<400>扱える<400>\
    836 よう<400>にし<400>ます<400>。<0>ユニ<400>コード<400>が<400>出来る<400>まで<400>は<400>、<0>これらの<400>番号<400>を<400>割り振る<400>仕組み<400>が<400>\
    837 何<400>百<400>種類<400>も<400>存在<400>しま<400>した<400>。<0>どの<400>一つ<400>を<400>とっても<400>、<0>十分<400>な<400>文字<400>を<400>含<400>\
    838 んで<400>は<400>いま<400>せん<400>で<400>した<400>。<0>例えば<400>、<0>欧州<400>連合<400>一つ<400>を<400>見<400>て<400>も<400>、<0>その<400>\
    839 すべて<400>の<400>言語<400>を<400>カバー<400>する<400>ため<400>に<400>は<400>、<0>いくつか<400>の<400>異なる<400>符号<400>化<400>の<400>仕組み<400>\
    840 が<400>必要<400>で<400>した<400>。<0>英語<400>の<400>よう<400>な<400>一つ<400>の<400>言語<400>に<400>限<400>って<400>も<400>、<0>一つ<400>だけ<400>\
    841 の<400>符号<400>化<400>の<400>仕組み<400>では<400>、<0>一般<400>的<400>に<400>使<400>われる<400>すべて<400>の<400>文字<400>、<0>句読点<400>、<0>\
    842 技術<400>的<400>な<400>記号<400>など<400>を<400>扱う<400>に<400>は<400>不十分<400>で<400>した<400>。<0></data>
    843 
    844 <data><0>これらの<400>符号<400>化<400>の<400>仕組み<400>は<400>、<0>相互<400>に<400>矛盾<400>する<400>もの<400>でも<400>ありま<400>した<400>。<0>\
    845 二つ<400>の<400>異なる<400>符号<400>化<400>の<400>仕組み<400>が<400>、<0>二つ<400>の<400>異なる<400>文字<400>に<400>同一<400>の<400>番号<400>\
    846 を<400>付ける<400>こと<400>も<400>できる<400>し<400>、<0>同じ<400>文字<400>に<400>異なる<400>番号<400>を<400>付ける<400>こと<400>も<400>できる<400>\
    847 の<400>です<400>。<0>どの<400>よう<400>な<400>コンピューター<400>も<400>(<0>特に<400>サーバー<400>は<400>)<0>多く<400>の<400>異<400>な<400>っ<400>\
    848 た<400>符号<400>化<400>の<400>仕組み<400>を<400>サポート<400>する<400>必要<400>が<400>あり<400>ます<400>。<0>たとえ<400>データ<400>が<400>異なる<400>\
    849 符号<400>化<400>の<400>仕組み<400>や<400>プラットフォーム<400>を<400>通過<400>し<400>て<400>も<400>、<0>いつ<400>どこ<400>で<400>データ<400>が<400>\
    850 乱れる<400>か<400>分<400>から<400>ない<400>危険<400>を<400>冒す<400>こと<400>の<400>なる<400>の<400>です<400>。<0></data>
    851 
    852 <data><0>ユニ<400>コード<400>は<400>すべて<400>を<400>変<400>え<400>ます<400></data>
    853 
    854 <data><0>ユニ<400>コード<400>は<400>、<0>プラットフォーム<400>に<400>係<400>わら<400>ず<400>、<0>プログラム<400>に<400>係<400>わら<400>ず<400>、<0>\
    855 言語<400>に<400>係<400>わら<400>ず<400>、<0>すべて<400>の<400>文字<400>に<400>独立<400>した<400>番号<400>を<400>与<400>え<400>ます<400>。<0>\
    856 ユニ<400>コード<400>標準<400>は<400>、<0>アップル<400>、<0>ヒュー<400>レット<400>パッ<400>カード<400>、<0>IBM<200>、<0>ジャスト<400>システム<400>\
    857 、<0>マイクロ<400>ソフト<400>、<0>オラクル<400>、<0>SAP<200>、<0>サン<400>、<0>サイ<400>ベース<400>など<400>の<400>産業<400>界<400>の<400>\
    858 主導<400>的<400>企業<400>と<400>他の<400>多く<400>の<400>企業<400>に<400>採用<400>さ<400>れ<400>てい<400>ます<400>。<0>ユニ<400>コード<400>\
    859 は<400>、<0>XML<200>、<0>Java<200>、<0>ECMAScript<200>(<0>JavaScript<200>)<0>、<0>LDAP<200>、<0>CORBA<200> <0>3.0<100>など<400>\
    860 の<400>最先端<400>の<400>標準<400>の<400>前提<400>と<400>な<400>って<400>おり<400>、<0>ユニ<400>コード<400>を<400>実装<400>す<400>れ<400>ば<400>\
    861 、<0>ISO<200>/<0>IEC<200></data>
    862 <data><0> <0>10646<100>に<400>適合<400>する<400>ことに<400>なり<400>ます<400>。<0>ユニ<400>コード<400>は<400>、<0>多く<400>の<400>\
    863 オペレーティングシステム<400>と<400>すべて<400>の<400>最新<400>の<400>ブラウザー<400>と<400>他の<400>多く<400>の<400>製品<400>で<400>サポート<400>\
    864 さ<400>れ<400>てい<400>ます<400>。<0>ユニ<400>コード<400>標準<400>の<400>出現<400>と<400>ユニ<400>コード<400>を<400>サポート<400>する<400>\
    865 ツール<400>類<400>は<400>、<0>昨今<400>顕著<400>に<400>な<400>って<400>いる<400>ソフトウエア<400>技術<400>の<400>グローバル<400>化<400>の<400>\
    866 流れ<400>に対して<400>、<0>特に<400>役<400>に<400>立<400>って<400>い<400>ます<400>。<0></data>
    867 
    868 <data><0>ユニ<400>コード<400>を<400>ク<400>ライアン<400>ト<400>サーバー<400>型<400>の<400>アプリケーション<400>や<400>、<0>多層<400>構造<400>\
    869 を<400>持つ<400>アプリケーション<400>、<0>ウェブサイト<400>など<400>に<400>に<400>組み込む<400>こと<400>で<400>、<0>従来<400>の<400>文字<400>\
    870 コードセット<400>を<400>用いる<400>より<400>も<400>明らか<400>な<400>コスト<400>削減<400>が<400>可能<400>です<400>。<0>ユニ<400>コード<400>は<400>\
    871 、<0>単一<400>の<400>ソフトウエア<400>製品<400>、<0>単一<400>の<400>ウェブサイト<400>に<400>、<0>何ら<400>手<400>を<400>加える<400>こと<400>なく<400>\
    872 、<0>複数<400>の<400>プラットフォーム<400>、<0>複数<400>の<400>言語<400>、<0>複数<400>の<400>国<400>を<400>カバー<400>する<400>こと<400>が<400>\
    873 出来る<400>の<400>です<400>。<0>ユニ<400>コード<400>は<400>、<0>データ<400>が<400>多く<400>の<400>異なる<400>システム<400>の<400>間<400>を<400>、<0>\
    874 何<400>の<400>乱れ<400>も<400>なし<400>に<400>転送<400>する<400>こと<400>を<400>可能<400>と<400>する<400>の<400>です<400>。<0></data>
    875 
    876 <data><0>ユニ<400>コード<400>コンソーシアム<400>について<400></data>
    877 
    878 <data><0>ユニ<400>コード<400>コンソーシアム<400>は<400>、<0>最新<400>の<400>ソフトウエア<400>製品<400>と<400>標準<400>において<400>テキスト<400>\
    879 を<400>表現<400>する<400>こと<400>を<400>意味<400>する<400>“<0>ユニ<400>コード<400>標準<400>”<0>の<400>構築<400>、<0>発展<400>、<0>普及<400>、<0>\
    880 利用<400>促進<400>を<400>目的<400>として<400>設立<400>さ<400>れ<400>た<400>非<400>営利<400>組織<400>です<400>。<0>同<400>コンソーシアム<400>\
    881 の<400>会員<400>は<400>、<0>コンピューター<400>と<400>情報処理<400>に<400>係わる<400>広汎<400>な<400>企業<400>や<400>組織<400>から<400>構成<400>\
    882 さ<400>れ<400>てい<400>ます<400>。<0>同<400>コンソーシアム<400>は<400>、<0>財政<400>的<400>に<400>は<400>、<0>純粋<400>に<400>会費<400>のみ<400>\
    883 によって<400>運営<400>さ<400>れ<400>てい<400>ます<400>。<0>ユニ<400>コード<400>標準<400>を<400>支持<400>し<400>、<0>その<400>拡張<400>と<400>\
    884 実装<400>を<400>支援<400>する<400>世界中<400>の<400>組織<400>や<400>個人<400>は<400>、<0>だれ<400>も<400>が<400>ユニ<400>コード<400>\
    885 コンソーシアム<400>の<400>会員<400>なる<400>こと<400>が<400>でき<400>ます<400>。<0></data>
    886 
    887 <data><0>より<400>詳しい<400>こと<400>を<400>お<400>知<400>り<400>に<400>なり<400>たい<400>方<400>は<400>、<0>Glossary<200>,<0> <0>\
    888 Technical<200> <0>Introduction<200> <0>および<400> <0>Useful<200> <0>Resources<200>を<400>ご<400>参照<400>くだ<400>さい<400>。<0></data>
    889 
    890 #
    891 # Bug ICU-13334  Report of different boundaries between Windows and Linux.
    892 #
    893 <data><0>丙酮<400></data>
    894 
    895 ########################################################################################
    896 #
    897 #
    898 #       S e n t e n c e     B o u n d a r y      T e s t s
    899 #
    900 #
    901 ##########################################################################################
    902 
    903 
    904 #
    905 # Test data originally from RBBI RBBITest::TestDefaultRuleBasedSentenceIteration()
    906 #
    907 <sent>
    908 
    909 
    910 <sent>
    911 <data>•This\n<100></data>
    912 <data>•Hello! •how are you? •I'am fine. •Thankyou. •How are you \
    913 doing? •This\n<100> costs $20,00,000. •</data>
    914 
    915 
    916 # Sentence ending in a quote.
    917 <data>•"Sentence ending with a quote." •Bye.•</data>
    918 
    919 # Sentence, and test data, ending without a period or other terminator.
    920 <data>•Here is a random sentence, no ending period<100></data>
    921 
    922 
    923 <data>•  (This is it).  •Testing the sentence iterator. •\
    924 "This isn't it." •Hi! \
    925 •This is a simple sample sentence. •(This is it.) •This is a simple sample sentence. •\
    926 "This isn't it." •\
    927 Hi! •This is a simple sample sentence. •It does not have to make any sense as you can see. •Nel mezzo del cammin di nostra vita, mi ritrovai in una selva oscura. •Che la dritta via aveo smarrita. •He said, that I said, that you said!! •Don't rock the boat.\u2029•Because I am the daddy, that is why.
    928 •Not on my time (el timo.)! •</data>
    929 
    930 <data>•Hello.  •So what!!\u2029•"But now," he said, \
    931 "I know!" •\
    932 Harris thumbed down several, including "Away We Go" (which became the huge success Oklahoma!). •One species, B. anthracis, is highly virulent.
    933 •Wolf said about Sounder:\
    934 "Beautifully thought-out and directed." •\
    935 Have you ever said, "This is where\tI shall live"? •He answered, \
    936 "You may not!" •Another popular saying is: "How do you do?". \n•\
    937 Yet another popular saying is: \
    938 'I'm fine thanks.' •\
    939 What is the proper use of the abbreviation pp.? •Yes, I am definatelly 12" tall!!\
    940 •Now\r<100>is\n<100>the\r\n<100>time\n<100>\r<100>for\r<100>\r<100></data>
    941 
    942 <data>•No breaks when . is surrounded by UPPER.Case letters.  •</data>
    943 <data>•No breaks when . is followed by Numeric .4 a.4 C.4 3.1 .•</data>
    944 <data>•No breaks when . is followed by a lower, with possible intervening punct .,a .$a .)a. •</data>
    945 
    946 #
    947 #  Sentence Breaks: no break at the boundary between CJK and other letters. TestBug4111338
    948 #
    949 <data>•\u5487\u67ff\ue591\u5017\u61b3\u60a1\u9510\u8165:"JAVA\u821c\u8165\u7fc8\u51ce\u306d,\u2494\u56d8\u4ec0\u60b1\u8560\u51ba\u611d\u57b6\u2510\u5d46".\u2029\
    950 •\u5487\u67ff\ue591\u5017\u61b3\u60a1\u9510\u8165\u9de8\u97e4JAVA\u821c\u8165\u7fc8\u51ce\u306d\ue30b\u2494\u56d8\u4ec0\u60b1\u8560\u51ba\u611d\u57b6\u2510\u5d46\u97e5\u7751\u3002\
    951 •\u5487\u67ff\ue591\u5017\u61b3\u60a1\u9510\u8165\u9de8\u97e4\u6470\u8790JAVA\u821c\u8165\u7fc8\u51ce\u306d\ue30b\u2494\u56d8\u4ec0\u60b1\u8560\u51ba\u611d\u57b6\u2510\u5d46\u97e5\u7751\u2048\
    952 •He said, "I can go there."\u2029•Bye, now.•</data>
    953 
    954 #
    955 #      Treat fullwidth variants of .!? the same as their
    956 #      normal counterparts
    957 #
    958 <data>•I know I'm right\uff0e •Right\uff1f •Right\uff01 •</data>
    959 
    960 
    961 #
    962 #       Don't break sentences at boundary between CJK and digits
    963 #
    964 <data>•\u5487\u67ff\ue591\u5017\u61b3\u60a1\u9510\u8165\u9de8\u97e48888\u821c\u8165\u7fc8\u51ce\u306d\ue30b\u2494\u56d8\u4ec0\u60b1\u8560\u51ba\u611d\u57b6\u2510\u5d46\u97e5\u7751\u3002•Bye, now<100></data>
    965 
    966 #
    967 #      Breaks around '(' following a sentence TERM.  (Rule 9)
    968 #
    969 <data>•How do you do?(•Fine). •</data>
    970 <data>•How do you do? •(Fine). •</data>
    971 <data>•How do you do?(•fine). •</data>
    972 <data>•How do you do? •(fine). •</data>
    973 
    974 #
    975 <data>•Hello.123<100></data>    # Rule 6
    976 <data>•Hello?•123<100></data>
    977 
    978 <data>•HELLO.Bye<100></data>    # Rule 7
    979 <data>•HELLO?•Bye<100></data>
    980 
    981 <data>•Hello.goodbye<100></data>  #Rule 8
    982 <data>•Hello. •Goodbye<100></data>
    983 <data>•Hello. goodbye<100></data>
    984 
    985 
    986 
    987 #
    988 #        test for bug #4158381: No breaks when there are no terminators around
    989 #
    990 <data>•\<P>Provides a set of &quot;lightweight&quot; (all-java\<FONT SIZE="-2">\<SUP>TM\</SUP>\</FONT> language) components that, to the maximum degree possible, work the same on all platforms.  •</data>
    991 <data>•Another test.\u2029•</data>
    992 
    993 #        test for bug #4143071: Make sure sentences that end with digits
    994 #        work right
    995 #
    996 <data>•Today is the 27th of May, 1998.  •</data>
    997 <data>•Tomorrow with be 28 May 1998.  •</data>
    998 <data>•The day after will be the 30th.\u2029•</data>
    999 
   1000 #        test for bug #4152416: Make sure sentences ending with a capital
   1001 #        letter are treated correctly
   1002 #
   1003 <data>•The type of all primitive \<code>boolean\</code> values accessed in the target VM.  •\
   1004 Calls to xxx will return an implementor of this interface.  \u2029•</data>
   1005 
   1006 #        test for bug #4152117: Make sure sentence breaking is handling
   1007 #        punctuation correctly [COULD NOT REPRODUCE THIS BUG, BUT TEST IS
   1008 #        HERE TO MAKE SURE IT DOESN'T CROP UP]
   1009 #
   1010 <data>•Constructs a randomly generated BigInteger, uniformly distributed over the range \<tt>0\</tt> to\
   1011 \<tt>(2\<sup>numBits\</sup> - 1\)\</tt>, inclusive.  \
   1012 •The uniformity of the distribution assumes that a fair source of random bits is provided in \<tt>rnd\</tt>.  \
   1013 •Note that this constructor always constructs a non-negative biginteger.  \n•Ahh abc.•</data>
   1014 
   1015 #        sentence breaks for hindi which used Devanagari script
   1016 #        make sure there is sentence break after ?,danda(hindi phrase separator),
   1017 #        fullstop followed by space.  (VERY old test)
   1018 #
   1019 <data>•\u0928\u092e\u0938\u094d\u200d\u0924\u0947 \u0930\u092e\u0947\u0936\u0905\u093e\u092a\u0915\u0948\u0938\u0947 \u0939\u0948?\
   1020 •\u092e\u0948 \u0905\u091a\u094d\u200d \u091b\u093e \u0939\u0942\u0901\u0964 •\u0905\u093e\u092a\r\n<100>\
   1021 \u0915\u0948\u0938\u0947 \u0939\u0948?•\u0935\u0939 \u0915\u094d\u200d\u092f\u093e\n\
   1022 <100>\u0939\u0948?•\u092f\u0939 \u0905\u093e\u092e \u0939\u0948. •\u092f\u0939 means "this". \
   1023 •"\u092a\u095d\u093e\u0908" meaning "education" or "studies". \
   1024 •\u0905\u093e\u091c(\u0938\u094d\u200d\u0935\u0924\u0902\u0924\u094d\u0930 \u0926\u093f\u0935\u093e\u0938) \u0939\u0948\u0964 •Let's end here. •</data>
   1025 
   1026 #         Regression test for bug #1984, Sentence break in Arabic text.
   1027 
   1028 <data>\
   1029 •\u0623\u0633\u0627\u0633\u064b\u0627\u060c\u0020\u062a\u062a\u0639\u0627"\u0645\u0644\u0020\u0627\u0644\u062d\u0648\u0627\u0633\u064a\u0628\u0020"\u0641\u0642\u0637\u0020\u0645\u0639\u0020\u0627\u0644\u0623\u0631\u0642\u0627\u0645\u060c\u0648\u062a\u0642\u0648\u0645\u0020\u0628\u062a\u062e\u0632\u064a\u0646\u0020\u0627\u0644\u0623\u062d\u0631\u0641\u0020\u0648\u0627\u0644\u0645\u062d\u0627\u0631\u0641\u0020\u0627\u0644\u0623\u062e\u0631\u0649\u0020\u0628\u0639\u062f\u0020\u0623\u0646\u062a\u064f\u0639\u0637\u064a\u0020\u0631\u0642\u0645\u0627\u0020\u0645\u0639\u064a\u0646\u0627\u0020\u0644\u0643\u0644\u0020\u0648\u0627\u062d\u062f\u0020\u0645\u0646\u0647\u0627\u002e\u0020•\u0648\u0642\u0628\u0644\u0020\u0627\u062e\u062a\u0631\u0627\u0639\u0022\u064a\u0648\u0646\u0650\u0643\u0648\u062f\u0022\u060c\u0020\u0643\u0627\u0646\u0020\u0647\u0646\u0627\u0643\u0020\u0645\u0626\u0627\u062a\u0020\u0627\u0644\u0623\u0646\u0638\u0645\u0629\u0020\u0644\u0644\u062a\u0634\u0641\u064a\u0631\u0648\u062a\u062e\u0635\u064a\u0635\u0020\u0647\u0630\u0647\u0020\u0627\u0644\u0623\u0631\u0642\u0627\u0645\u0020\u0644\u0644\u0645\u062d\u0627\u0631\u0641\u060c\u0020\u0648\u0644\u0645\u0020\u064a\u0648\u062c\u062f\u0020\u0646\u0638\u0627\u0645\u062a\u0634\u0641\u064a\u0020\u0639\u0644\u0649\u0020\u062c\u0645\u064a\u0639\u0020\u0627\u0644\u0645\u062d\u0627\u0631\u0641\u0020\u0627\u0644\u0636\u0631\u0648\u0631\u064a\u0629.  •</data>
   1030 
   1031 #         Try a few more of the less common sentence endings.
   1032 <data>•Hello, world\u3002 •Hello, world\u1803 •Hello, world\u2048 •Hello, world\u203c •Let's end here. •</data>
   1033 
   1034 
   1035 
   1036 
   1037 ################################################################
   1038 #
   1039 #
   1040 #        L I N E     B R E A K
   1041 #
   1042 #
   1043 ################################################################
   1044 
   1045 <line>
   1046 #
   1047 # Test Character for each of the line break classes.
   1048 #
   1049 # 00A1;AI # INVERTED EXCLAMATION MARK  ¡
   1050 # 0041;AL # LATIN CAPITAL LETTER A
   1051 # 0009;BA # <control>
   1052 # 00B4;BB # ACUTE ACCENT
   1053 # 000C;BK # <control>
   1054 # 2014;B2 # EM DASH
   1055 # FFFC;CB # OBJECT REPLACEMENT CHARACTER
   1056 # 0029;CL # RIGHT PARENTHESIS
   1057 # 0301;CM # COMBINING ACUTE ACCENT
   1058 # 0021;EX # EXCLAMATION MARK
   1059 # 00A0;GL # NO-BREAK SPACE
   1060 # 002D;HY # HYPHEN-MINUS
   1061 # 4E00;ID # <CJK Ideograph, First>
   1062 # 2024;IN # ONE DOT LEADER
   1063 # 002C;IS # COMMA
   1064 # 000A;LF # <control>
   1065 # 0E5A;NS # THAI CHARACTER ANGKHANKHU
   1066 # 0032;NU # DIGIT TWO
   1067 # 0028;OP # LEFT PARENTHESIS
   1068 # 0025;PO # PERCENT SIGN
   1069 # 0024;PR # DOLLAR SIGN
   1070 # 0022;QU # QUOTATION MARK
   1071 # 0E01;SA # THAI CHARACTER KO KAI
   1072 # DB7F;SG # Surrogate
   1073 # 0020;SP # SPACE
   1074 # 002F;SY # SOLIDUS /
   1075 # F8FF;XX # Private Use
   1076 # 200B;ZW # ZERO WIDTH SPACE
   1077 
   1078 
   1079 # 2b  Always break at end of text
   1080 
   1081 <data>•  •\u00A1•</data>
   1082 <data>•  •\u0041•</data>
   1083 <data>•  •\u0009•</data>
   1084 <data>•  •\u00B4•</data>
   1085 <data>•    \u000C<100></data>    # LB3C  × BK
   1086 <data>•  •\u2014•</data>
   1087 <data>•  •\uFFFC•</data>
   1088 <data>•   \u0029•</data>    # LB 8   × CL
   1089 # <data>• • \u0301•</data>    # LB 7a   Treat SP CM* as if it were ID  #TODO:  SP CM
   1090 <data>•   \u0021•</data>    # LB 8   × EX
   1091 #<data>•   \u00A0•</data>    # LB 11b   × GL   TODO:  fix.
   1092 <data>•  •\u002D•</data>
   1093 <data>•  •\u4E00•</data>
   1094 <data>•  •\u2024•</data>
   1095 <data>•   \u002C•</data>    # LB 8   × IS
   1096 <data>•   \u000A<100></data>    # LB3C   × ( BK | CR | LF | NL )
   1097 <data>•  •\u0E5A•</data>
   1098 <data>•  •\u0032•</data>
   1099 <data>•  •\u0028•</data>
   1100 <data>•  •\u0025•</data>
   1101 <data>•  •\u0024•</data>
   1102 <data>•  •\u0022•</data>
   1103 <data>•  •\u0E01•</data>
   1104 <data>•  •\uDB7F•</data>
   1105 <data>•   \u0020•</data>     # LB4 - don't break before space.
   1106 <data>•   \u002F•</data>     # LB 8  × SY
   1107 <data>•  •\uF8FF•</data>
   1108 <data>•   \u200B•</data>     # LB4 - don't break before ZA
   1109 
   1110 
   1111 # 3a  Always break after hard line breaks.
   1112 # 3c  Never break before hard line breaks.
   1113 
   1114 <data>•  •\u00A1\u2028<100>\u00A1•</data>
   1115 <data>•  •\u0041\u2028<100>\u0041•</data>
   1116 <data>•  •\u0009\u2028<100>\u0009•</data>
   1117 <data>•  •\u00B4\u2028<100>\u00B4•</data>
   1118 <data>•   \u000C<100>\u2028<100>\u000C<100></data>
   1119 <data>•  •\u2014\u2028<100>\u2014•</data>
   1120 <data>•  •\uFFFC\u2028<100>\uFFFC•</data>
   1121 <data>•   \u0029\u2028<100>\u0029•</data>
   1122 <data>•  •\u0301\u2028<100>\u0301•</data>
   1123 <data>•   \u0021\u2028<100>\u0021•</data>
   1124 <data>•  •\u00A0\u2028<100>\u00A0•</data>
   1125 <data>•  •\u002D\u2028<100>\u002D•</data>
   1126 <data>•  •\u4E00\u2028<100>\u4E00•</data>
   1127 <data>•  •\u2024\u2028<100>\u2024•</data>
   1128 <data>•   \u002C\u2028<100>\u002C•</data>
   1129 <data>•   \u000A<100>\u2028<100>\u000A<100></data>
   1130 <data>•  •\u0E5A\u2028<100>\u0E5A•</data>
   1131 <data>•  •\u0032\u2028<100>\u0032•</data>
   1132 <data>•  •\u0028\u2028<100>\u0028•</data>
   1133 <data>•  •\u0025\u2028<100>\u0025•</data>
   1134 <data>•  •\u0024\u2028<100>\u0024•</data>
   1135 <data>•  •\u0022\u2028<100>\u0022•</data>
   1136 <data>•  •\u0E01\u2028<100>\u0E01•</data>
   1137 <data>•  •\uDB7F\u2028<100>\uDB7F•</data>
   1138 <data>•   \u0020\u2028<100>\u0020•</data>
   1139 <data>•   \u002F\u2028<100>\u002F•</data>
   1140 <data>•  •\uF8FF\u2028<100>\uF8FF•</data>
   1141 <data>•   \u200B\u2028<100>\u200B•</data>
   1142 
   1143 # Regional Indicator sequences. They group in pairs.
   1144 #    Sequences are long enough that the non-exaustive monkey test won't reliably pick up problems.
   1145 
   1146 <data>•\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•</data>
   1147 <data>•\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•\U0001F1E6•</data>
   1148 
   1149 <data>•\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6\u00a0\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•</data>
   1150 <data>•\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6\u00a0\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•\U0001F1E6•</data>
   1151 <data>•\U0001F1E6\U0001F1E6•\U0001F1E6\u00a0\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•</data>
   1152 <data>•\U0001F1E6\U0001F1E6•\U0001F1E6\u00a0\U0001F1E6\U0001F1E6•\U0001F1E6\U0001F1E6•\U0001F1E6•</data>
   1153 
   1154 
   1155 # User Guide example
   1156 
   1157 <data>•Parlez-•vous •français ?•</data>
   1158 
   1159 #
   1160 #  Old Line Break Test data.  Originally located in RBBITest::TestDefaultRuleBasedLineIteration()
   1161 #
   1162 
   1163 <line>
   1164 
   1165 <data>•Multi-•Level •example •of •a •semi-•idiotic •non-•sensical •(non-•important) •sentence.
   1166 <100>Hi  •Hello •How\n<100>are\r<100>you\u2028<100>fine.\t•good.  •Now\r<100>is\n<100>the\r\n<100>time\n<100>\r<100>for\r<100>\r<100>all•</data>
   1167 
   1168 <line>
   1169 <data>•Hello! •how\r\n<100> •(are)\r<100> •you? •I'am •fine- •Thankyou. •foo\u00a0bar
   1170 <100>How, •are, •you? •This, •costs •$20,00,000.•</data>
   1171 
   1172 #     test for bug #4068133
   1173 #
   1174 <data>•\u96f6•\u4e00\u3002•\u4e8c\u3001•\u4e09\u3002\u3001•\u56db\u3001\u3002\u3001•\u4e94,•\u516d.•\u4e03.\u3001,\u3002•\u516b•</data>
   1175 
   1176 #     to test for bug #4086052
   1177 <data>•foo\u00a0bar•</data>
   1178 
   1179 #     to test for bug #4097920
   1180 <data>•dog,cat,mouse •(one)•(two)\n<100></data>
   1181 
   1182 #     to test for bug #4035266
   1183 <data>•The •balance •is •$-23,456.78, •not •-•$32,456.78!\n<100></data>
   1184 
   1185 
   1186 #      to test for bug #4098467
   1187 #      What follows is a string of Korean characters (I found it in the Yellow Pages
   1188 #      ad for the Korean Presbyterian Church of San Francisco, and I hope I transcribed
   1189 #      it correctly), first as precomposed syllables, and then as conjoining jamo.
   1190 #      Both sequences should be semantically identical and break the same way.
   1191 #      precomposed syllables...  (I == Rich Gillam?)
   1192 #
   1193 <data>•\uc0c1•\ud56d •\ud55c•\uc778 •\uc5f0•\ud569 •\uc7a5•\ub85c•\uad50•\ud68c•</data>
   1194 
   1195 #      Bug 4450804 estLineBreakContractions
   1196 #
   1197 <line>
   1198 <data>•These •are •'foobles'. •Don't •you •like •them?•</data>
   1199 
   1200 
   1201 #      conjoining jamo...
   1202 <data>•\u1109\u1161\u11bc•\u1112\u1161\u11bc •\u1112\u1161\u11ab•\u110b\u1175\u11ab •\u110b\u1167\u11ab•\u1112\u1161\u11b8 •\u110c\u1161\u11bc•\u1105\u1169•\u1100\u116d•\u1112\u116c•</data>
   1203 
   1204 #      to test for bug #4117554: Fullwidth .!? should be treated as postJwrd
   1205 <data>•\u4e01\uff0e•\u4e02\uff01•\u4e03\uff1f•</data>
   1206 
   1207 #      Surrogate line break tests.
   1208 #
   1209 <data>•\u4e01•\ud840\udc01•\u4e02•abc •\ue000 •\udb80\udc01•</data>  #This line and the following are equivalent.
   1210 <data>•\u4e01•\U00020001•\u4e02•abc •\ue000 •\U000f0001•</data>
   1211 
   1212 #      Regression for bug 836
   1213 #        Note:  Unicode 5.1 changed this behavior
   1214 #               Unicode 5.2 changed it again, there is no break following the '('
   1215 <data>•AAA(AAA •</data>
   1216 
   1217 #       Try some words from other scripts.
   1218 #          Greek, Cyrillic, Hebrew, Arabic, Arabic, Georgian, Latin
   1219 #
   1220 <data>•ΑΒΓ •БВГ •אבג֓ •ابت •١٢٣ •\u10A0\u10A1\u10A2 •ABC •</data>
   1221 
   1222 #
   1223 #       ticket #4853:  unpaired surrogates should behave like AL
   1224 #
   1225 <data>•abc\ud801xyz•</data>
   1226 
   1227 #   a character sequence such as "X11" or "30F3" or "native2ascii" should
   1228 #   be kept together as a single word.
   1229 <data>•X11 •30F3 •native2ascii•</data>
   1230 
   1231 #
   1232 #     Regression tests for failures that originally came from the monkey test.
   1233 #     Monkey test failure lines can, with slight reformatting, be copied into this section
   1234 #     as test cases.  The error display from here is more informative.
   1235 #
   1236 <data>•\ufffc•\u30e3\u000c<100>\u1b39•\u300a\u002f\u203a\u200b•\ufffc•\uaf64•\udcfb•</data>
   1237 <data>•\u114d\u31f3•\ube44\u002d•\u0362\u24e2\u276e\u2014\u205f\ufe16•\uc877•\u0fd0\u000a<100>\u20a3•</data>
   1238 <data>•\u080a\u215b\U0001d7d3\u002c\u2025\U000e012e•\u02df\u118d\u0029\ua8d6\u0085<100>\u6cc4\u2024\u202f\ufffc•</data>
   1239 
   1240 # Test for #10176 (in root)
   1241 <line>
   1242 <data>•abc/•s •def•</data>
   1243 <data>•abc/\u05D9 •def•</data>
   1244 <data>•\u05E7\u05D7/\u05D9 •\u05DE\u05E2\u05D9\u05DC•</data>
   1245 <data>•\u05D3\u05E8\u05D5\u05E9\u05D9\u05DD •\u05E9\u05D7\u05E7\u05E0\u05D9\u05DD/\u05D9\u05D5\u05EA•</data>
   1246 
   1247 # Ticket #11556 don't break "R$" or "JP¥"
   1248 <locale en>
   1249 <line>
   1250 <data>•R$ •JP¥ •a9 •3a •H% •CA$ •Travi$ •Scott •Ke$ha •Curren$y •A$AP •Rocky•</data>
   1251 
   1252 # Test Bug 4146175 Lines
   1253 # the fullwidth comma should stick to the preceding Japanese character
   1254 <line>
   1255 <data>•\u7d42\uff0c•\u308f•</data>
   1256 
   1257 # Empty String
   1258 <line>
   1259 <data>•</data>
   1260 
   1261 # Bug #13664 Mixed Thai & English text had different boundaries between forward & reverse.
   1262 #
   1263 <line>
   1264 <data>•Northern •Thailand •is •a •mountainous •area. •Parallel •mountain •ranges •extend •from •the •\
   1265 Daen •Lao •Range •(ทิว•เขา•แดน•ลาว), •in •the •southern •region •of •the •Shan •Hills, •in •a •\
   1266 north/•south •direction, •the •Dawna •Range •(ทิว•เขา•ดอย•มอน•กุ•จู) •forming •the •western •border •of •Thailand •\
   1267 between •Mae •Hong •Son •and •the •Salween •River, •the •Thanon •Thong •Chai •Range •(เทือก•เขา•ถนน•ธงชัย), •\
   1268 the •Khun •Tan •Range •(ดอย•ขุน•ตาน), •the •Phi •Pan •Nam •Range •(ทิว•เขา•ผี•ปัน•น้ำ), •as •well •as •the •western •\
   1269 part •of •the •Luang •Prabang •Range •(ทิว•เขา•หลวง•พระ•บาง).•</data>
   1270 
   1271 # Breaking around numbers that begin with a decimal point.
   1272 # Bug ICU-12017
   1273 
   1274 <line>
   1275 <data>•start •.789 •end•</data>
   1276 <data>•start .abc •end•</data>
   1277 <data>•start •( .789 •end)•</data>
   1278 <data>•start •.\u0301789 •end•</data>     # \u0301 is a CM (COMBINING ACUTE ACCENT)
   1279 <data>•start •.\u200D789 •end•</data>     # \u200D is ZWJ
   1280 <data>•start •.\u200D\u0301789 •end•</data>
   1281 <data>•start •.\u0301\u200D789 •end•</data>
   1282 <data>•start .\u0301\u200D•</data>
   1283 <data>•start .\u0301\u200D •</data>
   1284 <data>•start ; •end •</data>
   1285 
   1286 ########################################################################################
   1287 #
   1288 #
   1289 #       T i t l e   B o u n d a r y      T e s t s
   1290 #
   1291 #
   1292 ##########################################################################################
   1293 <title>
   1294 <data>•Here •is •a •short •sample •sentence.  •And •another.•</data>
   1295 <data>•HERE •IS •A •SHORT •SAMPLE •SENTENCE.  •AND •ANOTHER.•</data>
   1296 <data>•  •Start •and •end •with •spaces   •</data>
   1297 <data>•Include 123 456 ^&  •some 54332 •numbers 4445•abc123•abc •ending 1223 •</data>
   1298 
   1299 <data>•Combining\u0301 \u0301•ma\u0306rks  •bye  •</data>
   1300 <data>•123  •Start •with •a •number.•</data>
   1301 
   1302 <data>•'•start •with •a •case-•ignorable •cha'r'a'cter•</data>
   1303 <data>•'  '' •start •with •case-•ignorable & •case-•insensitive •cha'r'a'cter•</data>
   1304 <data>•  ''•aaa' •bbb '•ccc' '•ddd''' '''•eee   '''•fff'''   •ggg  ''•</data>
   1305 # Note: apostrophe is case-ignorable. space is not cased.
   1306 
   1307 ##########################################################################################
   1308 #
   1309 #   Thai Tests
   1310 #
   1311 ##########################################################################################
   1312 <locale th>
   1313 <word>
   1314 #
   1315 # Test data originally from the test code source file
   1316 #      // @suwit -- Thai sample data from GVT Guideline
   1317 #
   1318 <data>•\u0E2B\u0E19\u0E36\u0E48\u0E07<200>\u0E04\u0E33<200>\u0E44\u0E17\u0E22<200>\
   1319 \u0E2A\u0E32\u0E21\u0E32\u0E23\u0E16<200>\u0E1B\u0E23\u0E30\u0E01\u0E2D\u0E1A<200>\
   1320 \u0E14\u0E49\u0E27\u0E22<200>\u0e2b\u0e25\u0e32\u0e22<200>\
   1321 \u0e1e\u0e22\u0e32\u0e07\u0e04\u0e4c<200></data>
   1322 
   1323 # Test data originally from
   1324 # ICU-8576 svn r30327 = git commit 62d26cc5fe8cc66696143c44a43d664c2d7be100
   1325 <data>•กู<200> •กิน<200>กุ้ง<200> •ปิ้่<200>งอ<200>ยู่<200>ใน<200>ถ้ำ<200></data>
   1326 
   1327 <data>•\u0E01\u0E39<200>\u0020•\u0E01\u0E34\u0E19<200>\u0E01\u0E38\u0E49\u0E07<200>\
   1328 \u0020•\u0E1B\u0E34\u0E49\u0E48<200>\u0E07\u0E2D<200>\u0E22\u0E39\u0E48<200>\
   1329 \u0E43\u0E19<200>\u0E16\u0E49\u0E33<200></data>
   1330 
   1331 <line>
   1332 <data>•0E01\u0E39\u0020•\u0E01\u0E34\u0E19•\u0E01\u0E38\u0E49\u0E07\
   1333 \u0020•\u0E1B\u0E34\u0E49\u0E48•\u0E07\u0E2D•\u0E22\u0E39\u0E48•\
   1334 \u0E43\u0E19•\u0E16\u0E49\u0E33•</data>
   1335 
   1336 # Data originally from intltest RBBITest::TestThaiLineBreak()
   1337 #
   1338 #  \u0e2f-- the Thai paiyannoi character-- isn't a letter.  It's a symbol that
   1339 #  represents elided letters at the end of a long word.  It should be bound to
   1340 #  the end of the word and not treated as an independent punctuation mark.
   1341 #
   1342 #  the one time where the paiyannoi occurs somewhere other than at the end
   1343 #  of a word is in the Thai abbreviation for "etc.", which both begins and
   1344 #  ends with a paiyannoi
   1345 #
   1346 <line>
   1347 <data>•\u0e2a\u0e16\u0e32\u0e19\u0e35\u0e2f•\
   1348 \u0e08\u0e30•\
   1349 \u0e23\u0e30\u0e14\u0e21•\
   1350 \u0e40\u0e08\u0e49\u0e32•\
   1351 \u0e2b\u0e19\u0e49\u0e32\u0e17\u0e35\u0e48•\
   1352 \u0e2d\u0e2d\u0e01•\
   1353 \u0e21\u0e32•\
   1354 \u0e40\u0e23\u0e48\u0e07•\
   1355 \u0e23\u0e30\u0e1a\u0e32\u0e22•\
   1356 \u0e2d\u0e22\u0e48\u0e32\u0e07•\
   1357 \u0e40\u0e15\u0e47\u0e21•\
   1358 \u0e2f\u0e25\u0e2f•\
   1359 \u0e17\u0e35\u0e48•\
   1360 \u0e19\u0e31\u0e49\u0e19•</data>
   1361 
   1362 # Data originally from RBBITest::TestMixedThaiLineBreak()
   1363 #   @suwit -- Test Arabic numerals, Thai numerals, Punctuation and English characters start
   1364 #
   1365 <line>
   1366 <data>•\u0E1B\u0E35•\
   1367 \u0E1E\u0E38\u0E17\u0E18\u0E28\u0E31\u0E01\u0E23\u0E32\u0E0A •\
   1368 2545 •\
   1369 \u0E40\u0E1B\u0E47\u0E19•\
   1370 \u0E1B\u0E35•\
   1371 \u0E09\u0E25\u0E2D\u0E07•\
   1372 \u0E04\u0E23\u0E1A•\
   1373 \u0E23\u0E2D\u0E1A •\
   1374 \"\u0E52\u0E52\u0E50 •\
   1375 \u0E1b\u0E35\" •\
   1376 \u0E02\u0E2d\u0E07•\
   1377 \u0E01\u0E23\u0E38\u0E07•\
   1378 \u0E23\u0E31\u0E15\u0E19\u0E42\u0E01\u0E2A\u0E34\u0E19\u0E17\u0E23\u0E4C •\
   1379 (\u0E01\u0E23\u0E38\u0E07\u0E40\u0E17\u0E1e\u0E2F•\
   1380 \u0E2B\u0E23\u0E37\u0E2D •\
   1381 Bangkok)•</data>
   1382 
   1383 # Data originally from RBBITest::TestMaiyamok()
   1384 #   The Thai maiyamok character is a shorthand symbol that means "repeat the previous
   1385 #   word".  Instead of appearing as a word unto itself, however, it's kept together
   1386 #   with the word before it.
   1387 #
   1388 <line>
   1389 <data>•\u0e44\u0e1b\u0e46•\
   1390 \u0e21\u0e32\u0e46•\
   1391 \u0e23\u0e30\u0e2b\u0e27\u0e48\u0e32\u0e07•\
   1392 \u0e01\u0e23\u0e38\u0e07•\
   1393 \u0e40\u0e17\u0e1e•\
   1394 \u0e41\u0e25\u0e30•\
   1395 \u0e40\u0e03\u0e35•\
   1396 \u0e22\u0e07•\
   1397 \u0e43\u0e2b\u0e21\u0e48•</data>
   1398 
   1399 # Test for #10296
   1400 <line>
   1401 <data>•ใช•มั้ย•</data>
   1402 <data>•มั๊ยล่ะ•ที่รัก•</data>
   1403 
   1404 # Test for #10593
   1405 <line>
   1406 <data>•เล่น•ผ่าน•ทาง•บลูทูธ•บน•อุปกรณ์•</data>
   1407 
   1408 # Test for city names #10691
   1409 <line>
   1410 <data>•ไป•ที่•ซานฟรานซิสโก•</data>
   1411 
   1412 # Test for #10630, #10631
   1413 <line>
   1414 <data>•แท็ก•แอปพลิเคชัน•เป็น•พิเศษ•</data>
   1415 
   1416 # Test for #11019
   1417 <line>
   1418 <data>•เบ•เบราว์เซอร์•โพ•โพสต์•โพสท์•</data>
   1419 
   1420 # Test for #11688
   1421 <line>
   1422 <data>•อัปเดต•อีเวนต์•</data>
   1423 
   1424 <line>
   1425 <data>•แอป์•นี้•ไม่•รองรับ •Android •เวอร์ชัน•ล่าสุด •หาก•แอป•นี้•เข้า•ถึง•ไฟล์•เพลง•และ•ไฟล์•เสียง•ได้ •ก็•จะ•ได้•รับ•อนุญาต•ให้•เข้า•ถึง•รูปภาพ•และ•วิดีโอ•ด้วย•</data>
   1426 
   1427 ##########################################################################################
   1428 #
   1429 #   Lao Tests
   1430 #
   1431 ##########################################################################################
   1432 <locale en>
   1433 # Basic check for #7647
   1434 <line>
   1435 <data>•ສະບາຍດີ•</data>
   1436 <data>•ດີ•ຂອບໃຈ•</data>
   1437 <data>•ເຈົ້າ•ເວົ້າ•ພາສາ•ອັງກິດ•ໄດ້•ບໍ່•</data>
   1438 <data>•ກະລຸນາ•ເວົ້າ•ຊ້າ•ໆ•</data>
   1439 # More checks for ICU-21413 (check both moved and added entries)
   1440 <line>
   1441 <data>•ກໍ•ກໍ່•ກໍ້•</data>
   1442 <data>•ກວາກຊວາກ•ກະເຈາະກະຈອກ•</data>
   1443 <data>•ກະຊວງປ້ອງກັນຄວາມສະຫງົບ•</data>
   1444 <data>•ໄຮ•ໄຮ່•ໄຮ້•</data>
   1445 # Checks for ICU-21409 (and ICU-21384)
   1446 <line>
   1447 <data>•ຣະຄັງ•ຣະມາ•ລູຊີເຟີ•</data>
   1448 
   1449 ##########################################################################################
   1450 #
   1451 #   Burmese/Myanmar Tests
   1452 #
   1453 ##########################################################################################
   1454 <locale en>
   1455 # Basic sanity check for #10326 (some text from http://www.unicode.org/udhr/d/udhr_mya.txt)
   1456 <line>
   1457 <data>•လူ•တိုင်း•သည် •တူညီ •လွတ်လပ်•သော •ဂုဏ်•သိ•က္•ခါ•ဖြ•င့် •လည်းကောင်း၊ •</data>
   1458 <data>•တူညီ•လွတ်လပ်•သော •အ•ခွ•င့်•အရေး•များ•ဖြ•င့် •လည်းကောင်း၊ •မွေး•ဖွား•လာ•သူများ •ဖြစ်သည်။•</data>
   1459 <data>•ထို•သူ•တို့၌ •ပိုင်းခြား •ဝေဖန်•တတ်•သော •ဉာဏ်•နှ•င့် •ကျ•င့်•ဝတ် •သိတတ်•သော •စိတ်•တို့•ရှိ•ကြ၍ •</data>
   1460 <data>•ထို•သူ•တို့သည် •အချင်းချင်း •မေတ္တာ•ထား၍ •ဆက်ဆံ•ကျ•င့်•သုံး•</data>
   1461 
   1462 ##########################################################################################
   1463 #
   1464 #   Khmer Tests
   1465 #
   1466 ##########################################################################################
   1467 
   1468 # Test data originally from
   1469 # ICU-8576 svn r30327 = git commit 62d26cc5fe8cc66696143c44a43d664c2d7be100
   1470 #  from the file testdata/wordsegments.txt
   1471 <locale en>
   1472 <word>
   1473 
   1474 <data>•តើ<200>លោក<200>មក<200>ពី<200>ប្រទេស<200>ណា<200></data>
   1475 <data>•សណ្ដូក<200>ក<200>បណ្ដែត<200>ខ្លួន<200></data>
   1476 <data>•ពណ៌ស<200>ម្ដេច<200>ថា<200>ខ្មៅ<200></data>
   1477 #ប្រយោគ|ពី|របៀប|រួបរួម|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល<200></data>
   1478 <data>•ប្រយោគ<200>ពី<200>របៀប<200>ដែល<200>និង<200>ភាព<200>ផ្សេងគ្នា<200>ដែល<200>អាច<200>ចូល<200></data>
   1479 #ប្រយោគ|ពី|របៀប|ជា|មួយ|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល<200></data>
   1480 <data>•សូម<200>ចំណាយពេល<200>បន្តិច<200>ដើម្បី<200>អធិស្ឋាន<200>អរព្រះគុណ<200>ដល់<200>ព្រះអង្គ<200></data>
   1481 <data>•ការ<200>ថោកទាប<200>បរិប្បូណ៌<200>ដោយ<200></data>
   1482 <data>•ប្រើប្រាស់<200>ស្អាត<200>ទាំង<200>ចិត្ត<200>សិស្ស<200>នោះ<200></data>
   1483 <data>•បើ<200>អ្នក<200>ប្រព្រឺត្ត<200>អំពើអាក្រក់<200>មុខ<200>ជា<200>មាន<200></data>
   1484 <data>•ប្រដាប់<200>ប្រដា<200>រ<200>រៀនសូត្រ<200>បន្ទប់<200>រៀន<200></data>
   1485 <data>•ដើរតួ<200>មនុស្សគ<200>ឥត<200>បញ្ចេញ<200>យោបល់<200>សោះ<200>ឡើយ<200></data>
   1486 <data>•មិន<200>អាច<200>ឲ្យ<200>យើង<200>ធ្វើ<200>កសិកម្ម<200>បាន<200>ឡើយ<200></data>
   1487 <data>•បន្ត<200>សេចក្ត<200>ទៅទៀត<200></data>
   1488 <data>•ក្រុម<200>ប៉ូលិស<200>បណ្តាក់<200>គ្នា<200></data>
   1489 <data>•គ្មាន<200>សុខ<200>សំរាន្ត<200>ដង<200>ណា<200></data>
   1490 <data>•បាន<200>សុខភាព<200>បរិប្បូណ៌<200></data>
   1491 <data>•ជា<200>មេចោរ<200>ខ្ញុំ<200>នឹង<200>ស្លាប់<200>ទៅវិញ<200>ជា<200>មេចោរ<200></data>
   1492 <data>•ឯ<200>ការ<200>វាយ<200>ផ្ចាល<200>ដែល<200>នាំ<200></data>
   1493 <data>•គេ<200>ដឹក<200>ទៅ<200>សំឡាប់<200></data>
   1494 #អ្នក|ដែល|ជា|មន្ត្រី|ធំ|លើ|គាត់|ទេ<200></data>
   1495 <data>•យក<200>ទៅ<200>សម្លាប់ចោល<200>ស្ងាត់<200></data>
   1496 <data>•ត្រូវ<200>បាន<200>គេ<200>សម្លាប់<200></data>
   1497 <data>•នៅក្នុង<200>ស្រុក<200>ខ្ល<200>ងហ្ស៊ុន<200></data>
   1498 
   1499 
   1500 #
   1501 #  Jitterbug 3671 Test Case
   1502 #
   1503 <data>•สวัสดี<200>ครับ<200>สบาย<200>ดี<200>ไหม<200> •ครับ<200></data>
   1504 
   1505 #
   1506 #  Trac ticket 5595 Test Case
   1507 <data>•บท<200>ที่๑พายุ<200>ไซโคลน<200>โด<200>โรธี<200>อาศัย<200>อยู่<200>ท่ามกลาง<200>\
   1508 ทุ่งใหญ่<200>ใน<200>แคนซัส<200>กับ<200>ลุง<200>เฮ<200>นรี<200>ชาวไร่<200>และ<200>ป้า<200>เอ็ม<200>\
   1509 ภรรยา<200>ชาวไร่<200>บ้าน<200>ของ<200>พวก<200>เขา<200>หลัง<200>เล็ก<200>เพราะ<200>ไม้<200>\
   1510 สร้าง<200>บ้าน<200>ต้อง<200>ขน<200>มา<200>ด้วย<200>เกวียน<200>เป็น<200>ระยะ<200>ทาง<200>หลาย<200>\
   1511 ไมล์<200></data>
   1512 
   1513 ####################################################################################
   1514 #
   1515 #  Tailored (locale specific) breaking.
   1516 #
   1517 ####################################################################################
   1518 
   1519 # Japanese line break tailoring test
   1520 
   1521 <locale ja>
   1522 <line>
   1523 <data>•\u3041•\u3043•\u3045•\u31f1•</data>
   1524 <locale en>
   1525 <line>
   1526 <data>•\u3041\u3043\u3045\u31f1•</data>
   1527 
   1528 # The following data was originally in RBBITest::TestJapaneseWordBreak()
   1529 <locale ja>
   1530 <word>
   1531 <data>•\u4ECA\u65E5<400>\u306F<400>\u3044\u3044<400>\u5929\u6C17<400>\u3067\u3059<400>\u306D<400>\u3002•\u000D\u000A•</data>
   1532 
   1533 # UBreakIteratorType UBRK_WORD, Locale "ja"
   1534 # Don't break in runs of hiragana or runs of ideograph, where the latter includes \u3005 \u3007 \u303B (cldrbug #2009).
   1535 # \u79C1\u9054\u306B\u4E00\u3007\u3007\u3007\u306E\u30B3\u30F3\u30D4\u30E5\u30FC\u30BF\u304C\u3042\u308B\u3002\u5948\u3005\u306F\u30EF\u30FC\u30C9\u3067\u3042\u308B\u3002
   1536 # modified to work with dbbi code - should verify
   1537 
   1538 <locale ja>
   1539 <word>
   1540 <data>•私<400>達<400>に<400>一<400>〇<400>〇〇<400>の<400>コンピュータ<400>が<400>ある<400>。<0>奈々<400>は<400>ワード<400>で<400>ある<400>。•</data>
   1541 
   1542 # Test for #10176 (in ja)
   1543 <line>
   1544 <data>•abc/•s •def•</data>
   1545 <data>•abc/\u05D9 •def•</data>
   1546 <data>•\u05E7\u05D7/\u05D9 •\u05DE\u05E2\u05D9\u05DC•</data>
   1547 <data>•\u05D3\u05E8\u05D5\u05E9\u05D9\u05DD •\u05E9\u05D7\u05E7\u05E0\u05D9\u05DD/\u05D9\u05D5\u05EA•</data>
   1548 
   1549 
   1550 <locale root>
   1551 <word>
   1552 <data>•私<400>達<400>に<400>一<400>〇<400>〇〇<400>の<400>コンピュータ<400>が<400>ある<400>。<0>奈々<400>は<400>ワード<400>で<400>ある<400>。•</data>
   1553 # The following test is for #10300
   1554 <data>•例えば<400>オーストラリア<400>。•</data>
   1555 # The following test is for #10571
   1556 <data>•一部<400>の<400>地域<400>では<400>、<0>ブラジル<400>、<0>インドネシア<400>、<0>オーストリア<400>、<0>ニュージーランド<400>で<400>ある<400>。•</data>
   1557 
   1558 # UBreakIteratorType UBRK_SENTENCE, Locale "el"
   1559 # Add break after Greek question mark (cldrbug #2069).
   1560 # "\u0391\u03B2, \u03B3\u03B4; \u0395 \u03B6\u03B7\u037E \u0398 \u03B9\u03BA. "
   1561 # "\u039B\u03BC \u03BD\u03BE! \u039F\u03C0, \u03A1\u03C2? \u03A3"
   1562 # which is "Αβ, γδ; Ε ζη; Θ ικ. Λμ νξ! Οπ, Ρς? Σ"
   1563 
   1564 <locale root>
   1565 <sent>
   1566 <data>•Αβ, γδ; Ε ζη; Θ ικ. •Λμ νξ! •Οπ, Ρς? •Σ<100></data>
   1567 
   1568 <locale el>
   1569 <sent>
   1570 <data>•Αβ, γδ; •Ε ζη; •Θ ικ. •Λμ νξ! •Οπ, Ρς? •Σ<100></data>
   1571 
   1572 #  UBreakIteratorType UBRK_WORD, Locale "en_US_POSIX"
   1573 #  Words don't include colon or period (cldrbug #1969).
   1574 
   1575 <locale en_US>
   1576 <word>
   1577 <data>•Can't<200> •have<200> •breaks<200> •in<200> •xx:yy<200> •or<200> •struct.field<200> \
   1578 •for<200> •CS<200>-•types<200>.•</data>
   1579 <data>•\uFF92\uFF76\uFF9E<400> •</data>
   1580 <data>•xx<200>@•yy<200>.•</data>
   1581 
   1582 <locale en_US_POSIX>
   1583 <word>
   1584 <data>•Can't<200> •have<200> •breaks<200> •in<200> •xx<200>:•yy<200> •or<200> •struct<200>.•field<200> \
   1585 •for<200> •CS<200>-•types<200>.•</data>
   1586 <data>•\u06c9<200>\uc799\ufffa•</data>
   1587 <data>•\uFF92\uFF76\uFF9E<400> •</data>
   1588 <data>•xx<200>@•yy<200>.•</data>
   1589 
   1590 <locale fi>
   1591 <word>
   1592 <data>•Can't<200> •have<200> •breaks<200> •in<200> •xx:yy<200> •or<200> •struct.field<200> \
   1593 •for<200> •CS<200>-•types<200>.•</data>
   1594 <data>•\uFF92\uFF76\uFF9E<400> •</data>
   1595 <data>•xx<200>@•yy<200>.•</data>
   1596 
   1597 <locale sv>
   1598 <word>
   1599 <data>•Can't<200> •have<200> •breaks<200> •in<200> •xx:yy<200> •or<200> •struct.field<200> \
   1600 •for<200> •CS<200>-•types<200>.•</data>
   1601 <data>•\uFF92\uFF76\uFF9E<400> •</data>
   1602 <data>•xx<200>@•yy<200>.•</data>
   1603 
   1604 
   1605 # UBreakIteratorType UBRK_CHARACTER, Locale "th"
   1606 # Clusters should not include spacing Thai/Lao vowels (prefix or postfix), except for [SARA] AM (cldrbug #2161).
   1607 # Update:  As of Unicode 6.1 root has same behavior as th for this.
   1608 #
   1609 # "\u0E01\u0E23\u0E30\u0E17\u0E48\u0E2D\u0E21\u0E23\u0E08\u0E19\u0E32 "
   1610 # "(\u0E2A\u0E38\u0E0A\u0E32\u0E15\u0E34-\u0E08\u0E38\u0E11\u0E32\u0E21\u0E32\u0E28) "
   1611 # "\u0E40\u0E14\u0E47\u0E01\u0E21\u0E35\u0E1B\u0E31\u0E0D\u0E2B\u0E32 "
   1612 # which is "กระท่อมรจนา (สุชาติ-จุฑามาศ) เด็กมีปัญหา "
   1613 
   1614 <locale th>
   1615 <char>
   1616 <data>•\u0E01•\u0E23•\u0E30•\u0E17\u0E48•\u0E2D•\u0E21•\u0E23•\u0E08•\u0E19•\u0E32• •\
   1617 (•\u0E2A\u0E38•\u0E0A•\u0E32•\u0E15\u0E34•-•\u0E08\u0E38•\u0E11•\u0E32•\u0E21•\u0E32•\u0E28•)• •\
   1618 \u0E40•\u0E14\u0E47•\u0E01•\u0E21\u0E35•\u0E1B\u0E31•\u0E0D•\u0E2B•\u0E32• •</data>
   1619 
   1620 # Finnish line breaking
   1621 #
   1622 # These rules deal with hyphens when there is a space on the leading side.
   1623 # When followed by a letter, there should be a break opportunity between
   1624 # the space and the hyphen, and not after the hyphen.
   1625 # See CLDR ticket 3029.
   1626 # See ICU ticket 8151
   1627 # As of ICU 63, the Finnish tailoring behavior is moved to root.
   1628 
   1629 <locale root>
   1630 <line>
   1631 <data>•abc •- •def    •abc •-def    •abc- •def   •abc-•def•</data>   # With ASCII hyphen
   1632 <data>•abc •‐ •def    •abc •‐def    •abc‐ •def   •abc‐•def•</data>   # With Unicode u2010 hyphen
   1633 
   1634 <locale fi>
   1635 <line>
   1636 <data>•abc •- •def    •abc •-def    •abc- •def   •abc-•def•</data>   # With ASCII hyphen
   1637 <data>•abc •‐ •def    •abc •‐def    •abc‐ •def   •abc‐•def•</data>   # With Unicode u2010 hyphen
   1638 
   1639 # Test for #10176 (in fi)
   1640 <line>
   1641 <data>•abc/•s •def•</data>
   1642 <data>•abc/\u05D9 •def•</data>
   1643 <data>•\u05E7\u05D7/\u05D9 •\u05DE\u05E2\u05D9\u05DC•</data>
   1644 <data>•\u05D3\u05E8\u05D5\u05E9\u05D9\u05DD •\u05E9\u05D7\u05E7\u05E0\u05D9\u05DD/\u05D9\u05D5\u05EA•</data>
   1645 
   1646 ####################################################################################
   1647 #
   1648 #  Test CSS line break variants: strict, normal, loose
   1649 #
   1650 ####################################################################################
   1651 
   1652 <locale ja@lb=strict>
   1653 <line>
   1654 #     •no brk before 3063              •no brk before 301C•no brk btw 2026   •no brk before FF01•
   1655 <data>•\u3084\u3063•\u3071•\u308A\u0020•\u0031\u301C\u0020•\u2026\u2026\u0020•\u30A2\uFF01\u0020•</data>
   1656 
   1657 <locale ja@lb=normal>
   1658 <line>
   1659 #     •brk OK before 3063               •brk OK before 301C •no brk btw 2026   •no brk before FF01•
   1660 <data>•\u3084•\u3063•\u3071•\u308A\u0020•\u0031•\u301C\u0020•\u2026\u2026\u0020•\u30A2\uFF01\u0020•</data>
   1661 
   1662 #     •no brk before 2010                                 •
   1663 <data>•\u3042\u2010•\u0031\u0020•\u0061\u2010•\u0031\u0020•</data>
   1664 
   1665 <locale ja@lb=loose>
   1666 <line>
   1667 #     •brk OK before 3063               •brk OK before 301C •brk OK btw 2026    •brk OK before FF01•
   1668 <data>•\u3084•\u3063•\u3071•\u308A\u0020•\u0031•\u301C\u0020•\u2026•\u2026\u0020•u30A2•\uFF01\u0020•</data>
   1669 
   1670 #     •no brk before 2010 except ok after ID               •
   1671 <data>•\u3042•\u2010•\u0031\u0020•\u0061\u2010•\u0031\u0020•</data>
   1672 
   1673 <locale en@lb=strict>
   1674 <line>
   1675 #     •no brk before 3063              •no brk before 301C•no brk btw 2026   •no brk before FF01•
   1676 <data>•\u3084\u3063•\u3071•\u308A\u0020•\u0031\u301C\u0020•\u2026\u2026\u0020•\u30A2\uFF01\u0020•</data>
   1677 
   1678 <locale en@lb=normal>
   1679 <line>
   1680 #     •brk OK before 3063               •no brk before 301C •no brk btw 2026  •no brk before FF01•
   1681 <data>•\u3084•\u3063•\u3071•\u308A\u0020•\u0031\u301C\u0020•\u2026\u2026\u0020•\u30A2\uFF01\u0020•</data>
   1682 
   1683 <locale en@lb=loose>
   1684 <line>
   1685 #     •brk OK before 3063               •no brk before 301C •brk OK btw 2026   •no brk before FF01•
   1686 <data>•\u3084•\u3063•\u3071•\u308A\u0020•\u0031\u301C\u0020•\u2026•\u2026\u0020•u30A2\uFF01\u0020•</data>
   1687 
   1688 ####################################################################################
   1689 #
   1690 #  Test breaks for emoji clusters (same for all locales, mostly the same for all break types)
   1691 #
   1692 ####################################################################################
   1693 
   1694 <locale root>
   1695 
   1696 <char>
   1697 # woman zwj woman zwj girl zwj girl, woman/fitz-1-2 zwj woman/fitz-4 zwj boy/fitz-6
   1698 <data>•\U0001F469\u200D\U0001F469\u200D\U0001F467\u200D\U0001F467•\U0001F469\U0001F3FB\u200D\U0001F469\U0001F3FD\u200D\U0001F466\U0001F3FF•</data>
   1699 # woman zwj baby/fitz-3, older_woman/fitz-5, runner/fitz-4, raised_fist/fitz-3, fuel_pump, fitz-3
   1700 #TODO: <data>•\U0001F469\u200D\U0001F476\U0001F3FC•\U0001F475\U0001F3FE•\U0001F3C3\U0001F3FD•\u270A\U0001F3FC•\u26FD•\U0001F3FC•</data>
   1701 # man zwj hvy_blk_heart zwj man, woman, man zwj hvy_blk_heart/evar zwj man, woman
   1702 <data>•\U0001F468\u200D\u2764\u200D\U0001F468•\U0001F469•\U0001F468\u200D\u2764\uFE0F\u200D\U0001F468•\U0001F469•</data>
   1703 # woman zwj hvy_blk_heart/evar zwj kiss_mark zwj woman, sleuth/fitz-4, horse_racing/fitz-5
   1704 <data>•\U0001F469\u200D\u2764\uFE0F\u200D\U0001F48B\u200D\U0001F469•\U0001F575\U0001F3FD•\U0001F3C7\U0001F3FE•</data>
   1705 # victory_hand/evar, victory_hand/evar/fitz-1-2, victory_hand/fitz-1-2, rowboat/fitz-4, vulcan_salute/fitz-5, space,
   1706 <data>•\u270C\uFE0F•\u270C\uFE0F\U0001F3FB•\u270C\U0001F3FB•\U0001F6A3\U0001F3FD•\U0001F596\U0001F3FE•\u0020•</data>
   1707 # writing_hand fitz-1-2, splayed_hand/fitz-3, middle_finger/fitz-4, sign_of_horns/fitz-5, eye zwj left_speech_bubble, space
   1708 <data>•\u270D\U0001F3FB•\U0001F590\U0001F3FC•\U0001F595\U0001F3FD•\U0001F918\U0001F3FE•\U0001F441\u200D\U0001F5E8•\u0020•</data>
   1709 # family (man, boy, boy), family (woman, girl), space
   1710 <data>•\U0001F468\u200D\U0001F466\u200D\U0001F466•\U0001F469\u200D\U0001F467•\u0020•</data>
   1711 # rainbow flag using evar, rainbow flag no evar, space
   1712 <data>•\U0001F3F3\uFE0F\u200D\U0001F308•\U0001F3F3\u200D\U0001F308•\u0020•</data>
   1713 # woman with ball using evar, woman with ball no evar, woman with ball fitz 4 using evar, woman with ball fitz 4 no evar, space
   1714 <data>•\u26F9\uFE0F\u200D\u2640\uFE0F•\u26F9\u200D\u2640•\u26F9\U0001F3FD\u200D\u2640\uFE0F•\u26F9\U0001F3FD\u200D\u2640•\u0020•</data>
   1715 # woman runner using evar, woman runner no evar, woman runner fitz 4 using evar, woman runner fitz 4 no evar, space
   1716 <data>•\U0001F3C3\u200D\u2640\uFE0F•\U0001F3C3\u200D\u2640•\U0001F3C3\U0001F3FD\u200D\u2640\uFE0F•\U0001F3C3\U0001F3FD\u200D\u2640•\u0020•</data>
   1717 # 9.0 + professions
   1718 # black heart, fitz 4, squid, fitz4, man dancing /fitz4, mother xmas /fitz4
   1719 #TODO: <data>•\U0001F5A4•\U0001F3FD•\U0001F991•\U0001F3FD•\U0001F57A\U0001F3FD•\U0001F936\U0001F3FD•\u0020•</data>
   1720 # facepalm, facepalm / fitz4, facepalm + woman +var, facepalm + woman -var, facepalm/fitz4 + woman +var, facepalm/fitz4 + woman -var
   1721 <data>•\U0001F926•\U0001F926\U0001F3FD•\U0001F926\u200D\u2640\uFE0F•\U0001F926\u200D\u2640•\U0001F926\U0001F3FD\u200D\u2640\uFE0F•\U0001F926\U0001F3FD\u200D\u2640•\u0020•</data>
   1722 # handball, handball / fitz4, handball + man +var, handball + man -var, handball/fitz4 + man +var, handball/fitz4 + man -var
   1723 <data>•\U0001F93E•\U0001F93E\U0001F3FD•\U0001F93E\u200D\u2642\uFE0F•\U0001F93E\u200D\u2642•\U0001F93E\U0001F3FD\u200D\u2642\uFE0F•\U0001F93E\U0001F3FD\u200D\u2642•\u0020•</data>
   1724 # man health worker +var, man health worker -var, man health worker / fitz4 +var, man health worker / fitz4 -var
   1725 <data>•\U0001F468\u200D\u2695\uFE0F•\U0001F468\u200D\u2695•\U0001F468\U0001F3FD\u200D\u2695\uFE0F•\U0001F468\U0001F3FD\u200D\u2695•\u0020•</data>
   1726 # woman astronaut, woman astronaut / fitz4
   1727 <data>•\U0001F469\u200D\U0001F680•\U0001F469\U0001F3FD\u200D\U0001F680•\u0020•</data>
   1728 # modifier bases added in emoji 4.0
   1729 # SNOWBOARDER/fitz-3, HORSE RACING/fitz-4, GOLFER/fitz-5, MAN IN BUSINESS SUIT LEVITATING/fitz-6, SLEEPING ACCOMMODATION/fitz-12, space
   1730 <data>•\U0001F3C2\U0001F3FC•\U0001F3C7\U0001F3FD•\U0001F3CC\U0001F3FE•\U0001F574\U0001F3FF•\U0001F6CC\U0001F3FB•\u0020•</data>
   1731 # test kiss: man, man with variation selector
   1732 <data>•\U0001F468\u200D\u2764\uFE0F\u200D\U0001F48B\u200D\U0001F468•\u0020•</data>
   1733 
   1734 # flags1    AE AF AL AM AO AR AT
   1735 <data>•\U0001F1E6\U0001F1EA•\U0001F1E6\U0001F1EB•\U0001F1E6\U0001F1F1•\U0001F1E6\U0001F1F2•\U0001F1E6\U0001F1F4•\U0001F1E6\U0001F1F7•\U0001F1E6\U0001F1F9•</data>
   1736 # flags2    AU AZ BA BD BE BF BG
   1737 <data>•\U0001F1E6\U0001F1FA•\U0001F1E6\U0001F1FF•\U0001F1E7\U0001F1E6•\U0001F1E7\U0001F1E9•\U0001F1E7\U0001F1EA•\U0001F1E7\U0001F1EB•\U0001F1E7\U0001F1EC•</data>
   1738 # flags3    BH BJ BN BO BR BS BT
   1739 <data>•\U0001F1E7\U0001F1ED•\U0001F1E7\U0001F1EF•\U0001F1E7\U0001F1F3•\U0001F1E7\U0001F1F4•\U0001F1E7\U0001F1F7•\U0001F1E7\U0001F1F8•\U0001F1E7\U0001F1F9•</data>
   1740 # flags4    BW BY BZ CA CD CF CG
   1741 <data>•\U0001F1E7\U0001F1FC•\U0001F1E7\U0001F1FE•\U0001F1E7\U0001F1FF•\U0001F1E8\U0001F1E6•\U0001F1E8\U0001F1E9•\U0001F1E8\U0001F1EB•\U0001F1E8\U0001F1EC•</data>
   1742 # flags5    CH CI CL CM CN CO CR
   1743 <data>•\U0001F1E8\U0001F1ED•\U0001F1E8\U0001F1EE•\U0001F1E8\U0001F1F1•\U0001F1E8\U0001F1F2•\U0001F1E8\U0001F1F3•\U0001F1E8\U0001F1F4•\U0001F1E8\U0001F1F7•</data>
   1744 # flags6    CU CV CY CZ DE DJ DK
   1745 <data>•\U0001F1E8\U0001F1FA•\U0001F1E8\U0001F1FB•\U0001F1E8\U0001F1FE•\U0001F1E8\U0001F1FF•\U0001F1E9\U0001F1EA•\U0001F1E9\U0001F1EF•\U0001F1E9\U0001F1F0•</data>
   1746 # flags7    DM DO DZ EC EE EG ER
   1747 <data>•\U0001F1E9\U0001F1F2•\U0001F1E9\U0001F1F4•\U0001F1E9\U0001F1FF•\U0001F1EA\U0001F1E8•\U0001F1EA\U0001F1EA•\U0001F1EA\U0001F1EC•\U0001F1EA\U0001F1F7•</data>
   1748 # flags8    ES ET FI FJ FR GA GB
   1749 <data>•\U0001F1EA\U0001F1F8•\U0001F1EA\U0001F1F9•\U0001F1EB\U0001F1EE•\U0001F1EB\U0001F1EF•\U0001F1EB\U0001F1F7•\U0001F1EC\U0001F1E6•\U0001F1EC\U0001F1E7•</data>
   1750 # flags9    GE GH GM GN GR GT GW
   1751 <data>•\U0001F1EC\U0001F1EA•\U0001F1EC\U0001F1ED•\U0001F1EC\U0001F1F2•\U0001F1EC\U0001F1F3•\U0001F1EC\U0001F1F7•\U0001F1EC\U0001F1F9•\U0001F1EC\U0001F1FC•</data>
   1752 # flags10   GY HK HN HR HT HU ID
   1753 <data>•\U0001F1EC\U0001F1FE•\U0001F1ED\U0001F1F0•\U0001F1ED\U0001F1F3•\U0001F1ED\U0001F1F7•\U0001F1ED\U0001F1F9•\U0001F1ED\U0001F1FA•\U0001F1EE\U0001F1E9•</data>
   1754 # flags11   IE IL IN IQ IR IS IT
   1755 <data>•\U0001F1EE\U0001F1EA•\U0001F1EE\U0001F1F1•\U0001F1EE\U0001F1F3•\U0001F1EE\U0001F1F6•\U0001F1EE\U0001F1F7•\U0001F1EE\U0001F1F8•\U0001F1EE\U0001F1F9•</data>
   1756 # flags12   JM JO JP KE KG KH KR
   1757 <data>•\U0001F1EF\U0001F1F2•\U0001F1EF\U0001F1F4•\U0001F1EF\U0001F1F5•\U0001F1F0\U0001F1EA•\U0001F1F0\U0001F1EC•\U0001F1F0\U0001F1ED•\U0001F1F0\U0001F1F7•</data>
   1758 # flags13   MX MY NL NO PL PT
   1759 <data>•\U0001F1F2\U0001F1FD•\U0001F1F2\U0001F1FE•\U0001F1F3\U0001F1F1•\U0001F1F3\U0001F1F4•\U0001F1F5\U0001F1F1•\U0001F1F5\U0001F1F9•</data>
   1760 # flags14   RO RU SA SE SK TH TR
   1761 <data>•\U0001F1F7\U0001F1F4•\U0001F1F7\U0001F1FA•\U0001F1F8\U0001F1E6•\U0001F1F8\U0001F1EA•\U0001F1F8\U0001F1F0•\U0001F1F9\U0001F1ED•\U0001F1F9\U0001F1F7•</data>
   1762 # flags15   UA US VN XK ZW
   1763 <data>•\U0001F1FA\U0001F1E6•\U0001F1FA\U0001F1F8•\U0001F1FB\U0001F1F3•\U0001F1FD\U0001F1F0•\U0001F1FF\U0001F1FC•</data>
   1764 # flagsX1   ES ES ES SE SE SE
   1765 <data>•\U0001F1EA\U0001F1F8•\U0001F1EA\U0001F1F8•\U0001F1EA\U0001F1F8•\U0001F1F8\U0001F1EA•\U0001F1F8\U0001F1EA•\U0001F1F8\U0001F1EA•</data>
   1766 # flagsX2   GB GB GB BG BG BG
   1767 <data>•\U0001F1EC\U0001F1E7•\U0001F1EC\U0001F1E7•\U0001F1EC\U0001F1E7•\U0001F1E7\U0001F1EC•\U0001F1E7\U0001F1EC•\U0001F1E7\U0001F1EC•</data>
   1768 # flagsXtnd AE AF AL AM AO AR
   1769 <data>•\U0001F1E6\U0001F1EA\u200C•\U0001F1E6\U0001F1EB\u200C•\U0001F1E6\U0001F1F1\u200C•\U0001F1E6\U0001F1F2\u0300•\U0001F1E6\U0001F1F4\u20DE•\U0001F1E6\U0001F1F7\u200C•</data>
   1770 
   1771 <word>
   1772 # woman zwj woman zwj girl zwj girl, woman/fitz-1-2 zwj woman/fitz-4 zwj boy/fitz-6
   1773 <data>•\U0001F469\u200D\U0001F469\u200D\U0001F467\u200D\U0001F467•\U0001F469\U0001F3FB\u200D\U0001F469\U0001F3FD\u200D\U0001F466\U0001F3FF•</data>
   1774 # woman zwj baby/fitz-3, older_woman/fitz-5, runner/fitz-4, raised_fist/fitz-3, fuel_pump, fitz-3
   1775 #TODO: <data>•\U0001F469\u200D\U0001F476\U0001F3FC•\U0001F475\U0001F3FE•\U0001F3C3\U0001F3FD•\u270A\U0001F3FC•\u26FD•\U0001F3FC•</data>
   1776 # man zwj hvy_blk_heart zwj man, woman, man zwj hvy_blk_heart/evar zwj man, woman
   1777 <data>•\U0001F468\u200D\u2764\u200D\U0001F468•\U0001F469•\U0001F468\u200D\u2764\uFE0F\u200D\U0001F468•\U0001F469•</data>
   1778 # woman zwj hvy_blk_heart/evar zwj kiss_mark zwj woman, sleuth/fitz-4, horse_racing/fitz-5
   1779 <data>•\U0001F469\u200D\u2764\uFE0F\u200D\U0001F48B\u200D\U0001F469•\U0001F575\U0001F3FD•\U0001F3C7\U0001F3FE•</data>
   1780 # victory_hand/evar, victory_hand/evar/fitz-1-2, victory_hand/fitz-1-2, rowboat/fitz-4, vulcan_salute/fitz-5, space,
   1781 <data>•\u270C\uFE0F•\u270C\uFE0F\U0001F3FB•\u270C\U0001F3FB•\U0001F6A3\U0001F3FD•\U0001F596\U0001F3FE•\u0020•</data>
   1782 # writing_hand fitz-1-2, splayed_hand/fitz-3, middle_finger/fitz-4, sign_of_horns/fitz-5, eye zwj left_speech_bubble, space
   1783 <data>•\u270D\U0001F3FB•\U0001F590\U0001F3FC•\U0001F595\U0001F3FD•\U0001F918\U0001F3FE•\U0001F441\u200D\U0001F5E8•\u0020•</data>
   1784 # family (man, boy, boy), family (woman, girl), space
   1785 <data>•\U0001F468\u200D\U0001F466\u200D\U0001F466•\U0001F469\u200D\U0001F467•\u0020•</data>
   1786 # rainbow flag using evar, rainbow flag no evar, space
   1787 <data>•\U0001F3F3\uFE0F\u200D\U0001F308•\U0001F3F3\u200D\U0001F308•\u0020•</data>
   1788 # woman with ball using evar, woman with ball no evar, woman with ball fitz 4 using evar, woman with ball fitz 4 no evar, space
   1789 <data>•\u26F9\uFE0F\u200D\u2640\uFE0F•\u26F9\u200D\u2640•\u26F9\U0001F3FD\u200D\u2640\uFE0F•\u26F9\U0001F3FD\u200D\u2640•\u0020•</data>
   1790 # woman runner using evar, woman runner no evar, woman runner fitz 4 using evar, woman runner fitz 4 no evar, space
   1791 <data>•\U0001F3C3\u200D\u2640\uFE0F•\U0001F3C3\u200D\u2640•\U0001F3C3\U0001F3FD\u200D\u2640\uFE0F•\U0001F3C3\U0001F3FD\u200D\u2640•\u0020•</data>
   1792 # 9.0 + professions
   1793 # black heart, fitz 4, squid, fitz4, man dancing /fitz4, mother xmas /fitz4
   1794 #TODO: <data>•\U0001F5A4•\U0001F3FD•\U0001F991•\U0001F3FD•\U0001F57A\U0001F3FD•\U0001F936\U0001F3FD•\u0020•</data>
   1795 # facepalm, facepalm / fitz4, facepalm + woman +evar, facepalm + woman -evar, facepalm/fitz4 + woman +evar, facepalm/fitz4 + woman -evar
   1796 <data>•\U0001F926•\U0001F926\U0001F3FD•\U0001F926\u200D\u2640\uFE0F•\U0001F926\u200D\u2640•\U0001F926\U0001F3FD\u200D\u2640\uFE0F•\U0001F926\U0001F3FD\u200D\u2640•\u0020•</data>
   1797 # handball, handball / fitz4, handball + man +evar, handball + man -evar, handball/fitz4 + man +evar, handball/fitz4 + man -evar
   1798 <data>•\U0001F93E•\U0001F93E\U0001F3FD•\U0001F93E\u200D\u2642\uFE0F•\U0001F93E\u200D\u2642•\U0001F93E\U0001F3FD\u200D\u2642\uFE0F•\U0001F93E\U0001F3FD\u200D\u2642•\u0020•</data>
   1799 # man health worker +evar, man health worker -evar, man health worker / fitz4 +evar, man health worker / fitz4 -evar
   1800 <data>•\U0001F468\u200D\u2695\uFE0F•\U0001F468\u200D\u2695•\U0001F468\U0001F3FD\u200D\u2695\uFE0F•\U0001F468\U0001F3FD\u200D\u2695•\u0020•</data>
   1801 # woman astronaut, woman astronaut / fitz4
   1802 <data>•\U0001F469\u200D\U0001F680•\U0001F469\U0001F3FD\u200D\U0001F680•\u0020•</data>
   1803 # modifier bases added in emoji 4.0
   1804 # SNOWBOARDER/fitz-3, HORSE RACING/fitz-4, GOLFER/fitz-5, MAN IN BUSINESS SUIT LEVITATING/fitz-6, SLEEPING ACCOMMODATION/fitz-12, space
   1805 <data>•\U0001F3C2\U0001F3FC•\U0001F3C7\U0001F3FD•\U0001F3CC\U0001F3FE•\U0001F574\U0001F3FF•\U0001F6CC\U0001F3FB•\u0020•</data>
   1806 
   1807 # flags1    AE AF AL AM AO AR AT
   1808 <data>•\U0001F1E6\U0001F1EA•\U0001F1E6\U0001F1EB•\U0001F1E6\U0001F1F1•\U0001F1E6\U0001F1F2•\U0001F1E6\U0001F1F4•\U0001F1E6\U0001F1F7•\U0001F1E6\U0001F1F9•</data>
   1809 # flags2    AU AZ BA BD BE BF BG
   1810 <data>•\U0001F1E6\U0001F1FA•\U0001F1E6\U0001F1FF•\U0001F1E7\U0001F1E6•\U0001F1E7\U0001F1E9•\U0001F1E7\U0001F1EA•\U0001F1E7\U0001F1EB•\U0001F1E7\U0001F1EC•</data>
   1811 # flags3    BH BJ BN BO BR BS BT
   1812 <data>•\U0001F1E7\U0001F1ED•\U0001F1E7\U0001F1EF•\U0001F1E7\U0001F1F3•\U0001F1E7\U0001F1F4•\U0001F1E7\U0001F1F7•\U0001F1E7\U0001F1F8•\U0001F1E7\U0001F1F9•</data>
   1813 # flags4    BW BY BZ CA CD CF CG
   1814 <data>•\U0001F1E7\U0001F1FC•\U0001F1E7\U0001F1FE•\U0001F1E7\U0001F1FF•\U0001F1E8\U0001F1E6•\U0001F1E8\U0001F1E9•\U0001F1E8\U0001F1EB•\U0001F1E8\U0001F1EC•</data>
   1815 # flags5    CH CI CL CM CN CO CR
   1816 <data>•\U0001F1E8\U0001F1ED•\U0001F1E8\U0001F1EE•\U0001F1E8\U0001F1F1•\U0001F1E8\U0001F1F2•\U0001F1E8\U0001F1F3•\U0001F1E8\U0001F1F4•\U0001F1E8\U0001F1F7•</data>
   1817 # flags6    CU CV CY CZ DE DJ DK
   1818 <data>•\U0001F1E8\U0001F1FA•\U0001F1E8\U0001F1FB•\U0001F1E8\U0001F1FE•\U0001F1E8\U0001F1FF•\U0001F1E9\U0001F1EA•\U0001F1E9\U0001F1EF•\U0001F1E9\U0001F1F0•</data>
   1819 # flags7    DM DO DZ EC EE EG ER
   1820 <data>•\U0001F1E9\U0001F1F2•\U0001F1E9\U0001F1F4•\U0001F1E9\U0001F1FF•\U0001F1EA\U0001F1E8•\U0001F1EA\U0001F1EA•\U0001F1EA\U0001F1EC•\U0001F1EA\U0001F1F7•</data>
   1821 # flags8    ES ET FI FJ FR GA GB
   1822 <data>•\U0001F1EA\U0001F1F8•\U0001F1EA\U0001F1F9•\U0001F1EB\U0001F1EE•\U0001F1EB\U0001F1EF•\U0001F1EB\U0001F1F7•\U0001F1EC\U0001F1E6•\U0001F1EC\U0001F1E7•</data>
   1823 # flags9    GE GH GM GN GR GT GW
   1824 <data>•\U0001F1EC\U0001F1EA•\U0001F1EC\U0001F1ED•\U0001F1EC\U0001F1F2•\U0001F1EC\U0001F1F3•\U0001F1EC\U0001F1F7•\U0001F1EC\U0001F1F9•\U0001F1EC\U0001F1FC•</data>
   1825 # flags10   GY HK HN HR HT HU ID
   1826 <data>•\U0001F1EC\U0001F1FE•\U0001F1ED\U0001F1F0•\U0001F1ED\U0001F1F3•\U0001F1ED\U0001F1F7•\U0001F1ED\U0001F1F9•\U0001F1ED\U0001F1FA•\U0001F1EE\U0001F1E9•</data>
   1827 # flags11   IE IL IN IQ IR IS IT
   1828 <data>•\U0001F1EE\U0001F1EA•\U0001F1EE\U0001F1F1•\U0001F1EE\U0001F1F3•\U0001F1EE\U0001F1F6•\U0001F1EE\U0001F1F7•\U0001F1EE\U0001F1F8•\U0001F1EE\U0001F1F9•</data>
   1829 # flags12   JM JO JP KE KG KH KR
   1830 <data>•\U0001F1EF\U0001F1F2•\U0001F1EF\U0001F1F4•\U0001F1EF\U0001F1F5•\U0001F1F0\U0001F1EA•\U0001F1F0\U0001F1EC•\U0001F1F0\U0001F1ED•\U0001F1F0\U0001F1F7•</data>
   1831 # flags13   MX MY NL NO PL PT
   1832 <data>•\U0001F1F2\U0001F1FD•\U0001F1F2\U0001F1FE•\U0001F1F3\U0001F1F1•\U0001F1F3\U0001F1F4•\U0001F1F5\U0001F1F1•\U0001F1F5\U0001F1F9•</data>
   1833 # flags14   RO RU SA SE SK TH TR
   1834 <data>•\U0001F1F7\U0001F1F4•\U0001F1F7\U0001F1FA•\U0001F1F8\U0001F1E6•\U0001F1F8\U0001F1EA•\U0001F1F8\U0001F1F0•\U0001F1F9\U0001F1ED•\U0001F1F9\U0001F1F7•</data>
   1835 # flags15   UA US VN XK ZW
   1836 <data>•\U0001F1FA\U0001F1E6•\U0001F1FA\U0001F1F8•\U0001F1FB\U0001F1F3•\U0001F1FD\U0001F1F0•\U0001F1FF\U0001F1FC•</data>
   1837 # flagsX1   ES ES ES SE SE SE
   1838 <data>•\U0001F1EA\U0001F1F8•\U0001F1EA\U0001F1F8•\U0001F1EA\U0001F1F8•\U0001F1F8\U0001F1EA•\U0001F1F8\U0001F1EA•\U0001F1F8\U0001F1EA•</data>
   1839 # flagsX2   GB GB GB BG BG BG
   1840 <data>•\U0001F1EC\U0001F1E7•\U0001F1EC\U0001F1E7•\U0001F1EC\U0001F1E7•\U0001F1E7\U0001F1EC•\U0001F1E7\U0001F1EC•\U0001F1E7\U0001F1EC•</data>
   1841 # flagsXtnd AE AF AL AM AO AR
   1842 <data>•\U0001F1E6\U0001F1EA\u200C•\U0001F1E6\U0001F1EB\u200C•\U0001F1E6\U0001F1F1\u200C•\U0001F1E6\U0001F1F2\u0300•\U0001F1E6\U0001F1F4\u20DE•\U0001F1E6\U0001F1F7\u200C•</data>
   1843 
   1844 <line>
   1845 # woman zwj woman zwj girl zwj girl
   1846 <data>•\U0001F469\u200D\U0001F469\u200D\U0001F467\u200D\U0001F467•</data>
   1847 # woman zwj baby/fitz-3, older_woman/fitz-5, runner/fitz-4, raised_fist/fitz-3, fuel_pump, fitz-3
   1848 <data>•\U0001F469\u200D\U0001F476\U0001F3FC•\U0001F475\U0001F3FE•\U0001F3C3\U0001F3FD•\u270A\U0001F3FC•\u26FD•\U0001F3FC•</data>
   1849 # man zwj hvy_blk_heart zwj man, woman, man zwj hvy_blk_heart/evar zwj man, woman
   1850 <data>•\U0001F468\u200D\u2764\u200D\U0001F468•\U0001F469•\U0001F468\u200D\u2764\uFE0F\u200D\U0001F468•\U0001F469•</data>
   1851 # woman zwj hvy_blk_heart/evar zwj kiss_mark zwj woman, sleuth/fitz-4, horse_racing/fitz-5
   1852 <data>•\U0001F469\u200D\u2764\uFE0F\u200D\U0001F48B\u200D\U0001F469•\U0001F575\U0001F3FD•\U0001F3C7\U0001F3FE•</data>
   1853 # victory_hand/evar, victory_hand/evar/fitz-1-2, victory_hand/fitz-1-2, rowboat/fitz-4, vulcan_salute/fitz-5 space,
   1854 <data>•\u270C\uFE0F•\u270C\uFE0F\U0001F3FB•\u270C\U0001F3FB•\U0001F6A3\U0001F3FD•\U0001F596\U0001F3FE\u0020•</data>
   1855 # writing_hand fitz-1-2, splayed_hand/fitz-3, middle_finger/fitz-4, sign_of_horns/fitz-5, eye zwj left_speech_bubble, space
   1856 <data>•\u270D\U0001F3FB•\U0001F590\U0001F3FC•\U0001F595\U0001F3FD•\U0001F918\U0001F3FE•\U0001F441\u200D\U0001F5E8\u0020•</data>
   1857 # family (man, boy, boy), family (woman, girl), space
   1858 <data>•\U0001F468\u200D\U0001F466\u200D\U0001F466•\U0001F469\u200D\U0001F467\u0020•</data>
   1859 # rainbow flag using evar, rainbow flag no evar, space
   1860 <data>•\U0001F3F3\uFE0F\u200D\U0001F308•\U0001F3F3\u200D\U0001F308\u0020•</data>
   1861 # woman with ball using evar, woman with ball no evar, woman with ball fitz 4 using evar, woman with ball fitz 4 no evar, space
   1862 <data>•\u26F9\uFE0F\u200D\u2640\uFE0F•\u26F9\u200D\u2640•\u26F9\U0001F3FD\u200D\u2640\uFE0F•\u26F9\U0001F3FD\u200D\u2640\u0020•</data>
   1863 # woman runner using evar, woman runner no evar, woman runner fitz 4 using evar, woman runner fitz 4 no evar, space
   1864 <data>•\U0001F3C3\u200D\u2640\uFE0F•\U0001F3C3\u200D\u2640•\U0001F3C3\U0001F3FD\u200D\u2640\uFE0F•\U0001F3C3\U0001F3FD\u200D\u2640\u0020•</data>
   1865 # 9.0 + professions
   1866 # black heart, fitz 4, squid, fitz4, man dancing /fitz4, mother xmas /fitz4
   1867 <data>•\U0001F5A4•\U0001F3FD•\U0001F991•\U0001F3FD•\U0001F57A\U0001F3FD•\U0001F936\U0001F3FD\u0020•</data>
   1868 # facepalm, facepalm / fitz4, facepalm + woman +evar, facepalm + woman -evar, facepalm/fitz4 + woman +evar, facepalm/fitz4 + woman -evar
   1869 <data>•\U0001F926•\U0001F926\U0001F3FD•\U0001F926\u200D\u2640\uFE0F•\U0001F926\u200D\u2640•\U0001F926\U0001F3FD\u200D\u2640\uFE0F•\U0001F926\U0001F3FD\u200D\u2640\u0020•</data>
   1870 # handball, handball / fitz4, handball + man +evar, handball + man -evar, handball/fitz4 + man +evar, handball/fitz4 + man -evar
   1871 <data>•\U0001F93E•\U0001F93E\U0001F3FD•\U0001F93E\u200D\u2642\uFE0F•\U0001F93E\u200D\u2642•\U0001F93E\U0001F3FD\u200D\u2642\uFE0F•\U0001F93E\U0001F3FD\u200D\u2642\u0020•</data>
   1872 # man health worker +evar, man health worker -evar, man health worker / fitz4 +evar, man health worker / fitz4 -evar
   1873 <data>•\U0001F468\u200D\u2695\uFE0F•\U0001F468\u200D\u2695•\U0001F468\U0001F3FD\u200D\u2695\uFE0F•\U0001F468\U0001F3FD\u200D\u2695\u0020•</data>
   1874 # woman astronaut, woman astronaut / fitz4
   1875 <data>•\U0001F469\u200D\U0001F680•\U0001F469\U0001F3FD\u200D\U0001F680\u0020•</data>
   1876 # modifier bases added in emoji 4.0
   1877 # SNOWBOARDER/fitz-3, HORSE RACING/fitz-4, GOLFER/fitz-5, MAN IN BUSINESS SUIT LEVITATING/fitz-6, SLEEPING ACCOMMODATION/fitz-12 space
   1878 <data>•\U0001F3C2\U0001F3FC•\U0001F3C7\U0001F3FD•\U0001F3CC\U0001F3FE•\U0001F574\U0001F3FF•\U0001F6CC\U0001F3FB\u0020•</data>
   1879 
   1880 <locale ja@lb=loose>
   1881 <line>
   1882 # woman zwj woman zwj girl zwj girl
   1883 <data>•\U0001F469\u200D\U0001F469\u200D\U0001F467\u200D\U0001F467•</data>
   1884 # woman zwj baby/fitz-3, older_woman/fitz-5, runner/fitz-4, raised_fist/fitz-3, fuel_pump, fitz-3
   1885 <data>•\U0001F469\u200D\U0001F476\U0001F3FC•\U0001F475\U0001F3FE•\U0001F3C3\U0001F3FD•\u270A\U0001F3FC•\u26FD•\U0001F3FC•</data>
   1886 # man zwj hvy_blk_heart zwj man, woman, man zwj hvy_blk_heart/evar zwj man, woman
   1887 <data>•\U0001F468\u200D\u2764\u200D\U0001F468•\U0001F469•\U0001F468\u200D\u2764\uFE0F\u200D\U0001F468•\U0001F469•</data>
   1888 # woman zwj hvy_blk_heart/evar zwj kiss_mark zwj woman, sleuth/fitz-4, horseRacing/fitz-5
   1889 <data>•\U0001F469\u200D\u2764\uFE0F\u200D\U0001F48B\u200D\U0001F469•\U0001F575\U0001F3FD•\U0001F3C7\U0001F3FE•</data>
   1890 # victory_hand/evar, victory_hand/evar/fitz-1-2, victory_hand/fitz-1-2, rowboat/fitz-4, vulcan_salute/fitz-5 space,
   1891 <data>•\u270C\uFE0F•\u270C\uFE0F\U0001F3FB•\u270C\U0001F3FB•\U0001F6A3\U0001F3FD•\U0001F596\U0001F3FE\u0020•</data>
   1892 # writing_hand fitz-1-2, splayed_hand/fitz-3, middle_finger/fitz-4, sign_of_horns/fitz-5, eye zwj left_speech_bubble, space
   1893 <data>•\u270D\U0001F3FB•\U0001F590\U0001F3FC•\U0001F595\U0001F3FD•\U0001F918\U0001F3FE•\U0001F441\u200D\U0001F5E8\u0020•</data>
   1894 # 9.0 + professions
   1895 # black heart, fitz 4, squid, fitz4, man dancing /fitz4, mother xmas /fitz4
   1896 <data>•\U0001F5A4•\U0001F3FD•\U0001F991•\U0001F3FD•\U0001F57A\U0001F3FD•\U0001F936\U0001F3FD\u0020•</data>
   1897 # facepalm, facepalm / fitz4, facepalm + woman +evar, facepalm + woman -evar, facepalm/fitz4 + woman +evar, facepalm/fitz4 + woman -evar
   1898 <data>•\U0001F926•\U0001F926\U0001F3FD•\U0001F926\u200D\u2640\uFE0F•\U0001F926\u200D\u2640•\U0001F926\U0001F3FD\u200D\u2640\uFE0F•\U0001F926\U0001F3FD\u200D\u2640\u0020•</data>
   1899 # handball, handball / fitz4, handball + man +evar, handball + man -evar, handball/fitz4 + man +evar, handball/fitz4 + man -evar
   1900 <data>•\U0001F93E•\U0001F93E\U0001F3FD•\U0001F93E\u200D\u2642\uFE0F•\U0001F93E\u200D\u2642•\U0001F93E\U0001F3FD\u200D\u2642\uFE0F•\U0001F93E\U0001F3FD\u200D\u2642\u0020•</data>
   1901 # man health worker +evar, man health worker -evar, man health worker / fitz4 +evar, man health worker / fitz4 -evar
   1902 <data>•\U0001F468\u200D\u2695\uFE0F•\U0001F468\u200D\u2695•\U0001F468\U0001F3FD\u200D\u2695\uFE0F•\U0001F468\U0001F3FD\u200D\u2695\u0020•</data>
   1903 # woman astronaut, woman astronaut / fitz4
   1904 <data>•\U0001F469\u200D\U0001F680•\U0001F469\U0001F3FD\u200D\U0001F680\u0020•</data>
   1905 
   1906 <locale ja@lw=phrase>
   1907 #phrase breaking test cases for the ML solution
   1908 <lineML>
   1909 #9月に東京から友達が遊びに来た -> 9月に•東京から•友達が•遊びに•来た•
   1910 <data>•\uff19\u6708\u306b•\u6771\u4eac\u304b\u3089•\u53cb\u9054\u304c•\u904a\u3073\u306b•\u6765\u305f•</data>
   1911 #る文字「そうだ、京都」-> る•文字•「そうだ、•京都」•
   1912 <data>•\u308b•\u6587\u5b57•\u300c\u305d\u3046\u3060\u3001•\u4eac\u90fd\u300d•</data>
   1913 #Kana supplement: 𛁛 (U+1B05B), 𛂦(U+1B0A6)
   1914 #生 𛁛𛂦゙をいただく。-> 生 𛁛𛂦゙を•いただく。
   1915 <data>•\u751F\U0001B05B\U0001B0A6\u3099\u3092•\u3044\u305F\u3060\u304F\u3002•</data>
   1916 #中国の携帯は約500元から5000元です -> 中国の▁携帯は▁約▁500元から▁5000元です
   1917 <data>•\u4E2D\u56FD\u306E•\u643A\u5E2F\u306F•\u7D04•\uFF15\uFF10\uFF10\u5143\u304B\u3089•\uFF15\uFF10\uFF10\uFF10\u5143\u3067\u3059•</data>
   1918 #しかもロゴがUnicode!! -> しかも▁ロゴが▁Unicode!!
   1919 <data>•\u3057\u304B\u3082•\u30ED\u30B4\u304C•\uFF35\uFF4E\uFF49\uFF43\uFF4F\uFF44\uFF45\uFF01\uFF01•</data>
   1920 #バッテリーを長持ちさせ、充電を最適化します -> バッテリーを▁長持ちさせ、▁充電を▁最適化します
   1921 <data>•\u30D0\u30C3\u30C6\u30EA\u30FC\u3092•\u9577\u6301\u3061\u3055\u305B\u3001•\u5145\u96FB\u3092•\u6700\u9069\u5316\u3057\u307E\u3059•</data>
   1922 #データのコピー、スマートフォンでのお支払いなど -> データの▁コピー、▁スマートフォンでの▁お支払いなど
   1923 <data>•\u30C7\u30FC\u30BF\u306E•\u30B3\u30D4\u30FC\u3001•\u30B9\u30DE\u30FC\u30C8\u30D5\u30A9\u30F3\u3067\u306E•\u304A\u652F\u6255\u3044\u306A\u3069•</data>
   1924 
   1925 <locale ja@lw=phrase>
   1926 #phrase breaking test cases for the dictionary based solution
   1927 <line>
   1928 #[京都観光]時雨殿に行った。-> [京都•観光]•時雨•殿に•行った。•
   1929 <data>•\uff3b\u4eac\u90fd•\u89b3\u5149\uff3d•\u6642\u96e8•\u6bbf\u306b•\u884c\u3063\u305f\u3002•</data>
   1930 #9月に東京から友達が遊びに来た -> 9月に•東京から•友達が•遊びに•来た•
   1931 <data>•\uff19\u6708\u306b•\u6771\u4eac\u304b\u3089•\u53cb\u9054\u304c•\u904a\u3073\u306b•\u6765\u305f•</data>
   1932 #る文字「そうだ、京都」-> る•文字•「そうだ、•京都」•
   1933 <data>•\u308b•\u6587\u5b57•\u300c\u305d\u3046\u3060\u3001•\u4eac\u90fd\u300d•</data>
   1934 #乗車率90%程度だろうか。 -> 乗車•率•90%•程度だろうか。•
   1935 <data>•\u4e57\u8eca•\u7387•\uff19\uff10\uff05•\u7a0b\u5ea6\u3060\u308d\u3046\u304b\u3002•</data>
   1936 #[携帯電話]正しい選択 -> [携帯•電話]•正しい•選択•
   1937 <data>•\uff3b\u643a\u5e2f•\u96fb\u8a71\uff3d•\u6b63\u3057\u3044•\u9078\u629e•</data>
   1938 #純金製百人一首にサッカーボール -> 純金•製•百人一首に•サッカーボール
   1939 <data>•\u7D14\u91D1•\u88FD•\u767E\u4EBA\u4E00\u9996\u306B•\u30B5\u30C3\u30AB\u30FC\u30DC\u30FC\u30EB•</data>
   1940 #Kana supplement: 𛁈(U+1B048) -> \uD82C\uDC48, 𛀸(U+1B038) -> \uD82C\uDC38, 𛀙(U+1B019)-> \uD82C\uDC19</data>
   1941 #𛁈る𛀸(しるこ)、あ𛀙よろし(あかよろし) -> 𛁈る𛀸•(しるこ)、•あ𛀙よろし•(あ•かよろし)
   1942 <data>•\uD82C\uDC48\u308B\uD82C\uDC38•\uFF08\u3057\u308B\u3053\uFF09\u3001•\u3042\uD82C\uDC19\u3088\u308D\u3057•\uFF08\u3042•\u304B\u3088\u308D\u3057\uFF09•</data>
   1943 #最初に目に入るのは、「許諾なき写真禁止」のサインである。 -> 最初に▁目に▁入るのは、▁「許諾なき▁写真▁禁止」▁の▁サインで▁ある。
   1944 <data>•\u6700\u521D\u306B•\u76EE\u306B•\u5165\u308B\u306E\u306F\u3001•\u300C\u8A31\u8AFE\u306A\u304D•\u5199\u771F•\u7981\u6B62\u300D•\u306E•\u30B5\u30A4\u30F3\u3067•\u3042\u308B\u3002•</data>
   1945 #docomoのサイト情報によると、78000パケット以上▁使うならパケ放題がいいとか -> docomoの▁サイト▁情報によると、▁78000パケット▁以上▁使うなら▁パケ▁放題が▁いい▁とか
   1946 <data>•\uFF44\uFF4F\uFF43\uFF4F\uFF4D\uFF4F\u306E•\u30B5\u30A4\u30C8•\u60C5\u5831\u306B\u3088\u308B\u3068\u3001•\uFF17\uFF18\uFF10\uFF10\uFF10\u30D1\u30B1\u30C3\u30C8•\u4EE5\u4E0A•\u4F7F\u3046\u306A\u3089•\u30D1\u30B1•\u653E\u984C\u304C•\u3044\u3044•\u3068\u304B•</data>
   1947 #日本の携帯はCDMAの形だといわれています -> 日本の▁携帯は▁CDMAの▁形だと▁いわれ▁ています
   1948 <data>•\u65E5\u672C\u306E•\u643A\u5E2F\u306F•\uFF23\uFF24\uFF2D\uFF21\u306E•\u5F62\u3060\u3068•\u3044\u308F\u308C•\u3066\u3044\u307E\u3059•</data>
   1949 #中国の携帯は約500元から5000元です -> 中国の▁携帯は▁約▁500元から▁5000元です
   1950 <data>•\u4E2D\u56FD\u306E•\u643A\u5E2F\u306F•\u7D04•\uFF15\uFF10\uFF10\u5143\u304B\u3089•\uFF15\uFF10\uFF10\uFF10\u5143\u3067\u3059•</data>
   1951 #プリペイドカード携帯布教 -> プリペイドカード▁携帯▁布教
   1952 <data>•\u30D7\u30EA\u30DA\u30A4\u30C9\u30AB\u30FC\u30C9•\u643A\u5E2F•\u5E03\u6559•</data>
   1953 #しかもロゴがUnicode!! -> しかも▁ロゴが▁Unicode!!
   1954 <data>•\u3057\u304B\u3082•\u30ED\u30B4\u304C•\uFF35\uFF4E\uFF49\uFF43\uFF4F\uFF44\uFF45\uFF01\uFF01•</data>
   1955 #しかし、これらのサービスは6年間使ってこなかった自分にとっては特に必要でないものであり、これからこの機能が加わったからといって特別ハッピーなわけでもない。
   1956 #-> しかし、▁これらの▁サービスは▁6年間▁使ってこなかった▁自分にとっては▁特に▁必要でない▁もので▁あり、▁これから▁この▁機能が▁加わったから▁といって▁特別▁ハッピーな▁わけでもない。
   1957 <data>•\u3057\u304B\u3057\u3001•\u3053\u308C\u3089\u306E•\u30B5\u30FC\u30D3\u30B9\u306F•\uFF16\u5E74\u9593•\u4F7F\u3063\u3066\u3053\u306A\u304B\u3063\u305F•\u81EA\u5206\u306B\u3068\u3063\u3066\u306F•\u7279\u306B•\u5FC5\u8981\u3067\u306A\u3044•\u3082\u306E\u3067•\u3042\u308A\u3001•\u3053\u308C\u304B\u3089•\u3053\u306E•\u6A5F\u80FD\u304C•\u52A0\u308F\u3063\u305F\u304B\u3089•\u3068\u3044\u3063\u3066•\u7279\u5225•\u30CF\u30C3\u30D4\u30FC\u306A•\u308F\u3051\u3067\u3082\u306A\u3044\u3002•</data>
   1958 #自由が丘での三ヶ月の生活を通して得られる経験 -> 自由が丘での▁三ヶ月の▁生活を通して▁得られる▁経験
   1959 <data>•\u81EA\u7531\u304C\u4E18\u3067\u306E•\u4E09\u30F6\u6708\u306E•\u751F\u6D3B\u3092\u901A\u3057\u3066•\u5F97\u3089\u308C\u308B•\u7D4C\u9A13•</data>
   1960 #幕の内弁当がよく買われるらしいです。 -> 幕の内▁弁当が▁よく▁買われるらしいです。
   1961 <data>•\u5E55\u306E\u5185•\u5F01\u5F53\u304C•\u3088\u304F•\u8CB7\u308F\u308C\u308B\u3089\u3057\u3044\u3067\u3059\u3002•</data>
   1962 #その名の通りに伝われと望まれています。 -> その▁名の通りに▁伝われと▁望まれ▁ています。
   1963 <data>•\u305D\u306E•\u540D\u306E\u901A\u308A\u306B•\u4F1D\u308F\u308C\u3068•\u671B\u307E\u308C•\u3066\u3044\u307E\u3059\u3002•</data>
   1964 #下鴨神社の糺の森は、静かだし、ちょっとした空き時間の散歩にいいですよ♪  -> 下鴨▁神社の▁糺の森は、▁静か▁だし、▁ちょっとした▁空き▁時間の▁散歩に▁いいですよ♪
   1965 <data>•\u4E0B\u9D28•\u795E\u793E\u306E•\u7CFA\u306E\u68EE\u306F\u3001•\u9759\u304B•\u3060\u3057\u3001•\u3061\u3087\u3063\u3068\u3057\u305F•\u7A7A\u304D•\u6642\u9593\u306E•\u6563\u6B69\u306B•\u3044\u3044\u3067\u3059\u3088\u266A•</data>
   1966 #この論理は、別の弱点から逃避するためによく使われるので注意が必要ですが。 ->  この▁論理は、▁別の▁弱点から▁逃避▁する▁ために▁よく▁使われるので▁注意が▁必要▁ですが。
   1967 <data>•\u3053\u306E•\u8AD6\u7406\u306F\u3001•\u5225\u306E•\u5F31\u70B9\u304B\u3089•\u9003\u907F•\u3059\u308B•\u305F\u3081\u306B•\u3088\u304F•\u4F7F\u308F\u308C\u308B\u306E\u3067•\u6CE8\u610F\u304C•\u5FC5\u8981•\u3067\u3059\u304C\u3002•</data>
   1968 #バッテリーを長持ちさせ、充電を最適化します -> バッテリーを▁長持ちさせ、▁充電を▁最適化します
   1969 <data>•\u30D0\u30C3\u30C6\u30EA\u30FC\u3092•\u9577\u6301\u3061\u3055\u305B\u3001•\u5145\u96FB\u3092•\u6700\u9069\u5316\u3057\u307E\u3059•</data>
   1970 #開発者サービス -> 開発者▁サービス
   1971 <data>•\u958B\u767A\u8005•\u30B5\u30FC\u30D3\u30B9•</data>
   1972 #長さを選択して感度を調整し、電源ボタンを長押しします。 -> 長さを▁選択して▁感度を▁調整し、▁電源▁ボタンを▁長押しします。
   1973 <data>•\u9577\u3055\u3092•\u9078\u629E\u3057\u3066•\u611F\u5EA6\u3092•\u8ABF\u6574\u3057\u3001•\u96FB\u6E90•\u30DC\u30BF\u30F3\u3092•\u9577\u62BC\u3057\u3057\u307E\u3059\u3002•</data>
   1974 #データのコピー、スマートフォンでのお支払いなど -> データの▁コピー、▁スマートフォンでの▁お支払いなど
   1975 <data>•\u30C7\u30FC\u30BF\u306E•\u30B3\u30D4\u30FC\u3001•\u30B9\u30DE\u30FC\u30C8\u30D5\u30A9\u30F3\u3067\u306E•\u304A\u652F\u6255\u3044\u306A\u3069•</data>
   1976 #データ使用量を節約します -> データ▁使用量を▁節約します
   1977 <data>•\u30C7\u30FC\u30BF•\u4F7F\u7528\u91CF\u3092•\u7BC0\u7D04\u3057\u307E\u3059•</data>
   1978 #スマートフォンで設定できる最低限の明るさよりも画面を暗くします -> スマートフォンで▁設定▁できる▁最低限の▁明るさよりも▁画面を▁暗くします
   1979 <data>•\u30B9\u30DE\u30FC\u30C8\u30D5\u30A9\u30F3\u3067•\u8A2D\u5B9A•\u3067\u304D\u308B•\u6700\u4F4E\u9650\u306E•\u660E\u308B\u3055\u3088\u308A\u3082•\u753B\u9762\u3092•\u6697\u304F\u3057\u307E\u3059•</data>
   1980 #寝転んでいても -> 寝転んでいても
   1981 <data>•\u5BDD\u8EE2\u3093\u3067\u3044\u3066\u3082•</data>
   1982 #周囲の状況にもご注意ください -> 周囲の▁状況にも▁ご注意▁くだ▁さい
   1983 <data>•\u5468\u56F2\u306E•\u72B6\u6CC1\u306B\u3082•\u3054\u6CE8\u610F•\u304F\u3060•\u3055\u3044•</data>
   1984 #国や地域によってはご利用いただけない場合があります -> 国や▁地域によっては▁ご利用いただけない▁場合が▁あります
   1985 <data>•\u56FD\u3084•\u5730\u57DF\u306B\u3088\u3063\u3066\u306F•\u3054\u5229\u7528\u3044\u305F\u3060\u3051\u306A\u3044•\u5834\u5408\u304C•\u3042\u308A\u307E\u3059•</data>
   1986 #前回停止した場所からお楽しみいただけます -> 前回▁停止した▁場所から▁お楽しみいただけます
   1987 <data>•\u524D\u56DE•\u505C\u6B62\u3057\u305F•\u5834\u6240\u304B\u3089•\u304A\u697D\u3057\u307F\u3044\u305F\u3060\u3051\u307E\u3059•</data>
   1988 #聞き逃したくない音をスマートフォンで常時検出できます -> 聞き逃したくない▁音を▁スマートフォンで▁常時▁検出▁できます
   1989 <data>•\u805E\u304D\u9003\u3057\u305F\u304F\u306A\u3044•\u97F3\u3092•\u30B9\u30DE\u30FC\u30C8\u30D5\u30A9\u30F3\u3067•\u5E38\u6642•\u691C\u51FA•\u3067\u304D\u307E\u3059•</data>
   1990 #メニューのボタンを大きくする -> メニューの▁ボタンを▁大きく▁する
   1991 <data>•\u30E1\u30CB\u30E5\u30FC\u306E•\u30DC\u30BF\u30F3\u3092•\u5927\u304D\u304F•\u3059\u308B•</data>
   1992 #これらの連絡先はデバイスをロック解除しなくても表示され -> これらの▁連絡先は▁デバイスを▁ロック▁解除しなくても▁表示され
   1993 <data>•\u3053\u308C\u3089\u306E•\u9023\u7D61\u5148\u306F•\u30C7\u30D0\u30A4\u30B9\u3092•\u30ED\u30C3\u30AF•\u89E3\u9664\u3057\u306A\u304F\u3066\u3082•\u8868\u793A\u3055\u308C•</data>
   1994 
   1995 # Test the differences in ko with or without lw=phrase.
   1996 <locale ko@lw=phrase>
   1997 <line>
   1998 #1948년 7월 12일에 제정되고 8차에 국민투표에 의하여 개정한다.
   1999 <data>•1948년 •7월 •12일에 •제정되고 •8차에 •국민투표에 •의하여 •개정한다.•</data>
   2000 #대한민국은 민주공화국이다.
   2001 <data>•대한민국은 •민주공화국이다.•</data>
   2002 #서울에서 부산까지 London까지
   2003 <data>•서울에서 •부산까지 •London까지•</data>
   2004 #LTE가 안 되면 WiFi를
   2005 <data>•LTE가 •안 •되면 •WiFi를•</data>
   2006 #<님의 침묵>을 읽고 느낀 점은?
   2007 <data>•\u003c님의 •침묵\u003e을 •읽고 •느낀 •점은?•</data>
   2008 # The following entry passes in ICU4C but fails in ICU4J for an unknown reason.
   2009 #"님의 침묵"을 읽고
   2010 #<data>•"님의 •침묵"을 •읽고•</data>
   2011 # The following 3 lines are not handled properly, yet.
   2012 #“님의 침묵”을 읽고
   2013 #<data>•“님의 •침묵”을 •읽고•</data>
   2014 #『님의 침묵』을 읽고
   2015 #<data>•『님의 •침묵』을 •읽고•</data>
   2016 #大韓民國은 民主共和國이다
   2017 #<data>•大韓民國은 •民主•共和國이다•</data>
   2018 # All the tests for ja@lw=phrase should also work in Korean.
   2019 #る文字「そうだ、京都」-> る•文字•「そうだ、•京都」•
   2020 <data>•\u308b•\u6587\u5b57•\u300c\u305d\u3046\u3060\u3001•\u4eac\u90fd\u300d•</data>
   2021 #9月に東京から友達が遊びに来た -> 9月に•東京から•友達が•遊びに•来た•
   2022 <data>•\uff19\u6708\u306b•\u6771\u4eac\u304b\u3089•\u53cb\u9054\u304c•\u904a\u3073\u306b•\u6765\u305f•</data>
   2023 
   2024 <locale ko>
   2025 <line>
   2026 #1948년 7월 12일에 제정되고 8차에 국민투표에 의하여 개정한다.
   2027 <data>•1948•년 •7•월 •12•일•에 •제•정•되•고 •8•차•에 •국•민•투•표•에 •의•하•여•개•정•한•다.•</data>
   2028 #대한민국은 민주공화국이다.
   2029 <data>•대•한•민•국•은 •민•주•공•화•국•이•다.•</data>
   2030 #서울에서 부산까지 London까지
   2031 <data>•서•울•에•서 •부•산•까•지 •London•까•지•</data>
   2032 #LTE가 안 되면 WiFi를
   2033 <data>•LTE•가 •안 •되•면 •WiFi•를•</data>
   2034 #<님의 침묵>을 읽고 느낀 점은?
   2035 <data>•\u003c•님•의 •침•묵•\u003e•을 •읽•고 •느•낀 •점•은?•</data>
   2036 #"님의 침묵"을 읽고
   2037 <data>•"님•의 •침•묵"을 •읽•고•</data>
   2038 #“님의 침묵”을 읽고
   2039 <data>•“님•의 •침•묵”•을 •읽•고•</data>
   2040 #『님의 침묵』을 읽고
   2041 <data>•『님•의 •침•묵』•을 •읽•고•</data>
   2042 #『foo bar』load
   2043 <data>•『foo •bar』•load•</data>
   2044 #《님의 침묵》을 읽고
   2045 <data>•《님•의 •침•묵》•을 •읽•고•</data>
   2046 
   2047 ####################################################################################
   2048 #
   2049 #  Test rule status values
   2050 #
   2051 ####################################################################################
   2052 <rules> $Letters = [:L:];
   2053    $Numbers = [:N:];
   2054    $Letters+{1};
   2055    $Numbers+{2};
   2056    Help\ me\!{4};
   2057    [^$Letters $Numbers];
   2058    !.*;
   2059 </rules>
   2060 <data>•abc<1>123<2>.•.•abc<1> •Help<1> •me<1> •Help me!<4></data>
   2061 
   2062 # Test option to prohibit unquoted literals.
   2063 
   2064 <rules>
   2065 !!forward;
   2066    Hello\ World;
   2067 !!safe_reverse;
   2068    .*;
   2069 </rules>
   2070 <data>•Hello World•</data>
   2071 
   2072 <badrules>
   2073 !!quoted_literals_only;
   2074 !!forward;
   2075    Hello\ World;
   2076 !!safe_reverse;
   2077    .*;
   2078 </badrules>
   2079 
   2080 <rules>
   2081 !!quoted_literals_only;
   2082 !!forward;
   2083    'Hello World';
   2084 !!safe_reverse;
   2085    .*;
   2086 </rules>
   2087 <data>•Hello World•</data>
   2088 
   2089 
   2090 # Test for circular buffer overflow during reverse iteration with inefficient reverse rules,
   2091 # Too many boundaries between safe back up position and current position.
   2092 
   2093 <rules>
   2094 !!forward;
   2095 .;
   2096 !!safe_reverse;
   2097 .*;
   2098 </rules>
   2099 <data>•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•a•</data>
   2100 
   2101 #
   2102 #  Dictionary regression check
   2103 #    Intended to find unexpected behavior changes when changing dictionary implementation code,
   2104 #    but may also be fragile, failing with intended improvements to dictionary breaking.
   2105 #
   2106 <locale en>
   2107 <word>
   2108 <data>•Unicode<200> •คือ<200>อะไร<200>?•
   2109 •Unicode<200> •กำหนด<200>หมายเลข<200>เฉพาะ<200>สำหรับ<200>ทุก<200>อักขระ<200>
   2110 •โดย<200>ไม่<200>สนใจ<200>ว่า<200>เป็น<200>แพ<200>ล็ต<200>ฟอร์ม<200>ใด<200>
   2111 •ไม่<200>ขึ้น<200>กับ<200>ว่า<200>จะ<200>เป็น<200>โปรแกรม<200>ใด<200>
   2112 •และ<200>ไม่<200>ว่า<200>จะ<200>เป็น<200>ภาษา<200>ใด<200>
   2113    2114 •โดย<200>พื้น<200>ฐาน<200>แล้ว<200>,• •คอมพิวเตอร์<200>จะ<200>เกี่ยวข้อง<200>กับ<200>เรื่อง<200>ของ<200>ตัวเลข<200>.• •คอมพิวเตอร์<200>จัด<200>เก็บ<200>ตัว<200>อักษร<200>และ<200>อักข<200>ระ<200>อื่นๆ<200> •โดย<200>การ<200>กำหนด<200>หมายเลข<200>ให้<200>สำหรับ<200>แต่ละ<200>ตัว<200>.• •ก่อน<200>หน้า<200>ที่๊<200> •Unicode<200> •จะ<200>ถูก<200>สร้าง<200>ขึ้น<200>,• •ได้<200>มี<200>ระบบ<200> •encoding<200> •อยู่<200>หลาย<200>ร้อย<200>ระบบ<200>สำหรับ<200>การ<200>กำหนด<200>หมายเลข<200>เหล่า<200>นี้<200>.• •ไม่มี<200> •encoding<200> •ใด<200>ที่<200>มี<200>จำนวน<200>ตัว<200>อักขระ<200>มาก<200>เพียง<200>พอ<200>:• •ยก<200>ตัวอย่าง<200>เช่น<200>,• •เฉพาะ<200>ใน<200>กลุ่ม<200>สหภาพ<200>ยุโรป<200>เพียง<200>แห่ง<200>เดียว<200> •ก็<200>ต้องการ<200>หลาย<200> •encoding<200> •ใน<200>การ<200>ครอบคลุม<200>ทุก<200>ภาษา<200>ใน<200>กลุ่ม<200>.• •หรือ<200>แม้แต่<200>ใน<200>ภาษา<200>เดี่ยว<200> •เช่น<200> •ภาษา<200>อังกฤษ<200> •ก็<200>ไม่มี<200> •encoding<200> •ใด<200>ที่<200>เพียง<200>พอ<200>สำหรับ<200>ทุก<200>ตัว<200>อักษร<200>,• •เครื่องหมาย<200>วรรค<200>ตอน<200> •และ<200>สัญลักษณ์<200>ทาง<200>เทคนิค<200>ที่<200>ใช้<200>กัน<200>อยู่<200>ทั่วไป<200>.•
   2115    2116 •ระบบ<200> •encoding<200> •เหล่า<200>นี้<200>ยัง<200>ขัด<200>แย้ง<200>ซึ่ง<200>กัน<200>และ<200>กัน<200>.• •นั่น<200>ก็<200>คือ<200>,• •ใน<200>สอง<200> •encoding<200> •สามารถ<200>ใช้<200>หมายเลข<200>เดียวกัน<200>สำหรับ<200>ตัว<200>อักขระ<200>สอง<200>ตัว<200>ที่<200>แตก<200>ต่าง<200>กัน<200>,•หรือ<200>ใช้<200>หมายเลข<200>ต่าง<200>กัน<200>สำหรับ<200>อักขระ<200>ตัว<200>เดียวกัน<200>.• •ใน<200>ระบบ<200>คอมพิวเตอร์<200> •(•โดย<200>เฉพาะ<200>เซิร์ฟเวอร์<200>)• •ต้อง<200>มี<200>การ<200>สนับสนุน<200>หลาย<200> •encoding<200>;• •และ<200>เมื่อ<200>ข้อมูล<200>ที่<200>ผ่าน<200>ไป<200>มาระ<200>หว่าง<200>การ<200>เข้า<200>รหัส<200>หรือ<200>แพ<200>ล็ต<200>ฟอร์ม<200>ที่<200>ต่าง<200>กัน<200>,• •ข้อมูล<200>นั้น<200>จะ<200>เสี่ยง<200>ต่อ<200>การ<200>ผิด<200>พลาด<200>เสีย<200>หาย<200>.•
   2117    2118 •Unicode<200> •จะ<200>เปลี่ยนแปลง<200>สิ่ง<200>เหล่า<200>นั้น<200>ทั้งหมด<200>!•
   2119    2120 •Unicode<200> •กำหนด<200>หมายเลข<200>เฉพาะ<200>สำหรับ<200>แต่ละ<200>อักขระ<200>,• •โดย<200>ไม่<200>สนใจ<200>ว่า<200>เป็น<200>แพ<200>ล็ต<200>ฟอร์ม<200>ใด<200>,• •ไม่<200>ขึ้น<200>กับ<200>ว่า<200>จะ<200>เป็น<200>โปรแกรม<200>ใด<200>และ<200>ไม่<200>ว่า<200>จะ<200>เป็น<200>ภาษา<200>ใด<200>.• •มาตรฐาน<200> •Unicode<200> •ได้<200>ถูก<200>นำ<200>ไป<200>ใช้<200>โดย<200>ผู้นำ<200>ใน<200>อุตสาหกรรม<200> •เช่น<200> •Apple<200>,• •HP<200>,• •IBM<200>,• •JustSystem<200>,• •Microsoft<200>,• •Oracle<200>,• •SAP<200>,• •Sun<200>,• •Sybase<200>,• •Unisys<200> •และ<200>อื่นๆ<200> •อีก<200>มาก<200>.• •Unicode<200> •เป็น<200>สิ่ง<200>ที่<200>จำเป็น<200>สำหรับ<200>มาตร<200>ฐาน<200>ใหม่ๆ<200> •เช่น<200> •XML<200>,• •Java<200>,• •ECMAScript<200> •(•JavaScript<200>)•,• •LDAP<200>,• •CORBA<200> •3.0<100>,• •WML<200> •ฯลฯ<200>.•,• •และ<200>เป็น<200>แนวทาง<200>อย่าง<200>เป็น<200>ทางการ<200>ใน<200>การ<200>ทำ<200> •ISO<200>/•IEC<200> •10646<100>.• •Unicode<200> •ได้<200>รับ<200>การ<200>สนับสนุน<200>ใน<200>ระบบ<200>ปฏิบัติ<200>การ<200>จำนวน<200>มาก<200>,• •บราวเซอร์<200>ใหม่ๆ<200> •ทก<200>ตัว<200>,• •และ<200>ผลิต<200>ภัณฑ์<200>อื่นๆ<200> •อีก<200>มาก<200>.• •การ<200>เกิด<200>ขึ้น<200>ของ<200> •Unicode<200> •Standard<200> •และ<200>ทูล<200>ส์<200>ต่างๆ<200> •ที่<200>มี<200>ใน<200>การ<200>สนับสนุน<200> •Unicode<200>,• •เป็น<200>หนึ่ง<200>ใน<200>แนว<200>โน้ม<200>ทาง<200>เทคโนโลยี<200>ซอฟต์แวร์<200>ระดับ<200>โลก<200>ที่<200>มี<200>ความ<200>สำคัญ<200>ที่สุด<200>.•
   2121    2122 •การ<200>รวม<200> •Unicode<200> •เข้าไป<200>ใน<200>ระบบ<200>ไคลเอ็นต์<200>-•เซิร์ฟเวอร์<200> •หรือ<200>แอ็พ<200>พลิ<200>เค<200>ชัน<200>แบบ<200> •multi<200>-•tiered<200> •และ<200>เว็บไซต์<200> •จะ<200>ทำให้<200>เกิด<200>การ<200>ประหยัด<200>ค่า<200>ใช้<200>จ่าย<200>มากกว่า<200>การ<200>ใช้<200>ชุด<200>อักขระ<200>แบบ<200>เดิม<200>.• •Unicode<200> •ทำให้<200>ผลิตภัณฑ์<200>ซอฟต์แวร์<200>หนึ่ง<200>เดียว<200> •หรือ<200>เว็บไซต์<200>แห่ง<200>เดียว<200> •รองรับ<200>ได้<200>หลาย<200>แพ<200>ล็ต<200>ฟอร์ม<200>,• •หลาย<200>ภาษา<200>และ<200>หลาย<200>ประเทศ<200>โดย<200>ไม่<200>ต้อง<200>ทำการ<200>รื้อ<200>ปรับ<200>ระบบ<200>.• •Unicode<200> •ยัง<200>ทำให้<200>ข้อมูล<200>สามารถ<200>เคลื่อน<200>ย้าย<200>ไป<200>มา<200>ใน<200>หลายๆ<200> •ระบบ<200>โดย<200>ไม่<200>เกิด<200>ความ<200>ผิด<200>พลาด<200>เสีย<200>หาย<200>.•
   2123    2124 •เกี่ยว<200>กับ<200> •Unicode<200> •Consortium<200>
   2125    2126 •Unicode<200> •Consortium<200> •เป็น<200>องค์กร<200>ไม่<200>แสวงหา<200>กำไร<200>ที่<200>ก่อ<200>ตั้ง<200>ขึ้น<200>เพื่อ<200>พัฒนา<200>,• •ขยาย<200>และ<200>ส่ง<200>เสริม<200>การ<200>ใช้<200> •Unicode<200> •Standard<200>,• •ซึ่ง<200>กำหนด<200>รูป<200>แบบ<200>การ<200>แทน<200>ค่า<200>ของ<200>ข้อความ<200>ใน<200>ผลิตภัณฑ์<200>ซอฟต์แวร์<200>และ<200>มาตร<200>ฐาน<200>ใหม่ๆ<200>.• •สมาชิก<200>ของ<200>สมาคม<200>เป็น<200>ตัวแทน<200>จาก<200>บริษัท<200>และ<200>องค์กร<200>ใน<200>อุตสาหกรรม<200>คอมพิวเตอร์<200>และ<200>การ<200>ประมวล<200>ผล<200>สารสนเทศ<200>.• •สมาคม<200>ได้<200>รับ<200>การ<200>สนับสนุน<200>ทางการ<200>เงิน<200>ผ่าน<200>ทาง<200>ค่า<200>ธรรมเนียม<200>ของ<200>การ<200>เป็น<200>สมาชิก<200>เท่านั้น<200>.• •สมาชิก<200>ภาพ<200>ของ<200> •Unicode<200> •Consortium<200> •เปิด<200>กว้าง<200>สำหรับ<200>องค์กร<200>หรือ<200>บุคคล<200>ใดๆ<200> •ใน<200>โลก<200>ที่<200>ต้องการ<200>สนับสนุน<200> •Unicode<200> •Standard<200> •และ<200>ช่วย<200>เหลือ<200>การ<200>ขยาย<200>ตัว<200>และ<200>การนำ<200> •Unicode<200> •ไป<200>ใช้<200>งาน<200>.•
   2127    2128 •สำหรับ<200>ข้อมูล<200>เพิ่ม<200>เติม<200>,• •ให้<200>ดู<200>ที่<200> •Glossary<200>,• •Sample<200> •Unicode<200>-•Enabled<200> •Products<200>,• •Technical<200> •Introduction<200> •และ<200> •Useful<200> •Resources<200>.•</data>
   2129 
   2130 <word>
   2131 # Burmese
   2132 <data>•အ<200>လော<200>င္<200>မ<200>င္<200>တရား<200>
   2133 •     •မဟာ<200>ဓမ္မရာဇာ<200>မိ<200>ပတိ<200>လ<200>က္<200>ထ<200>က္<200>တ္<200>ဝ<200>င္<200> •အ<200>င္<200>ဝ<200>နေ<200>ပ္<200>ရ<200>ည္<200>တော္<200>က္<200>ရီး<200>သ<200>ည္<200> •မ<200>င္<200>ရိ<200>မ္<200>မ<200>သ<200>က္<200>ဖ္<200>ရ<200>စ္<200>နေ<200>သ<200>ည္<200>။• •မဏိ<200>ပူ<200>ရ<200> •က<200>သ<200>ည္<200>မ္<200>ယား<200>က<200> •အ<200>င္<200>ဝ<200>နေ<200>ပ္<200>ရ<200>ည္<200>တော္<200>၏• •မ္<200>ရော<200>က္<200>ဘ<200>က္<200>တ<200>လ္<200>ဝ္<200>ဟား<200>ကုိ<200> •တုိ<200>က္<200>ခုိ<200>က္<200>ဖ္<200>ယ<200>က္<200>ဆီး<200>သ<200>ည္<200>။• •အော<200>က္<200>မ္<200>ရ<200>န္<200>မာ<200>နုိ<200>င္<200>ငံ<200> •ဟံ<200>သာ<200>ဝ<200>တီ<200>သား<200>တုိ့<200>က<200>လ<200>ည္<200> •ပု<200>န္<200>က<200>န္<200>သ<200>ည္<200>။• •မတ္တ<200>ရာ<200>အု<200>တ္<200>ဖုိ<200>ရ္<200>ဟိ<200> •က္<200>ဝေ့<200>ရ္<200>ဟ<200>မ္<200>မ္<200>ယား<200>က<200>လ<200>ည္<200> •ထ<200>က္<200>ရ္<200>ဝ<200>သ<200>ည္<200>။•
   2134    2135 •    •ထုိ<200>အ<200>ခ္<200>ယိ<200>န္<200>တ္<200>ဝ<200>င္<200> •မု<200>ဆုိး<200>ဖုိ<200>ရ္<200>ဝာ<200>သူ<200>က္<200>ရီး<200> •အော<200>င္<200>ဇေ<200>ယ္<200>ယ<200>သ<200>ည္<200> •မိမိ<200>၏•ရ္<200>ဝာ<200>ကုိ<200> •လုံ<200>ခ္<200>ရုံ<200>အော<200>င္<200>ထ<200>န္<200>လုံး<200>တ<200>ပ္<200>မ္<200>ယား<200>ကာ<200>ရ<200>သ<200>ည္<200>။• •အနီး<200>အ<200>ပား<200> •က္<200>ယေး<200>ရ္<200>ဝာ<200> •လေး<200>ဆ<200>ယ့္<200>ခ္<200>ရော<200>က္<200>ရ္<200>ဝာ<200>ကုိ<200> •သိ<200>မ္း<200>သ္<200>ဝ<200>င္<200>ထား<200>သ<200>ည္<200>။• •မ<200>က္<200>ရာ<200>မီ<200>ပ<200>င္<200> •အ<200>င္<200>ဝ<200>နေ<200>ပ္<200>ရ<200>ည္<200>တော္<200>က္<200>ရီး<200>သ<200>ည္<200> •ဟံ<200>သာ<200>ဝ<200>တီ<200>တ<200>ပ္<200>မ္<200>ယား<200> •လ<200>က္<200>တ္<200>ဝ<200>င္<200>သ<200>က္<200>ဆ<200>င္<200>ရ<200>တော့<200>သ<200>ည္<200>။•
   2136    2137 •    •အ<200>င္<200>ဝ<200>ကုိ<200> •သိ<200>မ္<200>ပုိ<200>က္<200>ပ္<200>ရီး<200>သော<200> •ဟံ<200>သာ<200>ဝ<200>တီ<200>တ<200>ပ္<200>မ္<200>ယား<200>သ<200>ည္<200> •မ္<200>ရော<200>က္<200>ဘ<200>က္<200>တ<200>လ္<200>ဝ္<200>ဟား<200>က္<200>ယေး<200>ရ္<200>ဝာ<200>မ္<200>ယား<200>ကုိ<200> •သစ္စာ<200>ခံ<200>ခုိ<200>င္<200>ရ<200>န္<200> •လာ<200>က္<200>ရ<200>ရာ<200> •မု<200>ဆုိး<200>ဖုိ<200>ရ္<200>ဝာ<200>သုိ့<200> •ရော<200>က္<200>ရ္<200>ဟိ<200>လာ<200>သ<200>ည္<200>။• •တ<200>ခ္<200>ယိ<200>န္<200>တ<200>ည္<200>မ္<200>ဟာ<200>ပ<200>င္<200> •က္<200>ဝေ့<200>ရ္<200>ဟ<200>မ္<200>မ္<200>ယား<200>က<200>လ<200>ည္<200> •သစ္စာ<200>ခံ<200>ခုိ<200>င္<200>ရ<200>န္<200> •ရော<200>က္<200>ရ္<200>ဟိ<200>လာ<200>သ<200>ည္<200>။• •ဦး<200>အော<200>င္<200>ဇေ<200>ယ္<200>ယ<200>သ<200>ည္<200> •အ<200>ဖ္<200>ဝဲ့<200>န္<200>ဟ<200>စ္<200>ဖ္<200>ဝဲ့<200>ကုိ<200> •ခ္<200>ရေ<200>ငံ<200>စ္<200>ဝာ<200> •ဆ<200>က္<200>ဆံ<200>သ<200>ည္<200>။• •မ<200>ည္<200>သူ့<200>သ<200>စ္<200>စာ<200>ကုိ<200>မ္<200>ယ္<200>ဟ<200> •ခံ<200>ယူ<200>ခ္<200>ရ<200>င္<200>မ<200>ပ္<200>ရု<200>ပေ<200>။• •ဟံ<200>သာ<200>ဝ<200>တီ<200>တ<200>ပ္<200>ဖ္<200>ဝဲ့<200>ကုိ<200> •အ<200>ပ္<200>ရ<200>န္<200>ခ<200>ရီး<200>တ္<200>ဝ<200>င္<200> •လ<200>မ္<200>မ္<200>ဟ<200>ဖ္<200>ရ<200>တ္<200>၍• •တုိ<200>က္<200>ခုိ<200>က္<200>သ<200>ည္<200>။• •ဟံ<200>သာ<200>ဝ<200>တီ<200>တ<200>ပ္<200>ဖ္<200>ဝဲ့<200>မ္<200>ယား<200> •အထိ<200>အ<200>ခုိ<200>က္<200>အ<200>က္<200>ယ<200>အ<200>ဆုံး<200>မ္<200>ယား<200>စ္<200>ဝာ<200>ဖ္<200>ရ<200>င္<200> •ပ္<200>ရ<200>န္<200>ရ<200>သ<200>ည္<200>။•
   2138    2139 •    •ဟံ<200>သာ<200>ဝ<200>တီ<200>တ<200>ပ္<200>မ္<200>ယား<200>သ<200>ည္<200> •မု<200>ဆုိး<200>ဖုိ<200>ရ္<200>ဝာ<200>ကုိ<200> •လာ<200>ရော<200>က္<200>တုိ<200>က္<200>ခုိ<200>က္<200>က္<200>ရ<200>ပ္<200>ရ<200>န္<200>သ<200>ည္<200>။• •ဦး<200>အော<200>င္<200>ဇေ<200>ယ္<200>ယ<200>သ<200>ည္<200> •သ္<200>ဝေး<200>သော<200>က္<200>ရဲ<200>ဘော္<200> •ခ္<200>ရော<200>က္<200>က္<200>ယိ<200>ပ္<200>ရ္<200>ဟ<200>စ္<200>ယော<200>က္<200>န္<200>ဟ<200>င္<200>အတူ<200> •ဦးစီး<200>ကာ<200>အော<200>င္<200>မ္<200>ရ<200>င္<200>စ္<200>ဝာ<200>ခု<200>ခံ<200>တ္<200>ဝ<200>န္<200>လ္<200>ဟ<200>န္<200>နုိ<200>င္<200>ခဲ့<200>သ<200>ည္<200>။• •ထုိ့<200>နော<200>က္<200> •ဦး<200>အော<200>င္<200>ဇေ<200>ယ္<200>ယ<200>သ<200>ည္<200> •မ္<200>ရော<200>က္<200>ဘ<200>က္<200>တ<200>လ္<200>ဝ္<200>ဟား<200>ရ္<200>ဟိ<200> •ရ္<200>ဟ<200>မ္<200>မ္<200>ယား<200>န္<200>ဟ<200>င္<200> •မ္<200>ရ<200>န္<200>မာ<200>မ္<200>ယား<200>ကုိ<200>လ<200>ည္<200> •ဆ<200>က္<200>သ္<200>ဝ<200>ယ္<200>စ<200>ည္<200>ရုံး<200>နုိ<200>င္<200>ခဲ့<200>သ<200>ည္<200>။• •ဤ<200>သုိ့<200>ဖ္<200>ရ<200>င္<200> •ဦး<200>အော<200>င္<200>ဇေ<200>ယ္<200>ယ<200>၏• •အ<200>ရ္<200>ဟိ<200>န္<200>အ<200>ဝာ<200> •မ္<200>ရ<200>င္<200>မား<200>လာ<200>လေ<200>သ<200>ည္<200>။•
   2140    2141 •    •ဦး<200>အော<200>င္<200>ဇေ<200>ယ္<200>ယ<200>သ<200>ည္<200> •အ<200>လော<200>င္<200>မ<200>င္<200>တ<200>ရား<200>ဘ္<200>ဝဲ့<200>ကုိ<200> •ခံယူ<200>ကာ<200> •ကု<200>န္<200>ဘော<200>င္<200>မ<200>င္<200>ဆ<200>က္<200>ကုိ<200>စ<200>တ<200>င္<200>တ<200>ည္<200>ထော<200>င္<200>သ<200>ည္<200>။• •မု<200>ဆုိး<200>ဖုိ<200>ရ္<200>ဝာ<200>ကုိ<200> •ရ္<200>ဝ္<200>ဟ<200>ဝေ<200>ဘုိ<200>ဟု<200> •သ<200>မု<200>တ္<200>ကာ<200> •မ္<200>ရုိ့<200>န<200>န္<200>တ<200>ည္<200>သ<200>ည္<200>။• •န<200>န္<200>တ<200>ည္<200>သ<200>က္<200>က<200>ရာ<200>ဇ္<200>ဖ္<200>ရ<200>စ္<200>သော<200> •၁၁၁၅<100> •ခု<200>ကုိ<200> •ဥ<200>ဩ<200>အော္<200>မ္<200>ရ<200>ည္<200> •ကု<200>န္<200>ဘော<200>င္<200>တ<200>ည္<200>ဟု<200> •အ<200>မ္<200>ဟ<200>တ္<200>အ<200>သား<200>ပ္<200>ရု<200>က္<200>ရ<200>သ<200>ည္<200>။•
   2142    2143 •    •အ<200>လော<200>င္<200>မ<200>င္<200>တရား<200>သ<200>ည္<200> •ဧရာ<200>ဝ<200>တီ<200>န္<200>ဟ<200>င္<200>ခ္<200>ယ<200>င္<200>တ္<200>ဝ<200>င္<200> •မ္<200>ရ<200>စ္<200>န္<200>ဟ<200>စ္<200>သ္<200>ဝ<200>ယ္<200>အ<200>က္<200>ရား<200> •ဒေ<200>သ<200>မ္<200>ယား<200>ကုိ<200>အ<200>ခုိ<200>င္<200>အ<200>မာ<200> •စု<200>စ<200>ည္<200>ပ္<200>ရီး<200>နော<200>က္<200> •အ<200>င္<200>ဝ<200>ကုိ<200> •တုိ<200>က္<200>ခုိ<200>က္<200>အော<200>င္<200>မ္<200>ရ<200>င္<200>သ<200>ည္<200>။• •ထုိ<200>နော<200>က္<200>တ္<200>ဝ<200>င္<200>ပ္<200>ရ<200>ည္<200>၊• •လ္<200>ဝ<200>န္<200>ဆေး<200>၊• •ဒ<200>ဂုံ<200>မ္<200>ရုိ့<200>မ္<200>ယား<200>ကုိ<200> •သိ<200>မ္<200>ပုိ<200>က္<200>သ<200>ည္<200>။• •လ္<200>ဝ<200>န္<200>ဆေး<200> •ကုိ<200>မ္<200>ရ<200>န္<200>အော<200>င္<200>ဟူ<200>၍• •သ<200>မု<200>တ္<200>သ<200>ည္<200>။• •ဒ<200>ဂုံ<200>ကုိ<200>ရ<200>န္<200>ကု<200>န္<200>ဟူ<200>၍• •သ<200>မု<200>တ္<200>ထ<200>သ<200>ည္<200>။•</data>
   2144 
   2145 <word>
   2146 # japanese
   2147 <data>•ユニ<400>コード<400>と<400>は<400>何<400>か<400>?•
   2148 •ユニ<400>コード<400>は<400>、•すべて<400>の<400>文字<400>に<400>固有<400>の<400>番号<400>を<400>付与<400>し<400>ます<400>
   2149 •プラットフォーム<400>に<400>は<400>依存<400>しま<400>せん<400>
   2150 •プログラム<400>に<400>も<400>依存<400>しま<400>せん<400>
   2151 •言語<400>に<400>も<400>依存<400>しま<400>せん<400>
   2152    2153 •コンピューター<400>は<400>、•本質<400>的<400>に<400>は<400>数字<400>しか<400>扱う<400>こと<400>が<400>でき<400>ま<400>せん<400>。•コンピューター<400>は<400>、•文字<400>や<400>記号<400>など<400>の<400>それぞれに<400>番号<400>を<400>割り振る<400>こと<400>によって<400>扱える<400>よう<400>にし<400>ます<400>。•ユニ<400>コード<400>が<400>出来る<400>まで<400>は<400>、•これらの<400>番号<400>を<400>割り振る<400>仕組み<400>が<400>何<400>百<400>種類<400>も<400>存在<400>しま<400>した<400>。•どの<400>一つ<400>を<400>とっても<400>、•十分<400>な<400>文字<400>を<400>含<400>んで<400>は<400>いま<400>せん<400>で<400>した<400>。•例えば<400>、•欧州<400>連合<400>一つ<400>を<400>見<400>て<400>も<400>、•その<400>すべて<400>の<400>言語<400>を<400>カバー<400>する<400>ため<400>に<400>は<400>、•いくつか<400>の<400>異なる<400>符号<400>化<400>の<400>仕組み<400>が<400>必要<400>で<400>した<400>。•英語<400>の<400>よう<400>な<400>一つ<400>の<400>言語<400>に<400>限<400>って<400>も<400>、•一つ<400>だけ<400>の<400>符号<400>化<400>の<400>仕組み<400>では<400>、•一般<400>的<400>に<400>使<400>われる<400>すべて<400>の<400>文字<400>、•句読点<400>、•技術<400>的<400>な<400>記号<400>など<400>を<400>扱う<400>に<400>は<400>不十分<400>で<400>した<400>。•
   2154    2155 •これらの<400>符号<400>化<400>の<400>仕組み<400>は<400>、•相互<400>に<400>矛盾<400>する<400>もの<400>でも<400>ありま<400>した<400>。•二つ<400>の<400>異なる<400>符号<400>化<400>の<400>仕組み<400>が<400>、•二つ<400>の<400>異なる<400>文字<400>に<400>同一<400>の<400>番号<400>を<400>付ける<400>こと<400>も<400>できる<400>し<400>、•同じ<400>文字<400>に<400>異なる<400>番号<400>を<400>付ける<400>こと<400>も<400>できる<400>の<400>です<400>。•どの<400>よう<400>な<400>コンピューター<400>も<400>(•特に<400>サーバー<400>は<400>)•多く<400>の<400>異<400>な<400>っ<400>た<400>符号<400>化<400>の<400>仕組み<400>を<400>サポート<400>する<400>必要<400>が<400>あり<400>ます<400>。•たとえ<400>データ<400>が<400>異なる<400>符号<400>化<400>の<400>仕組み<400>や<400>プラットフォーム<400>を<400>通過<400>し<400>て<400>も<400>、•いつ<400>どこ<400>で<400>データ<400>が<400>乱れる<400>か<400>分<400>から<400>ない<400>危険<400>を<400>冒す<400>こと<400>の<400>なる<400>の<400>です<400>。•
   2156    2157 •ユニ<400>コード<400>は<400>すべて<400>を<400>変<400>え<400>ます<400>
   2158    2159 •ユニ<400>コード<400>は<400>、•プラットフォーム<400>に<400>係<400>わら<400>ず<400>、•プログラム<400>に<400>係<400>わら<400>ず<400>、•言語<400>に<400>係<400>わら<400>ず<400>、•すべて<400>の<400>文字<400>に<400>独立<400>した<400>番号<400>を<400>与<400>え<400>ます<400>。•ユニ<400>コード<400>標準<400>は<400>、•アップル<400>、•ヒュー<400>レット<400>パッ<400>カード<400>、•IBM<200>、•ジャスト<400>システム<400>、•マイクロ<400>ソフト<400>、•オラクル<400>、•SAP<200>、•サン<400>、•サイ<400>ベース<400>など<400>の<400>産業<400>界<400>の<400>主導<400>的<400>企業<400>と<400>他の<400>多く<400>の<400>企業<400>に<400>採用<400>さ<400>れ<400>てい<400>ます<400>。•ユニ<400>コード<400>は<400>、•XML<200>、•Java<200>、•ECMAScript<200>(•JavaScript<200>)•、•LDAP<200>、•CORBA<200> •3.0<100>など<400>の<400>最先端<400>の<400>標準<400>の<400>前提<400>と<400>な<400>って<400>おり<400>、•ユニ<400>コード<400>を<400>実装<400>す<400>れ<400>ば<400>、•ISO<200>/•IEC<200> •10646<100>に<400>適合<400>する<400>ことに<400>なり<400>ます<400>。•ユニ<400>コード<400>は<400>、•多く<400>の<400>オペレーティングシステム<400>と<400>すべて<400>の<400>最新<400>の<400>ブラウザー<400>と<400>他の<400>多く<400>の<400>製品<400>で<400>サポート<400>さ<400>れ<400>てい<400>ます<400>。•ユニ<400>コード<400>標準<400>の<400>出現<400>と<400>ユニ<400>コード<400>を<400>サポート<400>する<400>ツール<400>類<400>は<400>、•昨今<400>顕著<400>に<400>な<400>って<400>いる<400>ソフトウエア<400>技術<400>の<400>グローバル<400>化<400>の<400>流れ<400>に対して<400>、•特に<400>役<400>に<400>立<400>って<400>い<400>ます<400>。•
   2160    2161 •ユニ<400>コード<400>を<400>ク<400>ライアン<400>ト<400>サーバー<400>型<400>の<400>アプリケーション<400>や<400>、•多層<400>構造<400>を<400>持つ<400>アプリケーション<400>、•ウェブサイト<400>など<400>に<400>組み込む<400>こと<400>で<400>、•従来<400>の<400>文字<400>コードセット<400>を<400>用いる<400>より<400>も<400>明らか<400>な<400>コスト<400>削減<400>が<400>可能<400>です<400>。•ユニ<400>コード<400>は<400>、•単一<400>の<400>ソフトウエア<400>製品<400>、•単一<400>の<400>ウェブサイト<400>に<400>、•何ら<400>手<400>を<400>加える<400>こと<400>なく<400>、•複数<400>の<400>プラットフォーム<400>、•複数<400>の<400>言語<400>、•複数<400>の<400>国<400>を<400>カバー<400>する<400>こと<400>が<400>出来る<400>の<400>です<400>。•ユニ<400>コード<400>は<400>、•データ<400>が<400>多く<400>の<400>異なる<400>システム<400>の<400>間<400>を<400>、•何<400>の<400>乱れ<400>も<400>なし<400>に<400>転送<400>する<400>こと<400>を<400>可能<400>と<400>する<400>の<400>です<400>。•
   2162    2163 •ユニ<400>コード<400>コンソーシアム<400>について<400>
   2164    2165 •ユニ<400>コード<400>コンソーシアム<400>は<400>、•最新<400>の<400>ソフトウエア<400>製品<400>と<400>標準<400>において<400>テキスト<400>を<400>表現<400>する<400>こと<400>を<400>意味<400>する<400>“•ユニ<400>コード<400>標準<400>”•の<400>構築<400>、•発展<400>、•普及<400>、•利用<400>促進<400>を<400>目的<400>として<400>設立<400>さ<400>れ<400>た<400>非<400>営利<400>組織<400>です<400>。•同<400>コンソーシアム<400>の<400>会員<400>は<400>、•コンピューター<400>と<400>情報処理<400>に<400>係わる<400>広汎<400>な<400>企業<400>や<400>組織<400>から<400>構成<400>さ<400>れ<400>てい<400>ます<400>。•同<400>コンソーシアム<400>は<400>、•財政<400>的<400>に<400>は<400>、•純粋<400>に<400>会費<400>のみ<400>によって<400>運営<400>さ<400>れ<400>てい<400>ます<400>。•ユニ<400>コード<400>標準<400>を<400>支持<400>し<400>、•その<400>拡張<400>と<400>実装<400>を<400>支援<400>する<400>世界中<400>の<400>組織<400>や<400>個人<400>は<400>、•だれ<400>も<400>が<400>ユニ<400>コード<400>コンソーシアム<400>の<400>会員<400>なる<400>こと<400>が<400>でき<400>ます<400>。•
   2166    2167 •より<400>詳しい<400>こと<400>を<400>お<400>知<400>り<400>に<400>なり<400>たい<400>方<400>は<400>、•Glossary<200>,• •Technical<200> •Introduction<200> •および<400> •Useful<200> •Resources<200>を<400>ご<400>参照<400>くだ<400>さい<400>。•
   2168 •</data>
   2169 
   2170 
   2171 #
   2172 # Bug 20303 Multiple Look-ahead rules with similar contexts.
   2173 #           Check that samples of such rules are being handled correctly.
   2174 #
   2175 
   2176 <rules>
   2177 !!forward;
   2178 !!quoted_literals_only;
   2179 !!chain;
   2180 [a] [b] / [c] [d];
   2181 [a] [b] / [c] [d] {100};
   2182 [a] [b] / [e] [f] {200};
   2183 [a] [b] / [e] [g] {300};
   2184 [a] [b] [c] [h] {400};
   2185 [x] [a] [b] / [c] [d] {500};
   2186 [y] [a] [b] [c] [d] {600};
   2187 </rules>
   2188 <data>•ab<100>c•d•ab<200>e•f•ab<300>e•g•abch<400>xab<500>c•d•yabcd<600></data>
   2189 
   2190 #
   2191 # Examples for line breaking at orthographic syllable boundaries
   2192 # From Unicode document L2/22-080R
   2193 #
   2194 
   2195 <locale en>
   2196 <line>
   2197 <data>•\U00011F26•\U00011F02\U00011F2D•\U00011F26\U00011F42\U00011F26•\U00011F31\U00011F41•</data>
   2198 <data>•\u1BD7\u1BEC•\u1BD2\u1BEA\u1BC9\u1BF3•\u1BC2\u1BE7\u1BC9\u1BF3•</data>
   2199 <data>•\u1B18•\u1B27\u1B44\u200C\u1B2B\u1B38•\u1B31\u1B44\u1B1D\u1B36•</data>
   2200 
   2201 # Line breaking around quotation marks (LB 15a and LB 15b).
   2202 <locale en>
   2203 <line>
   2204 <data>•Some •« basic » •quoting•</data>
   2205 <data>•Some •»German« •quoting•</data>
   2206 <data>•( « bracketed » ) •quoting•</data>
   2207 <data>•« « Nesting » »•</data>
   2208 <data>•子•曰:•“学•而•时•习•之,•不•亦•说•乎?•有•朋•自•远•方•来,•不•亦•乐•乎?•人•不•知•而•不•愠,•不•亦•君•子•乎?”•</data>
   2209 <data>•子•贡•曰:•“贫•而•无•谄,•富•而•无•骄,•何•如?”•子•曰:•“可•也。•未•若•贫•而•乐,•富•而•好•礼•者•也”。•子•贡•曰:•“《诗》•云:•‘如•切•如•磋,•如•琢•如•磨。’•其•斯•之•谓•与?”•子•曰:•“赐•也,•始•可•与•言•《诗》•已•矣!•吿•诸•往•而•知•来•者。”•</data>
   2210 <data>•哪•一•所•中•国•学•校•乃•“为•各•省•派•往•日•本•游•学•之•首•倡”?•</data>
   2211 <data>•哪•个•商•标•以•人•名•为•名,•因•特•色•小•吃•“五•台•杂•烩•汤”•而•入•选•“新•疆•老•字•号”?•</data>
   2212 <data>•毕•士•悌•(1901•年•—•1936•年)•又•名•“杨•林”,•朝•鲜•籍•红•军•将•领•</data>
   2213 <data>•Anmerkung: •„White“ •bzw. •‚白•人‘ •– •in •der •Amtlichen •Statistik•</data>
   2214 <data>•« Complex »« chaining » •</data>
   2215 <data>•« .618 »•</data>  # Interaction with the ICU tailoring to break before such numbers.
   2216 
   2217 # A hyphen following non-breaking space that carries an intervening combining
   2218 # mark is treated as word-initial; by LB20a it has no break opportunity after
   2219 # it.  A bug in ICU 76 incorrectly handled that case (ICU-22986).
   2220 <data>• ̄-k•</data>