uni2ascii и ascii2uni конвертирате между UTF-8 Unicode и всяка от множество от 7-битов ASCII еквиваленти, включително: шестнадесетичен и десетични HTML цифров препоръки, U-бягства, стандартна шестнадесетичен, и сурова шестнадесетичен.
Такива ASCII еквиваленти са полезни, когато включително Unicode текст на програмата източник, когато въвеждате текст в уеб програми, които могат да се справят с Unicode набор от символи, но не са 8-битов безопасно, а когато отстраняване на грешки.
The Unicode убягва на разположение са:
- HTML шестнадесетични цифри, личностни характеристики (например)
- HTML знака след десетичната препратки цифров знак (напр ȳ)
- U-бягства, както се използва в Python (например u00E9)
- U-бягства в рамките на BMP и U-бягства отвъд BMP, напр u00E9 но U00010024.
- U -escapes (например U 00E9)
- U-бягства (например U00E9)
- U-бягства (например u00E9)
- U-бягства в ъглови скоби (например)
- Рентгенови бягства (например x00E9)
- Рентгенови бягства с брекети (например х {} 00E9)
- Standard шестнадесетичен (например 0x00E9)
- Raw шестнадесетичен (например 00E9)
uni2ascii приема такъв флаг определяне дали да се генерират с главни букви AF или малки букви AF като шестнадесетични цифри, тъй като някои някои програми да приемат само една или друга страна. ascii2uni приема или.
В случай на uni2ascii по подразбиране, се превръщат само знаци извън обхвата ASCII. Дори ако само от символи, също се превръща, нови редове са запазени, освен ако не е изрично поискано тяхното преобразуване. Космически герои също са запазени, освен ако не е изрично поискано преобразуване. В случая на трите не-ASCII космически герои (етиопски дума космически, огам космически и идеограмен космически), ако космически символи не се превръща, те се заменят с ASCII пространство (0x20), така че да се запази продукцията в рамките на 7- битов набор ASCII.
Този пакет съдържа четири програми. Основната програма е uni2ascii. Писано е в C и трябва да се компилира. uni2html.py е предшественик на uni2ascii. Както е писано в Python, то не е необходимо да се събере и да се движат по почти всяка текущата компютър. uni2ascii иначе е превъзходно с това, че:
- Той генерира по-широк спектър от изходни формати.
- Това е приблизително 20 пъти по-бързо.
- Той се справя вход в пълен 32-битов обхват Unicode. В контраст, uni2html обслужва само
Basic Многоезичен Plane (Plane 0), тъй като в момента Python представлява Unicode кодирани текст вътрешно използване на 16-битови цели числа. Ако имаш текст на, да речем, Linear B или Угаритски, трябва uni2ascii.
Той прави по-добра работа на докладване на грешки. Ако го срещне грешка в своя принос, като мал-формира UTF-8, той докладва на мястото на грешката както по отношение на преброяването герой от началото на файла (започвайки от 0) и по отношение на преброяването байт от началото на файла (също започвайки при 0). (Брой на характера и броя на байтове обикновено не са едни и същи, тъй като UTF-8 кодиран символ заема от един до четири байта.) Само докладите версията Python графът характер. uni2ascii също предоставя информация за естеството на грешката.
Третата програма, ascii2uni, е обратното на uni2ascii. Той приема текст, съдържащ различни ASCII представяне на Unicode символи и генерира UTF-8 Unicode.
Четвъртата програма, ascii2uni.py, гласи 7-битов ASCII съдържаща ф-избягал Unicode, както се използва в Python и Tcl, и го превръща в UTF-8 Unicode. Това е оригиналната програма от които ascii2uni е обобщение
Какво ново в тази версия:.
- Фиксирана бъг в uni2ascii в които в някои случаи броят на subsitution е твърде висока, за определяне Debian бъг # 626268.
- Кръпка да се справят с положението в NetBSD която липсва getline.
- изяснени семантиката на чист вариант, тъй като конвертиране на символи в ASCII гама различни от пространство и нов ред. Фиксирана бъг в които това не е внедрен правилно за видове UTF8.
Какво ново във версия 4.17:
- Добавено към uni2ascii следните преобразувания до най-близкия ASCII еквивалент: U 2022 куршум "О", U + 00B7 средната точка до период, U + 0085 следващата линия до нов ред, U + 2028 Онлайн сепаратор за нов ред.
Какво ново във версия 4.16:
- Форматът Q работи отново в ascii2uni .
- Добавено U + 2033 DOUBLE PRIME на героите превръщат в най-близкото им ASCII еквивалент под формат за електронна в uni2ascii.
Какво ново във версия 4.15:
- Преименувана endian.h да u2a_endian.h да елиминира конфликт с външен endian.h.
- Премахнато копие на GNU getline от ascii2uni.c тъй като е стандарт като на POSIX2008.
Какво ново във версия 4.14:
- Фиксирана бъг, пречеща на използването на формат Q в uni2ascii.
- Фиксирана бъг в която ascification на U + 2502 и U + 2503 добавя двойни кавички към изхода.
- Фиксирана бъг в която -А S вариант генерира & quot; Превърнат толкова много символи & quot; линия за всеки знак, поради напускане в отстраняване на грешки код.
Какво ново във версия 4.13:
- Фиксирана бъг, който причини прекомерна брой символи променено на ASCII да да се докладва.
Какво ново във версия 4.12:
- И двете програми сега позволяват името на входния файл, за да бъдат посочени на командния ред, без пренасочване.
Какво ново във версия 4.11:
- Тази версия добавя поддръжка за & LT; XX & GT; & LT; XX & GT; и% uXXXX формати.
Какво ново във версия 4.10:
- Тази версия поправя грешка, която прави аргумента, Y към -а флага на ascii2uni не-оп, и коригира страниците на човека и да помогне за аргументите Y и Q до флага -а и за двете програми.
- Аргументът Y сега е грешка за uni2ascii.
- информацията за версията и действие обобщения са по-информативни.
Коментари не е намерена