
Estándar Unicode
Contenidos
Como puede ver a continuación, los puntos de código sustitutos individuales se muestran como el signo de interrogación en un diamante oscuro, pero combinados se muestran como el emoji “Cara de gato” ( U+1F431 ): . También se puede ver que una combinación que no sea “_SC” cuenta el par sustituto como 2 caracteres en lugar de 1 como hace la combinación “_SC”.Prueba 2Con esto en mente, he creado la siguiente consulta para probar cada combinación que no sea una combinación de SQL Server ni una de las combinaciones “_SC”:
Esa consulta concatena cada nombre de la Intercalación en una sentencia IF que imprime el nombre de la Intercalación sólo si la función LEN devuelve “1” cuando se suministra el carácter “cara de gato”. Las tres primeras líneas generadas son:
Los resultados de esa consulta (la que produjo todas esas sentencias IF) fueron 64 de las 68 nuevas Colaciones. Las únicas Colaciones que no se devolvieron fueron las cuatro Colaciones binarias (que terminan en “_BIN” o “_BIN2”), y no se esperaba que se devolvieran ya que, por su propia naturaleza, no admiten Caracteres Suplementarios.Prueba 3Como prueba final, podemos hacer uso del hecho de que los antiguos tipos de datos obsoletos (es decir: ¡no usar!) de TEXT y NTEXT no admiten Caracteres Suplementarios. ¿Qué significa “soportar”? Las Colaciones que no soportan los Caracteres Suplementarios simplemente no ven el Par Sustituto como un único Punto de Código, y eso es principalmente un problema para las funciones incorporadas. Con estos dos tipos de datos obsoletos (una vez más, no debería utilizarlos si está utilizando SQL Server 2005 o una versión más reciente), no se le permite utilizar intercalaciones con caracteres suplementarios. El intento de hacerlo dará lugar a un error. Ejecutando lo siguiente:
Resto de codificación de caracteres
El Juego de Caracteres Suplementarios de Hong Kong (香港增補字符集; comúnmente abreviado como HKSCS) es un conjunto de caracteres chinos -4.702 en total en la versión inicial- que se utiliza en cantonés, así como al escribir los nombres de algunos lugares de Hong Kong (ya sea en cantonés escrito o en frases chinas escritas estándar). [1] Evolucionó a partir del anterior Conjunto de Caracteres Chinos del Gobierno (政府通用字庫) o GCCS. El GCCS es un conjunto de caracteres chinos suplementarios codificados en las áreas definidas por el usuario del conjunto de caracteres Big5. Originalmente se utilizaba en el Gobierno de Hong Kong y posteriormente fue utilizado por el público. Posteriormente, evolucionó hasta convertirse en el Juego de caracteres suplementarios de Hong Kong cuando los caracteres del conjunto se sometieron a la norma ISO-10646 para su codificación.
Debido a las diferencias inherentes entre el chino escrito estándar y el cantonés escrito, el Gobierno de Hong Kong reconoció la necesidad de contar con un conjunto estandarizado de caracteres propios que permitiera agilizar la comunicación electrónica; en aquel momento, el esquema de codificación del chino Big5 no contenía la gran mayoría de estos caracteres (algunos se cruzaban erróneamente con otros similares).
Calculadora de parejas sustitutas
Las aplicaciones de Windows suelen utilizar UTF-16 para representar los datos de caracteres Unicode. El uso de 16 bits permite la representación directa de 65.536 caracteres únicos, pero este Plano Básico Multilingüe (BMP) no es suficiente para cubrir todos los símbolos utilizados en las lenguas humanas. La versión 4.1 de Unicode incluye más de 97.000 caracteres, de los cuales más de 70.000 corresponden al chino.
Un carácter suplementario es un carácter situado más allá del BMP, y un “sustituto” es un valor de código UTF-16. Para UTF-16, se requiere un “par de sustitutos” para representar un único carácter suplementario. El primer sustituto (alto) es un valor de código de 16 bits en el rango U+D800 a U+DBFF. El segundo sustituto (bajo) es un valor de código de 16 bits en el rango U+DC00 a U+DFFF. Utilizando el mecanismo de sustitutos, UTF-16 puede admitir los 1.114.112 caracteres Unicode potenciales. Para obtener más detalles sobre los caracteres suplementarios, los sustitutos y los pares de sustitutos, consulte el Estándar Unicode.
UTF-16 maneja los caracteres suplementarios como pares sustitutos. El sistema operativo procesa un par de sustitutos de forma similar a como procesa las marcas no espaciadoras. En el momento de la visualización, el par de sustitutos se muestra como un glifo por medio de Uniscribe, tal y como prescribe el estándar Unicode.
Caracteres xml válidos en Java
En el pasado, diferentes organizaciones han reunido diferentes conjuntos de caracteres y han creado codificaciones para ellos: un conjunto puede cubrir sólo los idiomas de Europa Occidental basados en el latín (excluyendo países de la UE como Bulgaria o Grecia), otro puede cubrir un idioma particular del Lejano Oriente (como el japonés), otros pueden ser uno de los muchos conjuntos concebidos de manera bastante ad hoc para representar otro idioma en algún lugar del mundo.
Por desgracia, no puede garantizar que su aplicación sea compatible con todas las codificaciones, ni que una determinada codificación sea compatible con todas sus necesidades para representar una lengua determinada. Además, suele ser imposible combinar diferentes codificaciones en la misma página web o en una base de datos, por lo que suele ser muy difícil admitir páginas multilingües utilizando enfoques de codificación “heredados”.
El Consorcio Unicode ofrece un amplio y único conjunto de caracteres que pretende incluir todos los caracteres necesarios para cualquier sistema de escritura del mundo, incluidas las escrituras antiguas (como la cuneiforme, la gótica y los jeroglíficos egipcios). Actualmente es fundamental para la arquitectura de la Web y los sistemas operativos, y es compatible con los principales navegadores y aplicaciones web. El estándar Unicode también describe las propiedades y los algoritmos para trabajar con los caracteres.