Langage de programmation - C++ - LibSass

LibSass et Unicode

Actuellement, LibSass s'attend à ce que toutes les entrées soient encodées en UTF8 (et ne génère que ce format), même si vous avez des caractères Unicode. La conversion entre les encodages n'est pas prise en charge, même si vous la déclarez avec une règle @charset. Le texte ci-dessous a été initialement publié comme un problème sur le suivi LibSass. Depuis, l'état est obsolète : LibSass s'attend désormais à ce que vos entrées soient compatibles UTF8/ASCII. Il a été prouvé que la lecture des encodages ANSI (par exemple, les encodages sur un octet) en UTF8 peut entraîner des comportements inattendus, pouvant dans le pire des cas entraîner des dépassements de tampon ou des erreurs de segmentation. Par conséquent, LibSass vérifie désormais que vos entrées sont bien encodées en UTF8 !

Déclaration des encodages de caractères en CSS

Ceci explique comment l'encodage des caractères d'un fichier CSS est déterminé. Comme il ne traite que des fichiers locaux, ils n'ont jamais d'entête HTTP. La priorité devrait donc être la règle «charset», le marqueur d'ordre des octets (BOM) ou la détection automatique (avec retour final à la valeur par défaut du système/UTF-8). Cela peut paraître simple à mettre en ouvre, mais qu'en est-il des règles d'importation ? Les spécifications CSS n'interdisent pas le mélange de différents encodages ! Ils ont résolu ce problème en convertissant tous les fichiers en UTF-8 en interne. Lors de l'écriture, une option permet d'indiquer à l'outil l'encodage souhaité (UTF-8 par défaut). Il est également possible de définir s'il doit écrire un BOM ou non et s'il doit ajouter la déclaration de l'ensemble de caractères.

Leur outil étant écrit en Perl, il dispose de nombreux utilitaires pour gérer différents ensembles de caractères Unicode. La plupart des logiciels libres utilisent ICU ou libiconv pour effectuer la conversion entre différents encodages. Ils n'ont pas encore une idée de la facilité/difficulté d'intégration, quelle que soit la plateforme (cela semble faisable). L'encodage ANSI (codage sur un octet) vers UTF-8 se résume à une table de conversion (pour chaque page de code prise en charge).

État actuel de la prise en charge Unicode de LibSass

LibSass est/devrait être entièrement compatible UTF (et donc ASCII simple).

LibSass 3.5 garantit que votre entrée est soit en ASCII simple (caractères inférieurs à 127), soit en UTF-8. Il ne gère rien d'autre, mais garantit donc que la sortie est valide. Avant la version 3.5, il était possible de mélanger différentes pages de codes, ce qui provoquait des comportements inattendus.

Détection automatique de l'encodage actuel

LibSass lit actuellement tous les types de BOM et génère une erreur s'il détecte un élément qu'il ne sait pas gérer ! Il semble qu'il supprime le BOM UTF-8 facultatif (s'il en trouve un). À mon avis, il serait appréciable que les utilisateurs puissent configurer cela (y compris si une règle de l'ensemble de caractères doit être ajoutée à la sortie). Cependant, il ne prend pas réellement en compte les @charsets : il suppose toujours que votre entrée est en UTF-8 et ignore tout @charset donné !

Ce qui n'est pas pris en charge actuellement :

Utilisation d'encodages non compatibles ASCII (comme UTF-16, Latin-1,...)
Utilisation de caractères non ASCII dans différents encodages et dans différentes inclusions

Ce qui manque pour prendre en charge les cas ci-dessus

Un moyen de convertir entre les encodages (comme libiconv/ICU)
Recherche de l'ensemble de caractères dans le fichier (source disponible)
Gestion de la conversion à l'importation (et à l'exportation)
Facultatif : Rendre l'encodage de sortie configurable
Facultatif : Ajouter une nomenclature (BOM) facultative/obligatoire (configurable)

Fonctionnalité de faible priorité

Il suppose que l'implémentation actuelle devrait gérer plus de 99 % des cas d'utilisation réels. A) Les caractères Unicode sont encore rarement utilisés (car ils peuvent être écrits avec un échappement).

Il suppose que le plus gros problème réside dans la dépendance de la bibliothèque libiconv/ICU (ou autre). Comme elle contient de nombreuses règles de conversion, je pense que c'est la seule façon de gérer cela correctement. Une fois ce problème résolu, il devrait être assez simple d'implémenter les éléments manquants (dans parser.cpp : Parser::parse devrait renvoyer l'encodage et ajouter Parser::sniff_charset, puis convertir le flux d'octets source en UTF-8).

Il espère que les affirmations ci-dessus sont vraies. Unicode n'est vraiment pas le sujet le plus simple à appréhender.

PARTAGER CETTE PAGE SUR

Dernière mise à jour : Mardi, le 8 octobre 2024

	ABAP/4
	Ada
	Assembleur
	Assembly & bytecode
	ASP (Active Server Pages)
	Basic
	C
	C++
	C# (C Sharp)
	Cobol
	ColdFusion
	Fortran
	HTML
	Java
	JavaScript
	LISP
	Logo
	LotusScript
	Oberon
	Pascal
	Perl
	PHP
	PL/1
	Prolog
	Python
	Rebol
	REXX
	Ruby
	Rust
	SAS
	NoSQL
	SQL
	Swift
	X++ (Axapta)

	Assembleur 370
	Assembleur 1802
	Assembleur 4004
	Assembleur 6502
	Assembleur 6800
	Assembleur 68000
	Assembleur 8080 et 8085
	Assembleur 8089
	Assembleur 80x86
	Assembleur AGC4
	Assembleur ARM
	Assembleur DPS 8000
	Assembleur i860
	Assembleur Itanium
	Assembleur MIPS
	Assembleur PDP-11
	Assembleur PowerPC
	Assembleur RISC-V
	Assembleur SPARC
	Assembleur SuperH
	Assembleur UNIVAC I
	Assembleur VAX
	Assembleur Z80
	Assembleur Z8000
	Assembleur z/Architecture

	CIL
	Jasmin
	LLVM
	MSIL
	Parrot
	P-Code (PCode)
	SWEET16

	ASP 1.0
	ASP 2.0
	ASP 3.0
	ASP.NET

	ABasiC (Amiga)
	Adam SmartBASIC
	Altair BASIC
	AmigaBASIC (Amiga)
	AMOS Basic (Amiga)
	Atari Basic (Atari 400, 600 XL, 800, 800XL)
	Basic Apple II (Integer BASIC/APPLESOFT)
	Basic Commodore 64 (CBM-BASIC)
	Basic Commodore 128 (BASIC 7.0)
	Basic Commodore VIC-20 (CBM-BASIC 2.0)
	Basic Coco 1 (Color Basic)
	Basic Coco 2 (Extended Color Basic)
	Basic Coco 3 (Extended Color Basic 2.0)
	BASICA (PC DOS)
	Basic Pro
	BBC BASIC
	Blitz BASIC (Amiga)
	DarkBASIC
	Dartmouth BASIC
	GFA-Basic (Atari ST/Amiga)
	GWBASIC (MS-DOS)
	Liberty BASIC
	Locomotive BASIC (Amstrad CPC)
	MSX-Basic
	Omikron Basic (Atari ST)
	Oric Extended Basic
	Power Basic
	Quick Basic/QBasic (MS-DOS)
	Sinclair BASIC (ZX80, ZX81, ZX Spectrum)
	ST BASIC (Atari ST)
	Turbo Basic
	Vintage BASIC
	VBScript
	Visual Basic (VB)
	Visual Basic .NET (VB .NET)
	Visual Basic pour DOS
	Yabasic

Section courante

A propos

Section administrative du site