Unicode now supported

sapero · February 23, 2006, 02:10:39 AM

Hello all,
Browsing the source code for nasm from \redist folder I have found a way to let the assembler support unicode.
In file preproc.c changed:

Code Select

int __stdcall MultiByteToWideChar(int cp,int flag,char *ansi,int len,char *uni,int len2);
/*
 *Ãƒâ€šÃ,Â  this function creates a new Token and passes a pointer to it 
 *Ãƒâ€šÃ,Â  back to the caller.Ãƒâ€šÃ,Â  It sets the type and text elements, and
 *Ãƒâ€šÃ,Â  also the mac and next elements to NULL.
 */
static Token *
new_Token(Token * next, int type, char *text, int txtlen)
{
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Token *t;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  int i;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  char *cc, start;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  unsigned char uni[4];Ãƒâ€šÃ,Â  // sapero

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  if (freeTokens == NULL)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  freeTokens = (Token *)new_Block(TOKEN_BLOCKSIZE * sizeof(Token));
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  for (i = 0; i < TOKEN_BLOCKSIZE - 1; i++)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  freeTokens[i].next = &freeTokens[i + 1];
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  freeTokens[i].next = NULL;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t = freeTokens;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  freeTokens = t->next;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->next = next;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->mac = NULL;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->type = type;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  if (type == TOK_WHITESPACE || text == NULL)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->text = NULL;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  else
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  if (txtlen == 0)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  txtlen = strlen(text);

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  /////////////////////////////////////////////
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  // nasm unicode support start (by sapero)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  /////////////////////////////////////////////
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  //
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  // string "\Labcd" is replaced with
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  // "a",0,"b",0,"c",0,"d",0,0,0

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  if (type==TOK_STRING && 0==strncmp(text, "\"\\L", 3) ) {

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->text = nasm_malloc(((strlen(text)-2) * 6)+9);
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  cc = t->text;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  start = *text;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  text += 3; // skip "\L

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  while (*text != start) {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  MultiByteToWideChar(0,0,text,1,uni,1); // convert character
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  sprintf(cc, "\"%c\",%d,",uni[0],uni[1]); // use codepage
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  //sprintf(cc, "\"%c\",0,", *text); // no codepage
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  cc += strlen(cc); text++; // 6-8 characters
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  sprintf(cc, "0,0");
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  else {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  // the original handler...
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->text = nasm_malloc(1 + txtlen);
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  strncpy(t->text, text, txtlen);
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->text[txtlen] = '\0';
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  return t;
}

usage is simple: "\Lx"Ãƒâ€šÃ,Â where x is your string. Unicode string is 'assembled' into object file, so .asm output is not changed.
Works also in pure asm coding

Code Select

invoke MessageBoxW, 0, "\Lunicode test", "\L", 0x40

OEM characters are supported by MultiByteToWideChar api

Code Select

extern int MessageBoxW(int hwnd,string s1,opt string *s2,opt int icon=0x40);
global sub main()
{
	MessageBoxW(0,"\Lunicode message box","\L");
	return MessageBoxW(0,"\LÃƒâ€šÃ,Â¹ÃƒÆ'Ã,Â¦Ãƒâ€šÃ,Â¿ÃƒÆ'Ã,Â±Ãƒâ€šÃ,Â³ÃƒÆ'Ã,Â³ÃƒÆ'Ã,ÂªÃƒÆ'Ã,Â¤ÃƒÆ'Ã,Â¶ÃƒÆ'Ã,Â¼","\L");
}

and to see how the string is modified:

Code Select

#asm %error '"\Lunicode"'
#endasm

sapero · February 23, 2006, 05:23:52 AM

small change:

Code Select

            t->text = nasm_malloc(((strlen(text)-2) * 8)+4); // "aaa,bbb," * size + "0,0" + null
            cc = t->text;
            start = *text;
            text += 3; // skip "\L

            while (*text != start) {
                MultiByteToWideChar(0,0,text,1,uni,1); // convert character
                sprintf(cc, "%d,%d,",uni[0],uni[1]); // use codepage
                cc += strlen(cc); text++;
            }
            sprintf(cc, "0,0");
        }

both unicode characters are converted into digits: xxx,yyy,

Parker · February 23, 2006, 11:32:56 AM

Cool, now we have to get Paul to incorporate that.

IonicWind Software

News:

Unicode now supported

sapero

February 23, 2006, 02:10:39 AM Last Edit: February 23, 2006, 02:35:38 AM by sapero

sapero

February 23, 2006, 05:23:52 AM #1

Parker

February 23, 2006, 11:32:56 AM #2