Print Page - Unicode now supported

Title: Unicode now supported
Post by: sapero on February 23, 2006, 02:10:39 AM

Hello all,
Browsing the source code for nasm from \redist folder I have found a way to let the assembler support unicode.
In file preproc.c changed:

Code Select

int __stdcall MultiByteToWideChar(int cp,int flag,char *ansi,int len,char *uni,int len2);
/*
 *Ãƒâ€šÃ,Â  this function creates a new Token and passes a pointer to it 
 *Ãƒâ€šÃ,Â  back to the caller.Ãƒâ€šÃ,Â  It sets the type and text elements, and
 *Ãƒâ€šÃ,Â  also the mac and next elements to NULL.
 */
static Token *
new_Token(Token * next, int type, char *text, int txtlen)
{
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Token *t;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  int i;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  char *cc, start;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  unsigned char uni[4];Ãƒâ€šÃ,Â  // sapero

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  if (freeTokens == NULL)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  freeTokens = (Token *)new_Block(TOKEN_BLOCKSIZE * sizeof(Token));
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  for (i = 0; i < TOKEN_BLOCKSIZE - 1; i++)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  freeTokens[i].next = &freeTokens[i + 1];
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  freeTokens[i].next = NULL;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t = freeTokens;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  freeTokens = t->next;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->next = next;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->mac = NULL;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->type = type;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  if (type == TOK_WHITESPACE || text == NULL)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->text = NULL;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  else
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  if (txtlen == 0)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  txtlen = strlen(text);

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  /////////////////////////////////////////////
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  // nasm unicode support start (by sapero)
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  /////////////////////////////////////////////
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  //
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  // string "\Labcd" is replaced with
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  // "a",0,"b",0,"c",0,"d",0,0,0

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  if (type==TOK_STRING && 0==strncmp(text, "\"\\L", 3) ) {

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->text = nasm_malloc(((strlen(text)-2) * 6)+9);
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  cc = t->text;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  start = *text;
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  text += 3; // skip "\L

Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  while (*text != start) {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  MultiByteToWideChar(0,0,text,1,uni,1); // convert character
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  sprintf(cc, "\"%c\",%d,",uni[0],uni[1]); // use codepage
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  //sprintf(cc, "\"%c\",0,", *text); // no codepage
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  cc += strlen(cc); text++; // 6-8 characters
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  sprintf(cc, "0,0");
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  else {
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  // the original handler...
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->text = nasm_malloc(1 + txtlen);
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  strncpy(t->text, text, txtlen);
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  t->text[txtlen] = '\0';
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  }
Ãƒâ€šÃ,Â  Ãƒâ€šÃ,Â  return t;
}

usage is simple: "\Lx"Ãƒâ€šÃ,Â where x is your string. Unicode string is 'assembled' into object file, so .asm output is not changed.
Works also in pure asm coding :)

Code Select

invoke MessageBoxW, 0, "\Lunicode test", "\L", 0x40

OEM characters are supported by MultiByteToWideChar api

Code Select

extern int MessageBoxW(int hwnd,string s1,opt string *s2,opt int icon=0x40);
global sub main()
{
	MessageBoxW(0,"\Lunicode message box","\L");
	return MessageBoxW(0,"\LÃƒâ€šÃ,Â¹ÃƒÆ'Ã,Â¦Ãƒâ€šÃ,Â¿ÃƒÆ'Ã,Â±Ãƒâ€šÃ,Â³ÃƒÆ'Ã,Â³ÃƒÆ'Ã,ÂªÃƒÆ'Ã,Â¤ÃƒÆ'Ã,Â¶ÃƒÆ'Ã,Â¼","\L");
}

and to see how the string is modified:

Code Select

#asm %error '"\Lunicode"'
#endasm

Title: Re: Unicode now supported
Post by: sapero on February 23, 2006, 05:23:52 AM

small change:

Code Select

            t->text = nasm_malloc(((strlen(text)-2) * 8)+4); // "aaa,bbb," * size + "0,0" + null
            cc = t->text;
            start = *text;
            text += 3; // skip "\L

            while (*text != start) {
                MultiByteToWideChar(0,0,text,1,uni,1); // convert character
                sprintf(cc, "%d,%d,",uni[0],uni[1]); // use codepage
                cc += strlen(cc); text++;
            }
            sprintf(cc, "0,0");
        }

both unicode characters are converted into digits: xxx,yyy,

Title: Re: Unicode now supported
Post by: Parker on February 23, 2006, 11:32:56 AM

Cool, now we have to get Paul to incorporate that.

IonicWind Software

Aurora Compiler => General Discussion => Topic started by: sapero on February 23, 2006, 02:10:39 AM