]> arthur.barton.de Git - netatalk.git/blob - libatalk/unicode/charcnv.c
use 0 0 for default creator/type rather than UNIX TEXT, from Shlomi
[netatalk.git] / libatalk / unicode / charcnv.c
1 /* 
2    Unix SMB/CIFS implementation.
3    Character set conversion Extensions
4    Copyright (C) Igor Vergeichik <iverg@mail.ru> 2001
5    Copyright (C) Andrew Tridgell 2001
6    Copyright (C) Simo Sorce 2001
7    Copyright (C) Martin Pool 2003
8    
9    This program is free software; you can redistribute it and/or modify
10    it under the terms of the GNU General Public License as published by
11    the Free Software Foundation; either version 2 of the License, or
12    (at your option) any later version.
13    
14    This program is distributed in the hope that it will be useful,
15    but WITHOUT ANY WARRANTY; without even the implied warranty of
16    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
17    GNU General Public License for more details.
18    
19    You should have received a copy of the GNU General Public License
20    along with this program; if not, write to the Free Software
21    Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
22
23 */
24 #ifdef HAVE_CONFIG_H
25 #include "config.h"
26 #endif /* HAVE_CONFIG_H */
27
28 #include <stdio.h>
29 #include <stdlib.h>
30 #include <unistd.h>
31 #include <string.h>
32 #include <ctype.h>
33 #include <errno.h>
34 #include <sys/stat.h>
35 #include <sys/param.h>
36 #ifdef HAVE_USABLE_ICONV
37 #include <iconv.h>
38 #endif
39 #if HAVE_LOCALE_H
40 #include <locale.h>
41 #endif
42 #if HAVE_LANGINFO_H
43 #include <langinfo.h>
44 #endif
45
46 #include <netatalk/endian.h>
47 #include <atalk/logger.h>
48 #include <atalk/unicode.h>
49 #include <atalk/util.h>
50 #include "byteorder.h"
51
52
53 /**
54  * @file
55  *
56  * @brief Character-set conversion routines built on our iconv.
57  * 
58  * @note Samba's internal character set (at least in the 3.0 series)
59  * is always the same as the one for the Unix filesystem.  It is
60  * <b>not</b> necessarily UTF-8 and may be different on machines that
61  * need i18n filenames to be compatible with Unix software.  It does
62  * have to be a superset of ASCII.  All multibyte sequences must start
63  * with a byte with the high bit set.
64  *
65  * @sa lib/iconv.c
66  */
67
68
69 #define MAX_CHARSETS 10
70
71 #define CHECK_FLAGS(a,b) (((a)!=NULL) ? (*(a) & (b)) : 0 )
72
73 static atalk_iconv_t conv_handles[MAX_CHARSETS][MAX_CHARSETS];
74 static char* charset_names[MAX_CHARSETS];
75 static struct charset_functions* charsets[MAX_CHARSETS];
76 static char hexdig[] = "0123456789abcdef";
77 #define hextoint( c )   ( isdigit( c ) ? c - '0' : c + 10 - 'a' )
78
79 static char* read_charsets_from_env(charset_t ch) 
80 {
81         char *name;
82
83         switch (ch) {
84             case CH_MAC:
85                 if (( name = getenv( "ATALK_MAC_CHARSET" )) != NULL ) 
86                     return name;
87                 else
88                     return "MAC_ROMAN";
89                 break;
90             case CH_UNIX:
91                 if (( name = getenv( "ATALK_UNIX_CHARSET" )) != NULL ) 
92                     return name;
93                 else
94                     return "LOCALE";
95                 break;
96             default:
97                 break;
98         }
99         return "ASCII";
100
101            
102
103 /**
104  * Return the name of a charset to give to iconv().
105  **/
106 static const char *charset_name(charset_t ch)
107 {
108         const char *ret = NULL;
109         static int first = 1;
110         static char macname[128];
111         static char unixname[128];
112
113         if (first) {
114                 memset(macname, 0, sizeof(macname));
115                 memset(unixname, 0, sizeof(unixname));
116                 first = 0;
117         }
118
119         if (ch == CH_UCS2) ret = "UCS-2";
120         else if (ch == CH_UTF8) ret = "UTF8";
121         else if (ch == CH_UTF8_MAC) ret = "UTF8-MAC";
122         else if (ch == CH_UNIX) {
123                 if (unixname[0] == '\0') {
124                         ret = read_charsets_from_env(CH_UNIX);
125                         strlcpy(unixname, ret, sizeof(unixname));
126                 }
127                 else
128                         ret = unixname;
129         }
130         else if (ch == CH_MAC) {
131                 if (macname[0] == '\0') {
132                         ret = read_charsets_from_env(CH_MAC);
133                         strlcpy(macname, ret, sizeof(macname));
134                 }
135                 else
136                         ret = unixname;
137         }
138
139         if (!ret)
140                 ret = charset_names[ch];
141
142 #if defined(HAVE_NL_LANGINFO) && defined(CODESET)
143         if (ret && strcasecmp(ret, "LOCALE") == 0) {
144                 const char *ln = NULL;
145
146 #ifdef HAVE_SETLOCALE
147                 setlocale(LC_ALL, "");
148 #endif
149                 ln = nl_langinfo(CODESET);
150                 if (ln) {
151                         /* Check whether the charset name is supported
152                            by iconv */
153                         atalk_iconv_t handle = atalk_iconv_open(ln, "UCS-2");
154                         if (handle == (atalk_iconv_t) -1) {
155                                 LOG(log_debug, logtype_default, "Locale charset '%s' unsupported, using ASCII instead", ln);
156                                 ln = "ASCII";
157                         } else {
158                                 atalk_iconv_close(handle);
159                         }
160                         if (ch==CH_UNIX)
161                                 strlcpy(unixname, ln, sizeof(unixname));
162                 }
163                 ret = ln;
164         }
165 #else /* system doesn't have LOCALE support */
166 if (ch == CH_UNIX) ret = NULL;
167 #endif
168
169         if (!ret || !*ret) ret = "ASCII";
170         return ret;
171 }
172
173 struct charset_functions* get_charset_functions (charset_t ch)
174 {
175         if (charsets[ch] != NULL)
176                 return charsets[ch];
177
178         charsets[ch] = find_charset_functions(charset_name(ch));
179
180         return charsets[ch];
181 }
182         
183
184 void lazy_initialize_conv(void)
185 {
186         static int initialized = 0;
187
188         if (!initialized) {
189                 initialized = 1;
190                 init_iconv();
191         }
192 }
193
194 charset_t add_charset(char* name)
195 {
196         static charset_t max_charset_t = NUM_CHARSETS-1;
197         charset_t cur_charset_t = max_charset_t+1;
198         unsigned int c1;
199
200         lazy_initialize_conv();
201
202         for (c1=0; c1<=max_charset_t;c1++) {
203                 if ( strcasecmp(name, charset_name(c1)) == 0)
204                         return (c1);
205         }
206
207         if ( cur_charset_t >= MAX_CHARSETS )  {
208                 LOG (log_debug, logtype_default, "Adding charset %s failed, too many charsets (max. %u allowed)", 
209                         name, MAX_CHARSETS);
210                 return (charset_t) -1;
211         }
212
213         /* First try to setup the required conversions */
214
215         conv_handles[cur_charset_t][CH_UCS2] = atalk_iconv_open( charset_name(CH_UCS2), name);
216         if (conv_handles[cur_charset_t][CH_UCS2] == (atalk_iconv_t)-1) {
217                 LOG(log_error, logtype_default, "Required conversion from %s to %s not supported",
218                         name,  charset_name(CH_UCS2));
219                 conv_handles[cur_charset_t][CH_UCS2] = NULL;
220                 return (charset_t) -1;
221         }
222
223         conv_handles[CH_UCS2][cur_charset_t] = atalk_iconv_open( name, charset_name(CH_UCS2));
224         if (conv_handles[CH_UCS2][cur_charset_t] == (atalk_iconv_t)-1) {
225                 LOG(log_error, logtype_default, "Required conversion from %s to %s not supported",
226                         charset_name(CH_UCS2), name);
227                 conv_handles[CH_UCS2][cur_charset_t] = NULL;
228                 return (charset_t) -1;
229         }
230
231         /* register the new charset_t name */
232         charset_names[cur_charset_t] = strdup(name);
233
234         charsets[cur_charset_t] = get_charset_functions (cur_charset_t);
235         max_charset_t++;
236
237 #ifdef DEBUG
238         LOG(log_debug, logtype_default, "Added charset %s with handle %u", name, cur_charset_t);
239 #endif /* DEBUG */
240         return (cur_charset_t);
241 }
242
243 /**
244  * Initialize iconv conversion descriptors.
245  *
246  * This is called the first time it is needed, and also called again
247  * every time the configuration is reloaded, because the charset or
248  * codepage might have changed.
249  **/
250 void init_iconv(void)
251 {
252         int c1;
253
254         for (c1=0;c1<NUM_CHARSETS;c1++) {
255                 const char *name = charset_name((charset_t)c1);
256
257                 conv_handles[c1][CH_UCS2] = atalk_iconv_open( charset_name(CH_UCS2), name);
258                 if (conv_handles[c1][CH_UCS2] == (atalk_iconv_t)-1) {
259                         LOG(log_error, logtype_default, "Required conversion from %s to %s not supported",
260                                 name,  charset_name(CH_UCS2));
261                         conv_handles[c1][CH_UCS2] = NULL;
262                 }
263
264                 if (c1 != CH_UCS2) { /* avoid lost memory, make valgrind happy */
265                         conv_handles[CH_UCS2][c1] = atalk_iconv_open( name, charset_name(CH_UCS2));
266                         if (conv_handles[CH_UCS2][c1] == (atalk_iconv_t)-1) {
267                                 LOG(log_error, logtype_default, "Required conversion from %s to %s not supported",
268                                         charset_name(CH_UCS2), name);
269                                 conv_handles[CH_UCS2][c1] = NULL;
270                         }
271                 }
272                 
273                 charsets[c1] = get_charset_functions (c1);
274         }
275 }
276
277 /**
278  * Convert string from one encoding to another, making error checking etc
279  *
280  * @param src pointer to source string (multibyte or singlebyte)
281  * @param srclen length of the source string in bytes
282  * @param dest pointer to destination string (multibyte or singlebyte)
283  * @param destlen maximal length allowed for string
284  * @returns the number of bytes occupied in the destination
285  **/
286 static size_t convert_string_internal(charset_t from, charset_t to,
287                       void const *src, size_t srclen, 
288                       void *dest, size_t destlen)
289 {
290         size_t i_len, o_len;
291         size_t retval;
292         const char* inbuf = (const char*)src;
293         char* outbuf = (char*)dest;
294         char* o_save = outbuf;
295         atalk_iconv_t descriptor;
296
297         if (srclen == (size_t)-1)
298                 srclen = strlen(src)+1;
299
300         lazy_initialize_conv();
301
302         descriptor = conv_handles[from][to];
303
304         if (descriptor == (atalk_iconv_t)-1 || descriptor == (atalk_iconv_t)0) {
305                 return (size_t) -1;
306         }
307
308         i_len=srclen;
309         o_len=destlen;
310         retval = atalk_iconv(descriptor,  &inbuf, &i_len, &outbuf, &o_len);
311         if(retval==(size_t)-1) {
312                 const char *reason="unknown error";
313                 switch(errno) {
314                         case EINVAL:
315                                 reason="Incomplete multibyte sequence";
316                                 break;
317                         case E2BIG:
318                                 reason="No more room"; 
319                                break;
320                         case EILSEQ:
321                                reason="Illegal multibyte sequence";
322                                break;
323                 }
324                 LOG(log_debug, logtype_default,"Conversion error: %s",reason);
325                 return (size_t)-1;
326         }
327
328         /* Terminate the string */
329         if (to == CH_UCS2 && destlen-o_len >= 2) {
330                 o_save[destlen-o_len]   = 0;
331                 o_save[destlen-o_len+1] = 0;
332         }
333         else if ( to != CH_UCS2 && destlen-o_len > 0 )
334                 o_save[destlen-o_len] = 0;
335         else {
336                 /* FIXME: what should we do here, string *might* be unterminated. E2BIG? */
337         }
338
339         return destlen-o_len;
340 }
341
342
343 size_t convert_string(charset_t from, charset_t to,
344                       void const *src, size_t srclen, 
345                       void *dest, size_t destlen)
346 {
347         size_t i_len, o_len;
348         ucs2_t *u;
349         ucs2_t buffer[MAXPATHLEN];
350         ucs2_t buffer2[MAXPATHLEN];
351         int composition = 0;
352
353         lazy_initialize_conv();
354
355         /* convert from_set to UCS2 */
356         if ((size_t)(-1) == ( o_len = convert_string_internal( from, CH_UCS2, src, srclen, 
357                                                                (char*) buffer, sizeof(buffer))) ) {
358                 LOG(log_error, logtype_default, "Conversion failed ( %s to CH_UCS2 )", charset_name(from));
359                 return (size_t) -1;
360         }
361
362         /* Do pre/decomposition */
363         if ( ((!(charsets[to])   || !(charsets[to]->flags & CHARSET_DECOMPOSED)) && 
364                 (!(charsets[from]) || (charsets[from]->flags & CHARSET_DECOMPOSED))))
365             composition = 1;
366         if ((charsets[to] && charsets[to]->flags & CHARSET_DECOMPOSED) )
367             composition = 2;
368  
369         i_len = sizeof(buffer2);
370         u = buffer2;
371
372         switch (composition) {
373         case 0:
374             u = buffer;
375             i_len = o_len;
376             break;
377         case 1:
378             if ( (size_t)-1 == (i_len = precompose_w(buffer, o_len, u, &i_len)) )
379                 return (size_t)(-1);
380             break;
381         case 2:
382             if ( (size_t)-1 == (i_len = decompose_w(buffer, o_len, u, &i_len)) )
383                 return (size_t)(-1);
384             break;
385         }
386                 
387         /* Convert UCS2 to to_set */
388         if ((size_t)(-1) == ( o_len = convert_string_internal( CH_UCS2, to, (char*) u, i_len, dest, destlen)) ) {
389                 LOG(log_error, logtype_default, "Conversion failed (CH_UCS2 to %s):%s", charset_name(to), strerror(errno));
390                 return (size_t) -1;
391         }
392
393         return o_len;
394 }       
395
396         
397
398 /**
399  * Convert between character sets, allocating a new buffer for the result.
400  *
401  * @param srclen length of source buffer.
402  * @param dest always set at least to NULL
403  * @note -1 is not accepted for srclen.
404  *
405  * @returns Size in bytes of the converted string; or -1 in case of error.
406  **/
407
408 static size_t convert_string_allocate_internal(charset_t from, charset_t to,
409                                void const *src, size_t srclen, char **dest)
410 {
411         size_t i_len, o_len, destlen;
412         size_t retval;
413         const char *inbuf = (const char *)src;
414         char *outbuf = NULL, *ob = NULL;
415         atalk_iconv_t descriptor;
416
417         *dest = NULL;
418
419         if (src == NULL || srclen == (size_t)-1)
420                 return (size_t)-1;
421
422         lazy_initialize_conv();
423
424         descriptor = conv_handles[from][to];
425
426         if (descriptor == (atalk_iconv_t)-1 || descriptor == (atalk_iconv_t)0) {
427                 /* conversion not supported, return -1*/
428                 LOG(log_debug, logtype_default, "convert_string_allocate: conversion not supported!");
429                 return -1;
430         }
431
432         destlen = MAX(srclen, 512);
433 convert:
434         destlen = destlen * 2;
435         outbuf = (char *)realloc(ob, destlen);
436         if (!outbuf) {
437                 LOG(log_debug, logtype_default,"convert_string_allocate: realloc failed!");
438                 SAFE_FREE(ob);
439                 return (size_t)-1;
440         } else {
441                 ob = outbuf;
442         }
443         inbuf = src;   /* this restarts the whole conversion if buffer needed to be increased */
444         i_len = srclen;
445         o_len = destlen;
446         retval = atalk_iconv(descriptor,
447                            &inbuf, &i_len,
448                            &outbuf, &o_len);
449         if(retval == (size_t)-1)                {
450                 const char *reason="unknown error";
451                 switch(errno) {
452                         case EINVAL:
453                                 reason="Incomplete multibyte sequence";
454                                 break;
455                         case E2BIG:
456                                 goto convert;           
457                         case EILSEQ:
458                                 reason="Illegal multibyte sequence";
459                                 break;
460                 }
461                 LOG(log_debug, logtype_default,"Conversion error: %s(%s)",reason,inbuf);
462                 SAFE_FREE(ob);
463                 return (size_t)-1;
464         }
465
466         
467         destlen = destlen - o_len;
468
469         /* Terminate the string */
470         if (to == CH_UCS2 && o_len >= 2) {
471                 ob[destlen] = 0;
472                 ob[destlen+1] = 0;
473                 *dest = (char *)realloc(ob,destlen+2);
474         }
475         else if ( to != CH_UCS2 && o_len > 0 ) {
476                 ob[destlen] = 0;
477                 *dest = (char *)realloc(ob,destlen+1);
478         }
479         else {
480                 goto convert; /* realloc */
481         }
482
483         if (destlen && !*dest) {
484                 LOG(log_debug, logtype_default, "convert_string_allocate: out of memory!");
485                 SAFE_FREE(ob);
486                 return (size_t)-1;
487         }
488
489         return destlen;
490 }
491
492
493 size_t convert_string_allocate(charset_t from, charset_t to,
494                       void const *src, size_t srclen, 
495                       char ** dest)
496 {
497         size_t i_len, o_len;
498         ucs2_t *u;
499         ucs2_t buffer[MAXPATHLEN];
500         ucs2_t buffer2[MAXPATHLEN];
501         int composition = 0;
502
503         lazy_initialize_conv();
504
505         *dest = NULL;
506
507         /* convert from_set to UCS2 */
508         if ((size_t)(-1) == ( o_len = convert_string_internal( from, CH_UCS2, src, srclen, 
509                                                                buffer, sizeof(buffer))) ) {
510                 LOG(log_error, logtype_default, "Conversion failed ( %s to CH_UCS2 )", charset_name(from));
511                 return (size_t) -1;
512         }
513
514         /* Do pre/decomposition */
515         if ( ((!(charsets[to])   || !(charsets[to]->flags & CHARSET_DECOMPOSED)) && 
516                 (!(charsets[from]) || (charsets[from]->flags & CHARSET_DECOMPOSED))))
517             composition = 1;
518         if ((charsets[to] && charsets[to]->flags & CHARSET_DECOMPOSED) )
519             composition = 2;
520  
521         i_len = sizeof(buffer2);
522         u = buffer2;
523
524         switch (composition) {
525         case 0:
526             u = buffer;
527             i_len = o_len;
528             break;
529         case 1:
530             if ( (size_t)-1 == (i_len = precompose_w(buffer, o_len, u, &i_len)) )
531                 return (size_t)(-1);
532             break;
533         case 2:
534             if ( (size_t)-1 == (i_len = decompose_w(buffer, o_len, u, &i_len)) )
535                 return (size_t)(-1);
536             break;
537         }
538                 
539         /* Convert UCS2 to to_set */
540         if ((size_t)(-1) == ( o_len = convert_string_allocate_internal( CH_UCS2, to, (char*)u, i_len, dest)) ) 
541                 LOG(log_error, logtype_default, "Conversion failed (CH_UCS2 to %s):%s", charset_name(to), strerror(errno));
542                 
543         return o_len;
544
545 }
546
547 size_t charset_strupper(charset_t ch, const char *src, size_t srclen, char *dest, size_t destlen)
548 {
549         size_t size;
550         char *buffer;
551         
552         size = convert_string_allocate_internal(ch, CH_UCS2, src, srclen,
553                                        (char**) &buffer);
554         if (size == (size_t)-1) {
555                 SAFE_FREE(buffer);
556                 return size;
557         }
558         if (!strupper_w((ucs2_t *)buffer) && (dest == src)) {
559                 free(buffer);
560                 return srclen;
561         }
562         
563         size = convert_string_internal(CH_UCS2, ch, buffer, size, dest, destlen);
564         free(buffer);
565         return size;
566 }
567
568 size_t charset_strlower(charset_t ch, const char *src, size_t srclen, char *dest, size_t destlen)
569 {
570         size_t size;
571         char *buffer;
572         
573         size = convert_string_allocate_internal(ch, CH_UCS2, src, srclen,
574                                        (char **) &buffer);
575         if (size == (size_t)-1) {
576                 SAFE_FREE(buffer);
577                 return size;
578         }
579         if (!strlower_w((ucs2_t *)buffer) && (dest == src)) {
580                 free(buffer);
581                 return srclen;
582         }
583         
584         size = convert_string_internal(CH_UCS2, ch, buffer, size, dest, destlen);
585         free(buffer);
586         return size;
587 }
588
589
590 size_t unix_strupper(const char *src, size_t srclen, char *dest, size_t destlen)
591 {
592         return charset_strupper( CH_UNIX, src, srclen, dest, destlen);
593 }
594
595 size_t unix_strlower(const char *src, size_t srclen, char *dest, size_t destlen)
596 {
597         return charset_strlower( CH_UNIX, src, srclen, dest, destlen);
598 }
599
600 size_t utf8_strupper(const char *src, size_t srclen, char *dest, size_t destlen)
601 {
602         return charset_strupper( CH_UTF8, src, srclen, dest, destlen);
603 }
604
605 size_t utf8_strlower(const char *src, size_t srclen, char *dest, size_t destlen)
606 {
607         return charset_strlower( CH_UTF8, src, srclen, dest, destlen);
608 }
609
610 /**
611  * Copy a string from a charset_t char* src to a UCS2 destination, allocating a buffer
612  *
613  * @param dest always set at least to NULL 
614  *
615  * @returns The number of bytes occupied by the string in the destination
616  *         or -1 in case of error.
617  **/
618
619 size_t charset_to_ucs2_allocate(charset_t ch, ucs2_t **dest, const char *src)
620 {
621         size_t src_len = strlen(src);
622
623         *dest = NULL;
624         return convert_string_allocate(ch, CH_UCS2, src, src_len, (char**) dest);       
625 }
626
627 /**
628  * Copy a string from a charset_t char* src to a UTF-8 destination, allocating a buffer
629  *
630  * @param dest always set at least to NULL 
631  *
632  * @returns The number of bytes occupied by the string in the destination
633  **/
634
635 size_t charset_to_utf8_allocate(charset_t ch, char **dest, const char *src)
636 {
637         size_t src_len = strlen(src);
638
639         *dest = NULL;
640         return convert_string_allocate(ch, CH_UTF8, src, src_len, dest);        
641 }
642
643 /**
644  * Copy a string from a UCS2 src to a unix char * destination, allocating a buffer
645  *
646  * @param dest always set at least to NULL 
647  *
648  * @returns The number of bytes occupied by the string in the destination
649  **/
650
651 size_t ucs2_to_charset(charset_t ch, const ucs2_t *src, char *dest, size_t destlen)
652 {
653         size_t src_len = (strlen_w(src)) * sizeof(ucs2_t);
654         return convert_string(CH_UCS2, ch, src, src_len, dest, destlen);        
655 }
656
657
658 size_t ucs2_to_charset_allocate(charset_t ch, char **dest, const ucs2_t *src)
659 {
660         size_t src_len = (strlen_w(src)) * sizeof(ucs2_t);
661         *dest = NULL;
662         return convert_string_allocate(CH_UCS2, ch, src, src_len, dest);        
663 }
664
665 /**
666  * Copy a string from a UTF-8 src to a unix char * destination, allocating a buffer
667  *
668  * @param dest always set at least to NULL 
669  *
670  * @returns The number of bytes occupied by the string in the destination
671  **/
672
673 size_t utf8_to_charset_allocate(charset_t ch, char **dest, const char *src)
674 {
675         size_t src_len = strlen(src);
676         *dest = NULL;
677         return convert_string_allocate(CH_UTF8, ch, src, src_len, dest);        
678 }
679
680 size_t charset_precompose ( charset_t ch, char * src, size_t inlen, char * dst, size_t outlen)
681 {
682         char *buffer;
683         ucs2_t u[MAXPATHLEN];
684         size_t len;
685         size_t ilen;
686
687         if ((size_t)(-1) == (len = convert_string_allocate_internal(ch, CH_UCS2, src, inlen, &buffer)) )
688             return len;
689
690         ilen=sizeof(u);
691
692         if ( (size_t)-1 == (ilen = precompose_w((ucs2_t *)buffer, len, u, &ilen)) ) {
693             free (buffer);
694             return (size_t)(-1);
695         }
696
697         if ((size_t)(-1) == (len = convert_string_internal( CH_UCS2, ch, (char*)u, ilen, dst, outlen)) ) {
698             free (buffer);
699             return (size_t)(-1);
700         }
701         
702         free(buffer);
703         dst[len] = 0;
704         return (len);
705 }
706
707 size_t charset_decompose ( charset_t ch, char * src, size_t inlen, char * dst, size_t outlen)
708 {
709         char *buffer;
710         ucs2_t u[MAXPATHLEN];
711         size_t len;
712         size_t ilen;
713
714         if ((size_t)(-1) == (len = convert_string_allocate_internal(ch, CH_UCS2, src, inlen, &buffer)) )
715             return len;
716
717         ilen=sizeof(u);
718
719         if ( (size_t)-1 == (ilen = decompose_w((ucs2_t *)buffer, len, u, &ilen)) ) {
720             free (buffer);
721             return (size_t)(-1);
722         }
723
724         if ((size_t)(-1) == (len = convert_string_internal( CH_UCS2, ch, (char*)u, ilen, dst, outlen)) ) {
725             free (buffer);
726             return (size_t)(-1);
727         }
728
729         free(buffer);
730         dst[len] = 0;
731         return (len);
732 }
733
734 size_t utf8_precompose ( char * src, size_t inlen, char * dst, size_t outlen)
735 {
736         return charset_precompose ( CH_UTF8, src, inlen, dst, outlen);
737 }
738
739 size_t utf8_decompose ( char * src, size_t inlen, char * dst, size_t outlen)
740 {
741         return charset_decompose ( CH_UTF8, src, inlen, dst, outlen);
742 }
743
744 static char  debugbuf[ MAXPATHLEN +1 ];
745 char * debug_out ( char * seq, size_t len)
746 {
747         size_t i = 0;
748         unsigned char *p;
749         char *q;
750
751         p = (unsigned char*) seq;
752         q = debugbuf;
753
754         for ( i = 0; i<=(len-1); i++)
755         {
756                 sprintf(q, "%2.2x.", *p);
757                 q += 3;
758                 p++;
759         }
760         *q=0;
761         q = debugbuf;
762         return q;
763 }
764
765 /* 
766  * Convert from MB to UCS2 charset 
767  * Flags:
768  *              CONV_UNESCAPEHEX:        ':XX' will be converted to an UCS2 character
769  *              CONV_IGNORE:             return the first convertable characters.
770  * FIXME:
771  *              This will *not* work if the destination charset is not multibyte, i.e. UCS2->UCS2 will fail
772  *              The (un)escape scheme is not compatible to the old cap style escape. This is bad, we need it 
773  *              for e.g. HFS cdroms.
774  */
775
776 static size_t pull_charset_flags (charset_t from_set, charset_t cap_charset, char* src, size_t srclen, char* dest, size_t destlen, u_int16_t *flags)
777 {
778         size_t i_len, o_len, hlen;
779         size_t retval, j = 0;
780         const char* inbuf = (const char*)src;
781         char* outbuf = (char*)dest;
782         atalk_iconv_t descriptor;
783         atalk_iconv_t descriptor_cap;
784         char *o_save, *s;
785         char h[MAXPATHLEN];
786         const char *h_buf;
787
788         if (srclen == (size_t)-1)
789                 srclen = strlen(src)+1;
790
791         lazy_initialize_conv();
792
793         descriptor = conv_handles[from_set][CH_UCS2];
794         descriptor_cap = conv_handles[cap_charset][CH_UCS2];
795
796         if (descriptor == (atalk_iconv_t)-1 || descriptor == (atalk_iconv_t)0) {
797                 return (size_t) -1;
798         }
799
800         i_len=srclen;
801         o_len=destlen;
802         o_save=outbuf;
803         
804 conversion_loop:
805         if ( flags && (*flags & CONV_UNESCAPEHEX)) {
806                 if ( NULL != (s = strchr ( inbuf, ':'))) {
807                         j = i_len - (s - inbuf);
808                         if ( 0 == (i_len = (s - inbuf)))
809                                 goto unhex_char;
810         }
811         }
812         
813         retval = atalk_iconv(descriptor,  &inbuf, &i_len, &outbuf, &o_len);
814         if(retval==(size_t)-1) {
815             if (errno == EILSEQ && flags && (*flags & CONV_IGNORE)) {
816                                 *flags |= CONV_REQMANGLE;
817                                 return destlen-o_len;
818             }
819             else
820                 return (size_t) -1;
821     }
822     
823 unhex_char:
824         if (j && flags && (*flags & CONV_UNESCAPEHEX )) {
825                 /* we're at the start on an hex encoded ucs2 char */
826                 if (o_len < 2) {
827                         errno = E2BIG;
828                         return (size_t) -1;
829                 }
830                 if ( j >= 3 && 
831                         isxdigit( *(inbuf+1)) && isxdigit( *(inbuf+2)) ) {
832                         hlen = 0;
833                         while ( *inbuf == ':' && j >=3 && 
834                                 isxdigit( *(inbuf+1)) && isxdigit( *(inbuf+2)) ) {
835                                 inbuf++;
836                                 h[hlen]   = hextoint( *inbuf ) << 4;
837                                 inbuf++;
838                                 h[hlen++] |= hextoint( *inbuf );                        
839                                 inbuf++;
840                                 j -= 3;
841                         }
842                         h_buf = (const char*) h;
843                         if ((size_t) -1 == (retval = atalk_iconv(descriptor_cap, &h_buf, &hlen, &outbuf, &o_len)) ) {
844                                 if (errno == EILSEQ && CHECK_FLAGS(flags, CONV_IGNORE)) {
845                                         *flags |= CONV_REQMANGLE;
846                                         return destlen-o_len;
847                                 }
848                                 else {
849                                         return retval;
850                                 }
851                         }
852                 }
853                 else {
854                         /* We have an invalid :xx sequence */
855                         if (CHECK_FLAGS(flags, CONV_IGNORE)) {
856                                 *flags |= CONV_REQMANGLE;
857                                 return destlen-o_len;
858                         }
859                         else {
860                                 errno=EILSEQ;
861                                 return (size_t) -1;
862                         }
863                 }
864                 i_len = j;
865                 j = 0;
866                 if (i_len > 0)
867                         goto conversion_loop;
868         }
869
870
871
872         return destlen-o_len;
873 }
874
875 /* 
876  * Convert from UCS2 to MB charset 
877  * Flags:
878  *              CONV_ESCAPEDOTS: escape leading dots
879  *              CONV_ESCAPEHEX:  unconvertable characters and '/' will be escaped to :XX
880  *              CONV_IGNORE:     unconvertable characters will be replaced with '_'
881  * FIXME:
882  *              CONV_IGNORE and CONV_ESCAPEHEX can't work together. Should we check this ?
883  *              This will *not* work if the destination charset is not multibyte, i.e. UCS2->UCS2 will fail
884  *              The escape scheme is not compatible to the old cap style escape. This is bad, we need it 
885  *              for e.g. HFS cdroms.
886  */
887
888
889 static size_t push_charset_flags (charset_t to_set, charset_t cap_set, char* src, size_t srclen, char* dest, size_t destlen, u_int16_t *flags)
890 {
891     size_t i_len, o_len, i;
892     size_t retval, j = 0;
893     const char* inbuf = (const char*)src;
894     char* outbuf = (char*)dest;
895     atalk_iconv_t descriptor;
896     char *o_save;
897     char *buf, *buf_save;
898     size_t buflen;
899     
900     lazy_initialize_conv();
901     
902     descriptor = conv_handles[CH_UCS2][to_set];
903     
904     if (descriptor == (atalk_iconv_t)-1 || descriptor == (atalk_iconv_t)0) {
905         return (size_t) -1;
906     }
907     
908     i_len=srclen;
909     o_len=destlen;
910     o_save=outbuf;
911     
912     if ( SVAL(inbuf,0) == 0x002e && flags && (*flags & CONV_ESCAPEDOTS)) { /* 0x002e = . */
913         if (o_len < 3) {
914             errno = E2BIG;
915             return (size_t) -1;
916         }
917         o_save[0] = ':';
918         o_save[1] = '2';
919         o_save[2] = 'e';
920         o_len -= 3;
921         inbuf += 2;
922         i_len -= 2;
923         outbuf = o_save + 3;
924         if (flags) *flags |= CONV_REQESCAPE;
925     }
926         
927 conversion_loop:
928     if ( flags && (*flags & CONV_ESCAPEHEX)) {
929         for ( i = 0; i < i_len; i+=2) {
930             if ( SVAL((inbuf+i),0) == 0x002f) { /* 0x002f = / */
931                 j = i_len - i;
932                 if ( 0 == ( i_len = i))
933                     goto escape_slash;
934                 break;
935             } else if ( SVAL(inbuf+i,0) == 0x003a) { /* 0x003a = : */
936                 errno = EILSEQ;
937                 return (size_t) -1;
938             }
939         }
940     }
941     
942     retval = atalk_iconv(descriptor,  &inbuf, &i_len, &outbuf, &o_len);
943     if (retval==(size_t)-1) {
944         if (errno == EILSEQ && CHECK_FLAGS(flags, CONV_IGNORE)) {
945             *flags |= CONV_REQMANGLE;
946             return destlen -o_len;
947         }
948         else if ( errno == EILSEQ && flags && (*flags & CONV_ESCAPEHEX)) {
949             if (o_len < 3) {
950                 errno = E2BIG;
951                 return (size_t) -1;
952             }
953             if ((size_t) -1 == (buflen = convert_string_allocate_internal(CH_UCS2, cap_set, inbuf, 2, &buf)) ) 
954                 return buflen;
955             buf_save = buf;
956             while (buflen > 0) {
957                 if ( o_len < 3) {
958                         errno = E2BIG;
959                         return (size_t) -1;
960                 }
961                 *outbuf++ = ':';
962                 *outbuf++ = hexdig[ ( *buf & 0xf0 ) >> 4 ];
963                 *outbuf++ = hexdig[ *buf & 0x0f ];
964                 buf++;
965                 buflen--;
966                 o_len -= 3;
967             }
968             SAFE_FREE(buf_save);
969             buflen = 0;
970             i_len -= 2;
971             inbuf += 2;
972             if (flags) *flags |= CONV_REQESCAPE;
973             if ( i_len > 0)
974                 goto conversion_loop;
975         }
976         else
977            return (size_t)(-1); 
978     }
979         
980 escape_slash:
981     if (j && flags && (*flags & CONV_ESCAPEHEX)) {
982         if (o_len < 3) {
983             errno = E2BIG;
984             return (size_t) -1;
985         }
986         o_save[destlen -o_len]   = ':';
987         o_save[destlen -o_len+1] = '2';
988         o_save[destlen -o_len+2] = 'f';
989         inbuf  += 2;
990         i_len   = j-2;
991         o_len  -= 3;
992         outbuf += 3;
993         j = 0;
994         if ( i_len > 0)
995                 goto conversion_loop;
996     }
997     return destlen -o_len;
998 }
999
1000 size_t convert_charset ( charset_t from_set, charset_t to_set, charset_t cap_charset, char* src, size_t src_len, char* dest, size_t dest_len, u_int16_t *flags)
1001 {
1002         size_t i_len, o_len;
1003         ucs2_t *u;
1004         ucs2_t buffer[MAXPATHLEN];
1005         ucs2_t buffer2[MAXPATHLEN];
1006         int composition = 0;
1007         
1008         lazy_initialize_conv();
1009
1010         /* convert from_set to UCS2 */
1011         if ((size_t)(-1) == ( o_len = pull_charset_flags( from_set, cap_charset, src, src_len, 
1012                                                           (char *) buffer, sizeof(buffer), flags)) ) {
1013                 LOG(log_error, logtype_default, "Conversion failed ( %s to CH_UCS2 )", charset_name(from_set));
1014                 return (size_t) -1;
1015         }
1016
1017         if ( o_len == 0)
1018                 return o_len;
1019
1020         /* Do pre/decomposition */
1021         if (CHECK_FLAGS(flags, CONV_PRECOMPOSE) || 
1022                 ((!(charsets[to_set])   || !(charsets[to_set]->flags & CHARSET_DECOMPOSED)) && 
1023                 (!(charsets[from_set]) || (charsets[from_set]->flags & CHARSET_DECOMPOSED))))
1024             composition = 1;
1025         if (CHECK_FLAGS(flags, CONV_DECOMPOSE) || (charsets[to_set] && charsets[to_set]->flags & CHARSET_DECOMPOSED) )
1026             composition = 2;
1027  
1028         i_len = sizeof(buffer2);
1029         u = buffer2;
1030
1031         switch (composition) {
1032         case 0:
1033             u = buffer;
1034             i_len = o_len;
1035             break;
1036         case 1:
1037             if ( (size_t)-1 == (i_len = precompose_w(buffer, o_len, u, &i_len)) )
1038                 return (size_t)(-1);
1039             break;
1040         case 2:
1041             if ( (size_t)-1 == (i_len = decompose_w(buffer, o_len, u, &i_len)) )
1042                 return (size_t)(-1);
1043             break;
1044         }
1045                 
1046         /* Do case conversions */       
1047         if (CHECK_FLAGS(flags, CONV_TOUPPER)) {
1048             strupper_w(u);
1049         }
1050         if (CHECK_FLAGS(flags, CONV_TOLOWER)) {
1051             strlower_w(u);
1052         }
1053
1054         /* Convert UCS2 to to_set */
1055         if ((size_t)(-1) == ( o_len = push_charset_flags( to_set, cap_charset, (char *)u, i_len, dest, dest_len, flags )) ) {
1056                 LOG(log_error, logtype_default, 
1057                        "Conversion failed (CH_UCS2 to %s):%s", charset_name(to_set), strerror(errno));
1058                 return (size_t) -1;
1059         }
1060
1061         return o_len;
1062 }