Автоматическое распознавание кодировки
Материал из PhpWiki.
Готовые библиотеки
- detect_cyr_charset. Простой (и ненадежный) алгоритм определения кодировки русского текста. Понимает cp866, koi-8r, windows-1251, mac, iso-8859–5.
- charset_x_win. Гораздо надежнее предыдущего варианта, однако при этом – гораздо сложнее. Оптимизировано для коротких поисковых фраз. Понимает windows-1251, koi-8r, UTF-8.
- mb_detect_encoding. Встроенная в PHP функция. Используется для многобайтовых кодировок. НЕ понимает кодировки windows-1251, koi-8r и т.п.
Теория
Иван Рощин. Автоматическое определение кодировки текста
- Как отличить кодировку ALT (альтернативная) от windows-1251. Приведена таблица частот встречаемости разных букв в тексте на русском языке.
- Как отличить ALT, windows-1251 и koi-8r. Используется метод анализа допустимых двухбуквенных последовательностей в русском языке.
Автор - SiMM, Copyright http://phpclub.ru/faq/