Автоматическое распознавание кодировки

Материал из PhpWiki.

Перейти к: навигация, поиск

Готовые библиотеки

  • detect_cyr_charset. Простой (и ненадежный) алгоритм определения кодировки русского текста. Понимает cp866, koi-8r, windows-1251, mac, iso-8859–5.
  • charset_x_win. Гораздо надежнее предыдущего варианта, однако при этом – гораздо сложнее. Оптимизировано для коротких поисковых фраз. Понимает windows-1251, koi-8r, UTF-8.
  • mb_detect_encoding. Встроенная в PHP функция. Используется для многобайтовых кодировок. НЕ понимает кодировки windows-1251, koi-8r и т.п.

Теория

Иван Рощин. Автоматическое определение кодировки текста

  • Как отличить кодировку ALT (альтернативная) от windows-1251. Приведена таблица частот встречаемости разных букв в тексте на русском языке.
  • Как отличить ALT, windows-1251 и koi-8r. Используется метод анализа допустимых двухбуквенных последовательностей в русском языке.
Автор - SiMM, Copyright http://phpclub.ru/faq/

refbzd.ru

Реклама