На правах рекламы:
ISSN 0236-235X (P)
ISSN 2311-2735 (E)

Авторитетность издания

ВАК - К1
RSCI, ядро РИНЦ

Добавить в закладки

Следующий номер на сайте

4
Ожидается:
09 Декабря 2024

К вопросу о наилучших раскладках английских и русских символов на компьютерной клавиатуре

Статья опубликована в выпуске журнала № 4 за 2004 год.
Аннотация:
Abstract:
Авторы: Усманов З.Д. (zafar-usmanov@rambler.ru) - Российско-Таджикский (Славянский) университет (профессор), Душанбе, Таджикистан, доктор физико-математических наук, Солиев О.М. () -
Ключевое слово:
Ключевое слово:
Количество просмотров: 24039
Версия для печати
Выпуск в формате PDF (1.31Мб)

Размер шрифта:       Шрифт:

Пусть  – некоторая клавиатура, состоящая из  клавишей , причем каждой клавише приписано положительное число  (), указывающее на количество энергии, которую следует затратить для того, чтобы активизировать (нажать на) . Предполагается, что клавиши пронумерованы таким образом, что

.                                         (1)

Пусть  – конечный набор символов  (буквы какого-либо естественного языка  и, возможно, некоторые знаки препинания), предназначенный для раскладки на клавишах множества . Предполагается, что нам известны относительные частоты  встречаемости этих символов в репрезентативных текстах (-текстах), написанных на языке , причем без ограничения общности можно считать, что

.                                         (2)

В условиях (1), (2) на раскладке

        (3)

работа, затрачиваемая на набор R-текста, достигает минимального значения*. Здесь сама раскладка представлена в виде подстановки n-й степени, указывающей, на каких клавишах размещаются те или иные символы. Согласно (3) наилучшей является такая раскладка, в которой чаще встречающиеся символы размещаются на менее трудоемких клавишах, а реже встречающиеся – на более трудоемких.

И еще один вывод следует из (3): при проектировании оптимальной клавиатуры, сводящейся к привязке каждого символа к той или иной клавише, более важной является информация о характере ранжировки клавишей и символов, нежели точные числовые значения показателей  и , на основе которых производятся сами ранжировки.

В настоящей статье теоретическое решение проблемы адаптируется к практической ситуации, то есть к раскладке символов на русской и английской клавиатурах. В связи с тем, что дословное применение теоретического подхода в этих случаях реализовать не удается, мы говорим не об оптимальных, а о наилучших раскладках символов на компьютерной клавиатуре.

Ранжировка клавишей. Для русского языка нас будет интересовать раскладка 33 букв русского алфавита, а для английского – 26 латинских букв, 3 знаков препинания (точки, запятой и точки с запятой) и знака апострофа. В обоих случаях предполагается, что переразмещение символов будет происходить в пределах тех клавишей, на которых они располагаются в настоящее время.

Для ранжирования клавишей, основанного на значениях показателя , использован метод экспертных оценок. Двадцать программистов, практикующих слепой десятипальцевый метод набора информации на клавиатуре, по 10-балльной системе выставили 33-м клавишам, предназначенным для размещения символов, собственные оценки. Эти оценки характеризуют относительные (безразмерные) трудозатраты на активизацию (нажатие) той или иной клавиши. Усредненные результаты по каждой клавише приведены в таблице 1, которая представлена в виде фрагмента компьютерной клавиатуры.

Таблица 1

~

 

7,90

 

 

Q

W

E

R

T

Y

U

I

O

P

{

}

\

 

5,15

4,25

3,35

3,25

2,68

1,88

2,45

3,80

4,05

4,65

6,10

6,38

7,45

                           
 

A

S

D

F

G

H

J

K

L

:

"

   
 

2,05

1,67

1,45

0,30

1,22

1,02

0,80

1,85

2,57

3,80

4,40

   
                           
 

Z

X

C

V

B

N

M

,

.

?

     
 

4,05

4,35

2,25

1,83

2,28

2,58

3,20

4,35

5,25

4,90

     

Здесь латинскими буквами и специальными символами указываются клавиши английской компьютерной клавиатуры, которые использованы для раскладки и которым снизу приписаны экспертные значения относительных трудозатрат на их активизацию.

Отметим закономерность, исходящую от экспертов: клавишам, расположенным ближе к центру, выставлены меньшие оценки в сравнении с периферийными клавишами. В частности, легче достижимыми являются клавиши среднего ряда (на уровне Caps Lock), над которыми в исходном положении при слепом десятипальцевом методе печатания располагаются пальцы левой и правой рук.

Таблица 1 определяет по существу ранжировку клавишей с точки зрения экспертов. К примеру, в качестве  следует рассматривать клавишу “~” английской клавиатуры, показатель которой  имеет наибольшее значение; в качестве  – клавишу F, показателю которой приписывается наименьшее значение,  и т.д.

Частота встречаемости букв. Для изучения частот встречаемости букв были извлечены случайные выборки из литературных произведений, газетных и журнальных статей, причем из русских текстов объемом порядка 115 страниц, содержащих 281117 знаков, а из английских текстов – порядка 120 страниц с 294186 знаками. Путем обработки всевозрастающего количества страниц была выявлена экспериментальная сходимость относительных частот встречаемости букв. Методами корреляционного и дисперсионного анализов установлено, что случайные выборки как русских, так и английских текстов объемом не менее 10 страниц (приблизительно 24 000 знаков) являются репрезентативными (R-текстами) в том смысле, что они характеризуются статистически неразличимыми распределениями относительных частот встречаемости букв.

В таблицах 2 (для русского языка) и 3 (для английского) указанные частоты (для соответствующих букв) приведены в порядке убывания их значений.

Таблица 2

i

 

i

 

i

1

О

0,1117

 

12

К

0,0324

 

23

Й

0,0118

2

Е

0,0845

 

13

Д

0,0305

 

24

Ж

0,0103

3

А

0,0789

 

14

П

0,0276

 

25

Х

0,0095

4

И

0,0749

 

15

У

0,0262

 

26

Ш

0,0079

5

Н

0,0667

 

16

Я

0,0202

 

27

Ц

0,0041

6

Т

0,0625

 

17

Ы

0,0195

 

28

Щ

0,0034

7

С

0,0555

 

18

Ь

0,0186

 

29

Э

0,0032

8

Л

0,0473

 

19

Г

0,0179

 

30

Ф

0,0023

9

Р

0,0465

 

20

Б

0,0172

 

31

Е

0,0003

10

В

0,0446

 

21

З

0,0168

 

32

Ъ

0,0002

11

М

0,0327

 

22

Ч

0,0145

 

33

Ю

0,0001

Таблица 3

i

 

i

 

i

1

E

0,1174

 

11

L

0,0401

 

21

.

0,0141

2

T

0,0870

 

12

C

0,0270

 

22

,

0,0135

3

A

0,0813

 

13

U

0,0265

 

23

V

0,0091

4

O

0,0724

 

14

M

0,0254

 

24

K

0,0088

5

I

0,0686

 

15

W

0,0216

 

25

'

0,0067

6

N

0,0667

 

16

F

0,0207

 

26

X

0,0019

7

S

0,0642

 

17

G

0,0205

 

27

J

0,0016

8

R

0,0562

 

18

Y

0,0192

 

28

Z

0,0012

9

H

0,0524

 

19

P

0,0178

 

29

Q

0,0011

10

D

0,0419

 

20

B

0,0146

 

30

;

0,0000

Отметим, что в таблице 3 в сравнении с таблицей 2 помимо букв указаны также и частоты встречаемости 4-х знаков, которые принимают участие в раскладках на клавишах компьютерной клавиатуры.

Инвариант ранжирования букв. Как следует из предыдущего пункта, распределение относительных частот является статистическим инвариантом по отношению к R-текстам. Однако для проектирования оптимальной раскладки символов требуется не этот результат, а сведения о ранжировке букв.

Изучение этого вопроса показало, что ранжировка букв, порождаемая относительными частотами, оказывается неустойчивой (неинвариантной) по отношению к R-текстам. Иными словами, для R-текстов различных отраслей знания, различных авторов, различных произведений одного и того же автора и т.п. ранжировки букв оказываются различными. Такая ситуация не позволяет осуществить оптимальную раскладку букв по методу, описанному выше. По этой причине R-тексты были подвергнуты более детальному исследованию, в результате чего удалось обнаружить новый нетривиальный инвариант, характеризующий устойчивость ранжировки буквенных блоков.

Дополнительный анализ распределения частот встречаемости символов в русских и английских R-текстах показал, что символы проявляют тенденцию группирования: для русского языка – в 17 блоков, в их числе 1 блок четырехбуквенный, 3 блока трехбуквенных, 7 двухбуквенных и 6 однобуквенных (табл. 4); а для английского языка – в 14 блоков, среди которых 1 блок пятибуквенный, 1 блок четырехбуквенный, 3 блока трехбуквенных, 3 двухбуквенных и 6 однобуквенных (табл. 5; удобства ради в этой таблице, а также в некоторых других местах статьи знаки препинания и апостроф названы буквами). В этих таблицах группы букв взяты в рамки, для однобуквенных блоков рамки не используются.

Таблица 4

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

     

О

Е

А

И

Н

Т

С

Л

Р

В

М

К

Д

П

У

     
                                   

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

Я

Ы

Ь

Г

Б

З

Ч

Й

Ж

Х

Ш

Ц

Щ

Э

Ф

Е

Ъ

Ю

Таблица 5

1

2

3

4

5

6

7

8

9

10

11

12

13

14

   

E

T

A

O

I

N

S

R

H

D

L

C

U

M

   
                               

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

W

F

G

Y

P

B

.

,

V

K

'

X

J

Z

Q

;

Блочное группирование букв характеризуется следующими свойствами:

·    в пределах одного блока относительные частоты букв достаточно близки (отличаются в третьем или же в четвертом знаках после запятой);

·    блоки упорядочены в том смысле, что частоты встречаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков;

·    ранжировки букв для различных R-текстов сохраняют неизменным порядок следования блоков; в пределах самих блоков входящие в них буквы равноправны и могут меняться местами.

Таким образом, имеет место следующее статистическое утверждение: ранжировки буквенных блоков, представленные в таблицах 4 и 5, инвариантны по отношению к R-текстам.

Экспериментальная проверка этого утверждения по отдельности для русского и английского языков выполнялась по следующей схеме. Вначале случайным образом производился выбор 8-10 R-текстов. Для каждой выборки вычислялись распределения относительных частот встречаемости букв. Затем буквам, входящим в один и тот же блок в согласии с таблицами 4 и 5, присваивались новые значения частот, равные их средним взвешенным значениям. Тем самым буквы становились равноправными в смысле ранжировки в пределах блока. Далее с учетом изменения частот блочных букв по откорректированным распределениям вновь осуществлялась ранжировка букв.

При сравнении полученных ранжировок для различных R-текстов обнаружилось:

·    полное совпадение порядковых номеров одноблочных букв (так, русские буквы О, Е, С, Ч, Ф, Ю во всех ранжировках сохраняли свои порядковые номера 1, 2, 7, 22, 30, 33 соответственно);

·    полное совпадение порядка следования других блоков (так, трехбуквенный блок М-К-Д или же двухбуквенный блок Й-Ж во всех ранжировках привязывались соответственно к группам порядковых номеров 11-12-13 и 23-24).

Дополнительные эксперименты подтверждали инвариантность блочного ранжирования.

Оптимальная поблочная раскладка. Предыдущее утверждение предоставляет возможность получить оптимальную поблочную раскладку русских и английских букв на основе результата, описанного выше. Действительно, поскольку порядок букв внутри одного блока не имеет значения, естественно предположить, что их частоты равны. Присваивая относительным частотам этих букв одно и то же значение, равное средневзвешенному значению их прежних частот, мы получаем новое распределение относительных частот встречаемости букв в R-текстах. Это распределение, в свою очередь, порождает ранжировку букв (в порядке убывания их относительных частот), однако неединственную вследствие того, что буквы из одного блока не поддаются упорядочению.

В таких предпосылках применение формулы (3) позволяет получить раскладку букв на компьютерной клавиатуре, которую естественно воспринимать как оптимальную раскладку буквенных блоков. Если порядковые номера, используемые в таблицах 4 и 5, интерпретировать в качестве номеров клавишей компьютерной клавиатуры, то сами таблицы по существу в развернутом виде характеризует формулу (3), то есть задают оптимальную поблочную раскладку букв (с произвольным порядком букв в самих блоках).

Наилучшие раскладки. Оптимальная поблочная раскладка букв не приводит к окончательному результату. Причина в том, что она однозначным образом закрепляет группу букв за группой клавишей (например, русские буквы А и И – за клавишами , , а буквы Л, Р и В или же Ь, Г, Б и З – за клавишами , ,  или , ,  и  соответственно), однако внутри группы (блока) клавишей порядок следования букв оставляет произвольным. Следовательно, оптимальная поблочная раскладка не дает единственного решения интересующей нас проблемы. Тем не менее, она в сравнении с начальной ситуацией, когда в нашем распоряжении имелось 33! » 1040 возможных раскладок на русской клавиатуре и 30! » 1032 – на английской, значительно сокращает число допустимых решений и предоставляет дальнейший выбор из 663552 оставшихся раскладок для русского языка и 4976640 раскладок для английского, которые возникают вследствие того, что внутри каждого из блоков возможны перестановки букв.

Следующий этап в принятии решения естественно связать с поисками таких раскладок, которые наилучшим образом приспособлены к реализации слепого десятипальцевого метода работы на клавиатуре.

В соответствии с этим методом клавиши клавиатуры разделяются на 8 зон. Каждая зона предназначается для работы конкретного пальца левой и правой руки. При использовании этого метода чрезвычайно неудобными считаются такие ситуации, когда приходится печатать подряд две буквы, расположенные в зоне работы одного и того же пальца. Вероятно, полностью устранить возникновение таких ситуаций невозможно, однако их число можно уменьшить за счет подходящей расстановки букв внутри буквенных блоков. Это, кстати, дает возможность определить однозначную раскладку букв по клавишам клавиатуры.

Отметим, что на этапе окончательного формирования раскладок русских и английских букв на компьютерной клавиатуре существенно используются данные о частотах встречаемости в текстах пар букв.

Получаемые таким образом раскладки названы нами наилучшими, поскольку на первом этапе их проектирования оптимальным образом размещаются буквенные блоки, а на втором фиксация позиций букв внутри блоков осуществляется для наилучшего обеспечения слепого десятипальцевого метода печатания. Необходимо отметить, что на втором этапе проектирования не удается полностью устранить элементы субъективизма в принятии решений, а потому в итоге наилучших раскладок может оказаться несколько. Далее приводится по одному из вариантов наилучших раскладок русских и английских букв на компьютерной клавиатуре.

Таблица 6

~

                       

Е

                       
 

Q

W

E

R

T

Y

U

I

O

P

{

}

 

Ц

Й

Г

Ь

Ы

В

Д

З

Ж

Щ

Ю

Ъ

                         
 

A

S

D

F

G

H

J

K

L

:

"

 
 

Р

Н

Т

О

А

И

Е

Л

П

Б

Э

 
                         
 

Z

X

C

V

B

N

M

,

.

?

   
 

Ч

Ш

М

С

К

У

Я

Х

Ф

     

Таблица 7

Q

W

E

R

T

Y

U

I

O

P

{

}

Q

V

Y

G

W

R

M

.

,

'

   
                       

A

S

D

F

G

H

J

K

L

:

"

 

D

S

N

E

O

A

T

H

C

B

Z

 
                       

Z

X

C

V

B

N

M

,

.

?

   

K

X

L

I

U

F

P

J

;

     

В таблицах 6 и 7 в верхней строке символы и буквы английской клавиатуры указывают позиции тех клавишей, на которых располагаются русские и английские буквы в соответствии с наилучшей раскладкой.

Замечание. При оптимальной поблочной раскладке букв, а затем и наилучшем обеспечении слепого десятипальцевого метода печатания использовалась ранжировка клавишей, полученная на основе экспертных оценок. Однако мы могли бы воспользоваться и другой ранжировкой, например П. Клауслера, в которой группам клавишей присваиваются одинаковые весовые значения трудозатрат. Вполне понятно, что в этом случае после применения оптимальной поблочной раскладки букв нам пришлось бы иметь дело с большим разнообразием раскладок и осуществлять перебор большего числа вариантов размещения букв для наилучшего обеспечения слепого десятипальцевого метода печатания.


Постоянный адрес статьи:
http://swsys.ru/index.php?id=566&page=article
Версия для печати
Выпуск в формате PDF (1.31Мб)
Статья опубликована в выпуске журнала № 4 за 2004 год.

Возможно, Вас заинтересуют следующие статьи схожих тематик: