Книги Онлайн 📖 » Компьютеры и Интернет » Прочая околокомпьтерная литература » Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4) - Михаил Кондратович

0/0

Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4) - Михаил Кондратович

Дата:19.06.2024
Категория: Компьютеры и Интернет / Прочая околокомпьтерная литература
Название: Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4)
Автор: Михаил Кондратович
Просмотров:3
Комментариев:0

Уважаемые читатели!

Тут можно читать бесплатно Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4) - Михаил Кондратович. Жанр: Прочая околокомпьтерная литература. Так же Вы можете читать полную версию (весь текст) онлайн книги без регистрации и SMS на сайте Knigi-online.info (книги онлайн) или прочесть краткое содержание, описание, предисловие (аннотацию) от автора и ознакомиться с отзывами (комментариями) о произведении.

Описание онлайн-книги Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4) - Михаил Кондратович:

Книга предназначена для пользователей, желающих самостоятельно создавать и редактировать электронные книги в популярном формате FictionBook. Подробно описан сам формат FB и программные средства, предназначенные для работы с ним.

Читем онлайн Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4) - Михаил Кондратович

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 11 12 13 14 15 16 17 18 19 ... 38

doswin = [192, 193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207,

208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223,

224, 225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239,

135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135, 135,

240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255,

168, 184, 170, 186, 175, 191, 161, 162, 176, 149, 183, 138, 185, 164, 138, 138]

# считываем входной файл в одну строку

wtext=ARGF.readlines.to_s

ARGF.close

wtext.gsub!(/n(S)/,' 1') # склеиваем строки абзацев

wtext.squeeze!(" ") # убираем лишние пробелы

wtext.gsub!(/^ /,"") # убираем пробелы в начале строки

# перекодировка текста

for i in 0..(wtext.length-1)

case wtext[i]

when 20: wtext[i] = 182 # обработать символ "Пи"

when 21: wtext[i] = 167 # обработать символ "параграф"

when 128..255: wtext[i] = doswin[wtext[i]-128] # обработать все остальное

end

wtext.gsub!("...", (133).chr) # многоточие - в символ "многоточие"

wtext.gsub!(/(s)-s/,'1'+(151).chr+" ") # компьютерное тире - в типографское

# порубим строку в массив

wtext = wtext.split(/n/)

wtext.collect! do |line|

if line =="" then

line = "<empty-line/>" # пустая строка?

else

line=""+line+"" # нет, не пустая

end

# добавляем заголовок

wtext.insert(0,"<?xml version="1.0" encoding="windows-1251"?>

<title-info>

<genre>nonfiction</genre>

</title-info>

<document-info>

<program-used>Yuzich Ruby script (dostxt -> FB2)</program-used>

</document-info>

</description>

<body>

<section>")

# добавляем хвост

wtext << "</section>n</body>n</FictionBook>n"

# сохраняем выходной файл

wfile = File.new(ARGF.filename.dup.gsub!(/.txt/i,".fb2"),"w")

wfile.puts wtext

wfile.close

После того, как скрипт отработает, в директории появится файл <имя_исходного_файла>.fb2. Небольшая правка в FB Editor и он полностью готов.

Пример второй. Конвертирование журналов c WiseSoft.ru

Эта задачка гораздо интереснее первой. Как раз тот случай, когда написание специализированного конвертора полностью оправдано.

На ресурсе http://www.wisesoft.ru находится множество различных журналов. Форматы в котором они представлены, различаются, Но один из них особо привлекателен для преобразования в FB2. Я говорю о журналах которые представлены в виде пачки html-файлов («Хакер», «Хакер-спец», «Мобильные компьютеры», «Хулиган» и др.). При всей простоте, конвертированию стандартными средствами этот способ хранения данных поддается с трудом.

Более близкое знакомство выявило следующее. Имеется файл index.htm с оглавлением. Статьи представляют собой кучки html-файлов, разбитые по папкам. Текст представляет собой обычные абзацы, обрамленные тэгами «». Оформление html-ок везде стандартное.

К сожалению, такая лафа наблюдается не везде. С декабря 2006 года формат журналов начал эволюционировать. Статьи стали вмещаться в одну html-ку, появились списки, картинки, дополнительные стили. Хотя и не во всех журналах. Основная масса изданий представлена именно в таком виде, как описано выше. Поэтому сосредочимся именно на них.

Наша задача заключается в том, чтобы вырезать куски текста из html-файлов, склеить их в один файл.

Скрипт, представленный ниже, не только блестяще справляется с этим, но и выдает на выходе вполне приличный FB2, с заполненным заголовком, готовой аннотацией и разбитый на секции.

# Скрипт для конвертации журналов с WiseSoft.ru в FB2

# (C) Юзич, апрель-май 2008 г.

# поддерживаемый формат файлов: пачка html, журналы сделанные c ноября 2003 г. по ноябрь 2006 г. включительно.

# примечание: изменения в декабре 2006 и марте 2007 - некритичные

# теоретически должен обрабатывать журналы сделанные по июль 2007 включительно

# но уже с мая 2007 в тексте могут попадаться дополнительные тэги, мешающие правильной конвертации

# хотя все это касается, в основном, журнала "Хакер" ("Хакер-спец").

# "Мобильные компьютеры", к примеру, по-прежнему, как шли, так и идут в старом формате

# да и чтобы обрабатыват журналы, сделанные до ноября 2003, достаточно подправить ключевые фразы

# запускать из директории, где находится файл-оглавление журнала (index.htm)

# запуск: ruby ws_j_cnv.rb

# считываем файл-оглавление в строку

wfile=File.open("index.htm")

ltext=wfile.readlines.to_s

wfile.close

# выгрызаем заголовок

fbtitle=/(.+)(#d{1,3})(.+)/.match(ltext).captures

# выгрызаем ссылки на статьи и разделители

filtr=/(.+)|<a href="(d{3}/d.htm)">(.+)</a>/

lmas = ltext.grep(filtr)

# начинаем формировать выходной текст

outtext="<title>"+fbtitle[0]+fbtitle[1]+fbtitle[2]+"</title>n"

# начинаем формировать аннотацию

annotation="Содержание номера:n"

# флажок открытой секции раздела

flagSect=false

# прокручиваем список ссылок

lmas.each do |line|

if line.include? "SPAN" then # ССЫЛКА ИЛИ РАЗДЕЛИТЕЛЬ?

if flagSect then outtext=outtext+"</section>n" end # РАЗДЕЛИТЕЛЬ. Секцию закрывать надо?

/(.+)/.match(line) # выгрызаем разделитель...

outtext=outtext+"<section>n<title>"+$1+"</title>n" # открываем секцию раздела

annotation=annotation+""+$1+":n" # и дополняем аннотацию

flagSect=true # секция осталась открыта...

else # НЕ-ЕТ, ВСЕ-ТАКИ ССЫЛКА...

filtr.match(line)

pathf = $2 # берем путь к первому файлу статьи...

annotation=annotation+""+(149).chr+" "+$3+"n" # дополняем аннотацию...

puts pathf[0..2] # это чтобы не скучно было ждать...

outtext=outtext+"<section>n" # открыли секцию...

while File::exists?(pathf) do # обрабатываем статью

# считали файлик в текстовую строку...

wfile=File.open(pathf)

wtext=wfile.readlines.to_s

wfile.close

wtext[/<html>.+?/m]="" # чик! головка...

wtext[/<center>.+</html>/m]="" # чик! хвостик...

# заголовок статьи оставлять?

wtext = pathf[4,2].to_i == 1 ? wtext.sub(/.*n(.*n.*n).*n.*n/,' 1') : wtext.sub(/.*n.*n.*n.*n.*n/,' 1')

outtext=outtext+wtext # оставшийся текст - к основному массиву

# модифицируем имя файла

if pathf[4,2].to_i >= 10

pathf[4,2] = (pathf[4,2].to_i + 1).to_s

else

pathf[4] = (pathf[4,2].to_i + 1).to_s

end

end # конец цикла

outtext=outtext+"</section>n" # закрываем секцию

end # усе. статью оформили...

end # все статьи собрали в одну строку...

# модифицируем выходной текст под FB2

outtext.gsub!("<big><big><big>","<title>")

outtext.gsub!("</big></big></big>","</title>")

outtext.gsub!("<big>","<epigraph>")

outtext.gsub!("</big>","</epigraph>")

outtext.gsub!(" ",(160).chr)

outtext.gsub!(/&(?!lt;|gt;)/,"&")

annotation.gsub!(/&(?!lt;|gt;)/,"&")

outtext.gsub!(" ","")

# чистим мусор

outtext.gsub!(/x01|x12|x18|x1E/, "?") # удаляем непечатные символы

# корректируем неправильное использование "<" и ">"

# заодно прибиваем ненужные тэги

outtext.gsub!(/()(.*)()/) do |line|

subl1,subl2,subl3 = $1,$2,$3

subl2.gsub!("<","x8b")

subl2.gsub!(">","x9b")

line=subl1+subl2+subl3

end

# а линки выделим жирным

outtext.gsub!(/x8Ba href.+?x9B(.*?)x8B/ax9B/) {|line| line=""+$1+""}

# компьютерное тире - в типографское

outtext.gsub!(/s-s/," x97 ")

outtext.gsub!("-", "x97")

annotation.gsub!(/s-s/," x97 ")

# добавляем заголовок

outtext="<?xml version="1.0" encoding="windows-1251"?>

<title-info>

<genre>nonfiction</genre>

<nickname>Редакция журнала</nickname>

</author>

<book-title>"+fbtitle[0]+fbtitle[1]+fbtitle[2]+"</book-title>

<annotation>n"+annotation+"</annotation>

<date>"+fbtitle[2][-7,4]+"</date>

</title-info>

<document-info>

<program-used>Yuzich Ruby script (WiseSoft -> FB2)</program-used>

<src-url>http://www.wisesoft.ru</src-url>

</document-info>

</description>

<body>n"+outtext

if flagSect then outtext=outtext+"</section>" end # если надо, закроем последнюю секцию раздела

outtext=outtext+"</body>n</FictionBook>n" # добавляем хвост

# в имени выходного файла не должно быть двоеточия

fbtitle[0].gsub!(":","-")

# и типографские кавычки - это не есть хорошо

fbtitle[0].gsub!((171).chr,"`")

fbtitle[0].gsub!((187).chr,"`")

# сохраняем выходной файл

wfile = File.new(fbtitle[0]+fbtitle[1]+".fb2","w")

wfile.puts outtext

wfile.close

Вам останется только загрузить готовый FB2-файл в FB Editor и доделать, то, с чем не справился скрипт: вставить обложку, разметить подзаголовки и цитаты, подправить эпиграфы. Но это не должно отнять много времени. Основную часть работы проделал скрипт.

1 ... 11 12 13 14 15 16 17 18 19 ... 38

На этой странице вы можете бесплатно читать книгу Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4) - Михаил Кондратович бесплатно.

Похожие на Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4) - Михаил Кондратович книги

Русская жизнь-цитаты 7-14.04.2024 - Русская жизнь-цитаты - Публицистика
Концентрируйся свободно - Лео Бабаута - Психология
Так говорил Сталин - Николай Стариков - Политика
Русская жизнь-цитаты 21-31.12.2023 - Русская жизнь-цитаты - Публицистика
Русская жизнь-цитаты 22-31.01.2024 - Русская жизнь-цитаты - Публицистика

Навигация по сайту

Создание электронных книг в формате FictionBook 2.1: практическое руководство (beta 4) - Михаил Кондратович

Оставить комментарий