Как извлечь фактические названия шрифтов из PDF с помощью iTextSharp?

Question

Дополнительно

Вопрос

Как извлечь фактические названия шрифтов из PDF с помощью iTextSharp?

Я использую iTextSharp для обработки PDF, и мне нужно извлечь весь текст из существующего PDF, который написан определенным шрифтом.

Способ сделать это заключается в том, чтобы наследоваться от RenderFilter и разрешить только тот текст, который имеет определенное PostscriptFontName. Проблема в том, что когда я делаю это, я вижу следующие названия шрифтов в PDF:

CIDFont+F1
CIDFont+F2
CIDFont+F3
CIDFont+F4
CIDFont+F5

что совсем не похоже на реальные названия шрифтов, которые я ищу.

Я попробовал перечислить ресурсы шрифтов, и он показывает тот же результат.
Я попробовал открыть PDF в полном Adobe Acrobat. Он также показывает искаженные названия шрифтов:

Я попробовал проанализировать файл с помощью iText RUPS. Тот же результат.

То есть я не смог увидеть фактические названия шрифтов нигде в структуре документа.

Тем не менее, Adobe Acrobat DC показывает правильные названия шрифтов в панели Format, когда я выбираю различные текстовые поля на холсте документа (например, Arial, Courier New, Roboto), так что эта информация должна где-то храниться.

Как получить эти реальные названия шрифтов при разборе PDF с помощью iTextSharp?

GSerg

Редактировал вопрос 11-го августа 2018 в 9:30

Release iText RUPS 5.5.9 · itext/rups · GitHub

[DEPRECATED - please use i7j-rups instead] RUPS is an abbreviation for Reading and Updating PDF Syntax. RUPS is a tool built on top of iText® that allows you to look inside a PDF document and browse the different PDF objects and content streams. - Release iText RUPS 5.5.9 · itext/rups

github.com

Программирование

fonts

c#

pdf

itext

Решение / Ответ

Похожие сообщества 6

Microsoft Stack Jobs

2 353 пользователей

Work & freelance only Microsoft Stack. Feed https://t.me/Microsoftstackjobsfeed Чат про F#: @Fsharp_chat Чат про C#: @CSharpChat Чат про Xamarin: @xamarin_russia Чат общения:@dotnettalks

Открыть telegram

С#

2 305 пользователей

Стараемся не флудить. Пишем по делу. Правила: https://t.me/professorweb/430450 Для флуда @svoboda_obsh

Открыть telegram

CODE BLOG / C#

1 738 пользователей

Чат для .NET разработчиков и C# программистов. По всем вопросам: @shwanoff Youtube-канал: https://youtube.com/codeblog Основной канал: @codeblog Вконтакте: https://vk.com/codeblog Правила: https://t.me/codeblog_csharp/246972 Вакансии по тегу #work

Открыть telegram

var chat = new Chat();

1 613 пользователей

Обсуждение .NET / C# / F# Обсуждение Azure — @azurechat Прочие обсуждения – https://t.me/+zwxI91RGG6s2YzAy

Открыть telegram

C#/.NET Для Новичков

272 пользователей

Группа создана для тех, кто изучает язык программирования C#. Верховный главнокомандующий: @BlackDeveloper Оффтоп - разрешен в меру, реклама - бан.

Открыть telegram

ext

90 пользователей

Общение на темы YouTube канала и программирования. Вакансии не размещаем. Основной канал: @extremecode

Открыть telegram

Добавить вопрос

Категории

Все

Технологий

Культура / Отдых

Жизнь / Искусство

Наука

Профессии

Бизнес

Пользователи

1

Зарегистрирован 3 месяца назад

2

Ксения Комарова

Зарегистрирован 5 месяцев назад

3

Артур «Апер»

Зарегистрирован 7 месяцев назад

4

Viktor Malyutin

Зарегистрирован 7 месяцев назад

5

Viktor Malyutin

Зарегистрирован 7 месяцев назад

Хотите что-то узнать? Задавайте Ваш вопрос на нашем сайте

ru.kzen.dev

mkl · Accepted Answer · 2018-08-20T20:29:08+00:00

Как было определено в ходе комментариев к вопросу, названия шрифтов анонимизированы во всех метаданных PDF для шрифта, но сама встроенная программа шрифта содержит фактическое название шрифта.

(Таким образом, PDF, строго говоря, нарушен, хотя вряд ли какая-либо программа будет жаловаться на это).

Поэтому, если мы хотим получить эти имена, мы должны заглянуть в эти программы шрифтов.

Вот пример концепции, основанной на архитектуре, использованной в этом ответе, на которую вы ссылались, т.е. с использованием RenderFilter:

class FontProgramRenderFilter : RenderFilter
{
    public override bool AllowText(TextRenderInfo renderInfo)
    {
        DocumentFont font = renderInfo.GetFont();
        PdfDictionary fontDict = font.FontDictionary;
        PdfName subType = fontDict.GetAsName(PdfName.SUBTYPE);
        if (PdfName.TYPE0.Equals(subType))
        {
            PdfArray descendantFonts = fontDict.GetAsArray(PdfName.DESCENDANTFONTS);
            PdfDictionary descendantFont = descendantFonts[0] as PdfDictionary;
            PdfDictionary fontDescriptor = descendantFont.GetAsDict(PdfName.FONTDESCRIPTOR);
            PdfStream fontStream = fontDescriptor.GetAsStream(PdfName.FONTFILE2);
            byte[] fontData = PdfReader.GetStreamBytes((PRStream)fontStream);
            MemoryStream dataStream = new MemoryStream(fontData);
            dataStream.Position = 0;
            MemoryPackage memoryPackage = new MemoryPackage();
            Uri uri = memoryPackage.CreatePart(dataStream);
            GlyphTypeface glyphTypeface = new GlyphTypeface(uri);
            memoryPackage.DeletePart(uri);
            ICollection<string> names = glyphTypeface.FamilyNames.Values;
            return names.Where(name => name.Contains("Arial")).Count() > 0;
        }
        else
        {
            // analogous code for other font subtypes
            return false;
        }
    }
}

Класс MemoryPackage взят из этого ответа, который был моей первой находкой при поиске того, как считать информацию из шрифта в памяти с помощью .Net.

Применяется к вашему PDF-файлу следующим образом:

using (PdfReader pdfReader = new PdfReader(SOURCE))
{
    FontProgramRenderFilter fontFilter = new FontProgramRenderFilter();
    ITextExtractionStrategy strategy = new FilteredTextRenderListener(
            new LocationTextExtractionStrategy(), fontFilter);
    Console.WriteLine(PdfTextExtractor.GetTextFromPage(pdfReader, 1, strategy));
}

результат

This is Arial.

Остерегайтесь: Это всего лишь доказательство концепции.

С одной стороны, вам, конечно же, потребуется реализовать часть, закомментированную как аналогичный код для других подтипов шрифтов выше; и даже часть TYPE0 не готова к использованию в производстве, поскольку она учитывает только FONTFILE2 и не обрабатывает значения null изящно.

С другой стороны, вы захотите кэшировать имена для уже проверенных шрифтов.