Поиск текста в ПДФ файле: как искать
в программах для Windows и онлайн
4.0 Оценок: 15 (Ваша: )
Нужно найти в ПДФ-документе слово или фразу?
Сделайте это в простом PDF-редакторе в два клика!
Поиск по словам в ПДФ в программах на ПК
Если вы имеете дело с крупным многостраничным проектом или часто работаете с ПДФ-форматом, стоит выбрать компьютерный софт. У десктопных программ нет ограничений на размер открываемых файлов и количество страниц, вы не зависите от стабильного интернет-соединения.
Как искать в ПДФ файле в PDF Commander
PDF Commander используется для создания ПДФ-документов, редактирования и чтения. Редактор позволяет открывать файлы в пакетном режиме, вносить правки, просматривать книги в полноэкранном режиме. В приложении доступны опции, которые облегчают навигацию: добавление закладок и заметок, поиск по ключевому слову.
- Запустите программу и импортируйте файл через кнопку «Открыть PDF». Объект также можно добавить, перетащив из Проводника Windows в окно редактора.
- В вертикальной строке слева отыщите иконку в виде лупы. Кликните по ней, чтобы открыть поисковую строку.
- Введите фразу, которую нужно отыскать, и нажмите Enter либо щелкните по синей иконке.
- После анализа софт выдаст список результатов. Нажимайте по строчкам курсором, чтобы перейти к странице, на которой содержится нужное вам слово.
Несомненным преимуществом софта является то, что он позволяет работать с защищенными проектами. Приложение отличается быстротой работы даже на слабых ноутбуках; устанавливать его можно на любые сборки Windows.
Поиск по документу PDF в Adobe Acrobat
Adobe Acrobat включает в себя комплексный набор инструментов и входит в рейтинг лучших программ для работы с ПДФ благодаря своей универсальности. Возможности Reader включают в себя просмотр, комментирование, добавление закладок. Среди прочего Acrobat предлагает пользователю поиск по ПДФ файлу.
- Загрузите в программу ПДФ-файл и в верхней панели с опциями отыщите значок в виде лупы. Также нужную функцию можно вызвать комбинацией клавиш Ctrl + F.
- Справа появится окошко. Когда вы начнете писать поисковый запрос, программа покажет вариации, найденные в книге.
- Выберите из списка либо допишите слово и нажмите Enter. Софт сразу перенаправит вас к первому найденному варианту.
- Продолжайте нажимать Enter либо кнопку «Далее», чтобы продолжить движение по тексту.
Работу с данным ридером омрачает довольно большая нагрузка на процессор, так что это не лучший выбор для слабых ноутбуков или бюджетных компьютеров.
Поиск по тексту в PDF-XChange Viewer
PDF-XChange Viewer включает в себя модуль OCR, а это значит, что он умеет распознавать текст даже на страницах, созданных из фотографий. Софт позволяет найти нужную фразу в ускоренном или продвинутом режиме, а также разрешает искать в интернете. Рассмотрим, как включить поиск по слову в ПДФ документе в данной программе.
- Добавьте ПДФ-файл, дважды кликнув по рабочему окну либо нажав иконку желтой папки в верхней панели.
- В верхней строке с инструментами отыщите значок бинокля либо нажмите клавиши поиска Ctrl + Shift + F. Сбоку справа откроется панель настроек.
- Вы можете уточнить параметры, кликнув соответствующую кнопку. Разрешается учитывать регистр букв, искать данные в информации о свойствах книги, комментариях, закладках, содержимом страниц.
- Укажите запрос и нажмите Enter. Появится список фраз, в которых встречается указанный ключ. Кликайте по ним мышкой, чтобы передвигаться по результатам.
PDF-XChange Viewer можно использовать бесплатно, но при внесении правок на страницы будет наложен логотип фирмы.
Как выполнить поиск по ПДФ документу онлайн
Если у вас нет доступа к нужной программе, например, вы работаете за чужим ПК, можно осуществить поиск в ПДФ онлайн. Редакторы в режиме online позволяют работать с любого устройства, их не нужно скачивать и устанавливать.
Поиск в PDF файлах: PDF24 Tools
На сайте PDF24 Tools находится множество полезных опций для изменения PDF-документа. Пользователи могут конвертировать формат, провести нумерацию страниц, создавать ПДФ-файлы, вставлять или удалять страницы. С помощью сервиса можно не только отыскать требуемое слово, но также добавить поисковое поле в нередактируемые сканы.
- На главной странице отыщите «Просмотреть PDF и другие файлы». Импортируйте документ в ПДФ-формате, нажав кнопку загрузки.
- Дождитесь, когда сайт обработает загрузку. После этого кликните «Показать» под превью ПДФ-файла.
- Когда электронная книга откроется в веб-просмотрщике, нажмите сочетание Ctrl + F.
- В правом верхнем углу браузера появится поисковое окно. Укажите запрос в текстовом поле.
- Браузер сразу перенаправит вас к странице, на которой нашлось требуемое слово. Чтобы перейти к следующему результату, воспользуйтесь стрелками.
В данном случае используются технологии веб-браузера, поэтому вы не сможете настроить параметры. Если результатов много, придется просматривать их вручную, чтобы добраться до нужного отрывка.
Как найти в ПДФ слово: Smallpdf
Smallpdf включает в себя инструменты практически для любой задачи, от простого открытия и чтения до создания и наполнения документации с нуля. Этот сервис – один из немногих, который предлагает собственный ридер, включает в себя опцию закладок и поиск слов в ПДФ файлах.
- Откройте сервис и кликните по кнопке «Изучить все PDF-инструменты». Отыщите среди списка инструментов опцию «Средство просмотра».
- Загрузите на сервер ПДФ-документ через кнопку импорта или перетащите его из Проводника в окно браузера.
- В правом верхнем углу отыщите иконку в виде лупы. Также можно воспользоваться кнопками Ctrl + F.
- Появится окошко поиска. Введите в него текстовый запрос и кликайте по стрелкам вниз и вверх, чтобы передвигаться по результатам.
Бесплатный тариф Smallpdf позволяет проводить две операции в день. Но если использовать его только для просмотра без изменений проекта или экспорта, ограничения не накладываются.
Заключение
Теперь вы знаете, как сделать поиск в ПДФ файле на компьютере или в режиме онлайн. Сравнивая оба способа, мы советуем выбирать компьютерный софт. С ним намного удобнее работать, если вы имеете дело с большим объемом текста, так как программы предлагают больше возможностей.
Если вы ищете универсальный вариант для чтения и редактирования, мы рекомендуем PDF Commander. Он прост в управлении, предлагает функции для комфортного чтения и позволяет быстро разобраться даже в таких сложных задачах, как снять защиту с ПДФ, добавлять личную подпись и прочее.
Ответы на часто задаваемые вопросы:
Можно, если это не отсканированная фотография. Для вызова функции достаточно нажать комбинацию Ctrl + F.
Данные настройки могут различаться в зависимости от редактора, который вы используете. Обычно, чтобы открыть поиск, используются клавиши Ctrl + F.
Поиск в документах PDF
У вас есть много различных способов управления и дополнительных возможностей для быстрого и результативного поиска в Adobe Acrobat. Поиск может быть расширенным или стандартным, включающим различные виды данных и разнообразные файлы Adobe PDF .
Если вы работаете с большим количеством взаимосвязанных PDF-документов, вы можете сделать из них каталог в Acrobat Pro с PDF-индексацией всех PDF-документов. Поиск в PDF-каталоге вместо поиска в самих документах PDF значительно увеличивает скорость поиска. См. Создание индексов PDF.
Обзор функций поиска и замены
Поиск выполняется, чтобы найти определенные объекты в документах PDF. Если нужно найти определенное слово внутри отдельного файла, можно запустить простой поиск. Когда нужно найти разные виды данных в одном или нескольких документах PDF, можно запустить более сложный поиск. Можно заменить сегменты текста.
Можно запустить поиск, используя либо окно «Поиск», либо панель инструментов «Найти». В обоих случаях Acrobat ищет текст документа PDF, слои, поля форм и цифровые подписи. В поиск можно также включить закладки и комментарии. Только панель инструментов «Найти» содержит параметр «Заменить на».
Теперь при вводе первых букв для поиска в файле PDF программа Acrobat предлагает варианты совпадения слов и частоту их появления в документе. При выборе слова Acrobat выделяет все соответствующие результаты в файле PDF.
Окно Поиск предлагает больше вариантов и видов поиска, чем панель инструментов «Найти». При использовании окна «Поиск» поиск идет также среди данных объекта и метаданных изображений XIF (расширенный формат файлов изображений). При поиске в нескольких документах PDF Acrobat также ищет свойства документа и метаданные XMP, а при поиске в PDF-индексе ищет теги индексированной структуры. Если в документах PDF, по которым идет поиск, имеются вложенные файлы PDF, их можно также включить в поиск.
Документы PDF могут иметь несколько слоев. Если некоторые из результатов поиска находятся на скрытом слое, при выборе этого результата на экране появляется предупреждение с вопросом о том, нужно ли сделать этот слой видимым.
Доступ к функциям поиска
В зависимости от типа поиска используются разные средства поиска. Используйте панель инструментов «Найти» для быстрого поиска и замены текста в текущем документе PDF. Используйте окно «Поиск» для поиска слов или свойств документа в нескольких документах PDF; используйте параметры дополнительного поиска и ищите в PDF-индексах.
Отображение панели инструментов «Найти»
A. Поле поиска B. Найти ранее C. Найти далее D. Поле «Заменить на» можно развернуть, чтобы ввести текстовую строку
Открытие окна «Поиск»
Выберите Редактирование > Расширенный поиск (Shift+Ctrl/Command+F).
На панели инструментов «Найти» щелкните стрелку и выберите команду «Открыть полный поиск Acrobat» .
Окно «Поиск» появляется в виде отдельного окна. При этом его можно перемещать, изменять его размер, сворачивать или располагать частично или полностью за окном документа PDF.
Размещение окна документа PDF и окна «Поиск»
В окне «Поиск» нажмите кнопку «Упорядочить окна» .
Acrobat изменяет размеры или размещает два окна рядом друг с другом, так что вместе они почти заполняют весь экран.
Примечание. Повторное нажатие кнопки Упорядочить окна изменяет размер окна документа, но оставляет без изменений окно «Поиск». Если вы хотите увеличить или уменьшить размер окна «Поиск», перетащите его угол или край, как если бы вы изменяли размер любого другого окна в вашей операционной системе.
Поиск и замена текста в документах PDF
Поиск и замена текста в документе PDF
Панель инструментов «Найти» производит поиск в открытом в данный момент документе PDF. Можно заменить часть поискового термина альтернативным текстом. Можно поочередно заменить каждое вхождение текста. Вы не можете внести изменения во всем файле PDF или в нескольких файлах PDF.
(Необязательно) Щелкните стрелку рядом с текстовым полем и выберите один или несколько вариантов из перечисленных ниже.
Только слова целиком
Поиск только полных слов, введенных в поле текста. Например, при поиске слова год слова погода и годный найдены не будут.
С учетом регистра
Поиск только тех слов, в которых регистр букв совпадает с регистром букв слова, введенного в поле поиска. Например, при поиске слова Web слова web и WEB найдены не будут.
Искать в закладках
Поиск ведется и в тексте панели «Закладки».
Поиск текста ведется также во всех комментариях.
Acrobat переходит к первому из найденных вхождений, которое при этом выделяется.
Нажмите «Заменить», чтобы заменить выделенный текст или нажмите «Далее», чтобы перейти к следующему экземпляру поискового термина. Кроме того, можно нажать «Назад», чтобы вернуться к предыдущему экземпляру поискового термина.
Поиск текста в нескольких документах PDF
Окно Поиск позволяет производить поиск в нескольких документах PDF. Например, можно выполнить поиск во всех файлах PDF в определенном месте или во всех файлах в открытом портфолио PDF . Параметр Заменить на недоступен в окне «Найти».
При поиске в нескольких документах поиск в зашифрованных документах не производится. Необходимо сначала открыть эти документы и последовательно выполнить в них поиск. Однако документы, зашифрованные как Электронные издания Adobe , являются исключением, и при поиске в нескольких документах они также включаются в поиск.
Откройте Acrobat на рабочем столе (не в веб-браузере).
На панели инструментов «Найти» введите текст для поиска, затем выберите Открыть полный поиск Acrobat в выпадающем меню.
Введите искомый текст в окне «Поиск».
Во время поиска можно щелкнуть результат или использовать сочетания клавиш для перемещения по результатам, не прерывая при этом поиск. Нажатие кнопки «Стоп», расположенной под индикатором хода поиска, отменяет дальнейший поиск, и результаты поиска ограничиваются теми, которые уже найдены. Это не приводит к закрытию окна «Поиск» или к удалению списка результатов. Для просмотра дополнительных результатов запустите новый поиск.
Просмотр и сохранение результатов поиска в документе PDF
Просмотр результатов поиска
После запуска поиска из окна «Поиск» результаты будут появляться под именем документа, в котором ведется поиск, в том порядке, в котором они расположены на страницах документа. Каждый из перечисленных элементов включает несколько слов из контекста (если необходимо) и значок, показывающий тип местонахождения.
Переход к определенному экземпляру в результаты поиска (только отдельные PDF-файлы)
Сортировка вхождений в результатах поиска
Значки для результатов поиска
Значок рядом с вхождением в результатах поиска показывает область поиска, в которой найдено это вхождение. При выборе этого значка произойдет следующее.
Позволяет сделать документ активным в окне документа. Разверните список, чтобы показать отдельные результаты поиска в этом документе.
(Основной) Значок «Результаты поиска»
В документах PDF позволяет перейти к этому вхождению искомого слова, обычно в основном тексте документа PDF. Вхождение искомого слова в документе выделяется.
Значок «Результаты поиска по файлам, не являющимся файлами PDF» или «Метаданные»
Позволяет открыть файл, не являющийся файлом PDF. Если открытие файлов такого типа запрещено, открывается диалоговое окно сообщения.
Открывает панель «Закладки» и выделяет вхождения искомых слов.
Открывает панель «Комментарии» и выделяет вхождения искомых слов.
Может появиться сообщение с указанием того, что слой является скрытым, и запросом, нужно ли сделать его видимым.
Открывает файл, прикрепленный к родительскому PDF, по которому проводился поиск, и отображает вхождения искомых слов.
Сохранение результатов поиска
Результаты поиска можно сохранить в формате PDF или CSV. Видеоролик представлен на странице Сохранение результатов поиска в Acrobat.
Нажмите и выберите «Сохранить результаты в формате PDF» или «Сохранить результаты в формате CSV».
Расширенные параметры поиска
По умолчанию в окне «Поиск» отображаются только базовые параметры поиска. Нажмите кнопку Показать расширенные параметры в нижней части окна, чтобы отобразить дополнительные параметры. Чтобы показывать только базовые параметры, щелкните кнопку Показать основные параметры в нижней части окна.
Можно задать установки таким образом, что в окне «Поиск» будут всегда отображаться расширенные параметры поиска. В диалоговом окне «Установки» в разделе «Категории» выберите «Поиск».
Ограничивает поиск текущим документом PDF, открытым портфолио PDF (если применимо), индексом или папкой на компьютере. Если выбран поиск, ограниченный индексом, расположением или портфолио PDF, дополнительные параметры появляются ниже кнопки «Использовать дополнительные критерии».
Какое слово или фразу искать
Введите текст или фразу, которые будут учитываться при поиске.
Отобразить результаты, содержащие
Ограничивает результаты поиска в соответствии со следующими выбранными параметрами.
Точное совпадение слова или фразы
Поиск всей строки символов целиком, включая пробелы, в том же порядке, в котором они располагаются в текстовом поле.
Совпадение любого слова
Поиск любых вхождений, где встречается по крайней мере одно из введенных слов. Например, при поиске каждый из в результатах будут присутствовать все вхождения, в которых присутствует одно или оба из этих двух слов: каждый, из, каждый из или из каждый.
Совпадение всех слов
Поиск вхождений, содержащих все слова, заданные поиском, но не обязательно в том же порядке, в котором они введены. Эта функция доступна только для поиска в нескольких документах PDF или файлах определения индекса.
Использует логические операторы, которые вместе со словами поиска введены в поле Какое слово или фразу искать? . Эта функция доступна только для поиска в нескольких документах PDF или в PDF-индексах.
Примечание. Нельзя искать шаблоны при помощи звездочек (*) или знаков вопроса (?) при поиске в PDF-индексе.
Использовать дополнительные критерии (параметры текста)
Включает следующие стандартные параметры поиска плюс пять дополнительных параметров.
Поиск близких слов
Поиск двух или более слов, отстоящих друг от друга на число слов не большее, чем задано в установках поиска. Данная функция доступна только при поиске в нескольких документах или в файлах определения индекса, а также если при этом задан параметр Совпадение всех слов .
Поиск слов, содержащих часть (основу) конкретного искомого слова. Например, поиск слова открытие находит вхождения открыть, открытый, открывает и открыто. Этот параметр применяется к отдельным словам и фразам при поиске в текущем документе PDF, папке или индексе, созданном в Acrobat версии 6.0 или более поздней. Символы-шаблоны (*, ?) нельзя использовать при морфологическом поиске. Морфологический поиск недоступен, если выбраны параметры Только слова целиком или «С учетом регистра».
Искать в закладках
Поиск в тексте любой закладки, как показано на панели «Закладки».
Поиск в тексте любых комментариев к документу PDF, как показано на панели «Комментарии».
Искать во вложенных файлах
Поиск по файлам, прикрепленным к текущему PDF, или другим прикрепленным файлам PDF (не более двух уровней вложения).
Использовать дополнительные критерии (свойства документа)
Появляется только при поиске в нескольких документах PDF или PDF-индексах. Можно задавать разные комбинации свойств, модификаторов, значений и применять их к поиску. Этот параметр неприменим для файлов типа, отличного от PDF, в портфолио PDF .
Примечание. Вы можете выполнить поиск только по свойствам документа путем использования параметров свойств документа в сочетании с поиском определенного текста.
Применяет к поиску набор критериев в трех связанных параметрах. (Флажок устанавливается автоматически при вводе данных в любом из трех параметров в этом наборе. После того как параметры заданы, снятие флажка не приводит к удалению записей; они лишь не будут применяться к поиску.)
Первое меню (свойство)
Указывает, какие характеристики документа будут учитываться при поиске. Доступные варианты параметров: Дата создания , Дата изменения , «Автор», «Название», «Тема», «Имя файла», «Ключевые слова», «Закладки», «Комментарии», Изображения JPEG , Метаданные XMP и «Данные объекта».
Второе меню (модификатор)
Указывает уровень соответствия. Если в первом меню выбрана дата, доступными параметрами во втором меню будут Точно , До , После , Не . В других случаях доступными параметрами будут «Содержит» и Не содержит .
Третье меню (значение или текст)
Отображает введенную совпадающую информацию. Если в первом меню выбрана дата, можно щелкнуть стрелку, чтобы открыть календарь, по которому можно будет перемещаться, чтобы найти и выбрать нужную дату.
Логические операторы
Обычно используются следующие логические операторы.
AND
Ставится между двумя словами для поиска документов, содержащих оба слова в любом порядке. Например, введите Париж AND Франция для поиска документов, содержащих оба слова: Париж и Франция . Поиск только с одним логическим оператором «AND» дает такие же результаты, как если бы параметр Совпадение всех слов был выбран .
NOT
Ставится перед искомым словом, чтобы исключить все документы, в которых оно содержится. Например, введите NOT Кентукки для поиска всех документов, не содержащих слово Кентукки . Или введите Париж NOT Кентукки для поиска всех документов, содержащих слово Париж , но не слово Кентукки .
OR
Используется для поиска всех вхождений любого из слов. Например, введите электронная почта OR эл. почта , чтобы найти все документы, содержащие любое из этих слов или оба слова в любой комбинации. Поиск только с одним логическим оператором «OR» дает такие же результаты, как если бы параметр «Совпадение любого из слов» был выбран .
^ (исключающее OR)
Используется для поиска всех вхождений, в которых присутствует одно из слов, но не оба слова сразу. Например, введите кошка ^ собака , чтобы найти все документы, содержащие либо слово кошка, либо собака, но не оба слова кошка и собака сразу.
Круглые скобки используются, чтобы задать порядок оценки слов. Например, введите белый AND (кит OR ахав ) , чтобы найти все документы, содержащие либо слова белый и кит, либо слова белый и ахав . (Обработчик запросов сначала выполняет запрос OR для слов кит и ахав , а затем выполняет запрос AND со словом белый и результатом предыдущего запроса).
Чтобы узнать больше о логических запросах, синтаксисе и других логических операторах, которые можно использовать при поиске, ознакомьтесь с информацией в соответствующей литературе, на веб-сайтах или в других источниках с более полными сведениями по математической логике.
Поиск в файлах индекса каталогизированных документов PDF
Полнотекстовый индекс создается в том случае, если Acrobat используется для определения каталога документов PDF. Вы можете проводить поиск по индексу, вместо просматривания всего каталога в поисках определенного документа PDF. Поиск по индексу выдает список результатов со ссылками на найденные примеры в индексированных документах.
Для поиска в PDF-индексе необходимо открыть Acrobat как отдельное приложение (не в веб-браузере).
В Mac OS индексы, созданные в некоторых предыдущих версиях Acrobat, несовместимы с функцией поиска Acrobat X. Если вы недавно выполняли обновление, обновите индекс перед выполнением поиска с помощью Acrobat X.
Организовать быстро поиск по содержимому в pdf документах?
имеется довольно большой объём pdf документов(50gb), требуется организовать поиск по их содержимому, подскажите как это сделать максимально просто и быстро(требуется временное решение без применения ELK итд)?
Какие варианты вижу я:
1. на python распарсить и сохранить в БД, и уже там проводить поиск, трудность в том что pdf весьма не так просто распарсить как html,j son, xml
2. найти какую-то чудо утилиту которая распознает текст и на основе его создаст json/xml объект и сохранит его, и дальше уже производить поиск по этим файлам.
Буду любым идеям и предложениям, моя цель это просто по ключевым словам находить pdf файлы в которых они встречаются.
How To Search for Words or Phrases in a PDF Document
When a PDF is opened in the Acrobat Reader (not in a browser), the search window pane may or may not be displayed. To display the search/find window pane, use «Ctrl+F».
When the Find window opens, follow these steps and refer to Figure 1 below:
- Click the gear icon on the right side of the box.
- Select the drop down item — «Open Full Acrobat Search«.
Figure 1
Search Options
There are several ways to search for information within a PDF document. These include the following:
- Basic Search
- Advanced Search
Basic Search Options
To execute a basic search request complete the following steps:
- Type your search term(s) inside the «text box» in the Find dialog box.
- Select the Next or Previous buttons to move through the search results.
Advanced Search Options
To get to the Advanced Search feature, click on the gear icon on the right side of the text box.
Brief explanation of the options available in the advanced search are:
- Match Exact Word Or Phrase — Searches for the entire string of characters, including spaces, in the same order in which they appear in the text box.
- Match Any Of The Words — Searches for any instances of at least one of the words typed. For example, if you search for each of, the results include any instances in which one or both of the two words appear: each, of, each of, or of each.
Note: You cannot run wildcard searches using asterisks (*) or question marks (?) when searching PDF indexes.
Click «Show More Options» near the bottom of the search window pane to display the advanced search information. To execute an advanced search request complete the following steps:
- Type your search term(s) inside the «text box» where you are asked:»What word or phrase would you like to search for?«
- Select an option from the drop down menu for «Return results containing:»
- Click the «Search» button to execute the search request.
Sample Search Request Using Advanced Search Options
For the purposes of this example, steps are provided to illustrate how to execute a search request for finding information about diazinon and kaolin in a PDF document. Assume that a PDF document is opened in the browser. If the search window pane is not displayed, please refer back to «Displaying the Search Window Pane» for assistance.
The Search Criteria
Below are the steps to be followed for completing a search request to find information about diazinon and kaolin. Refer to Figure 2.
- Click «Show More Options» near the bottom of the search window pane. (Step 1)
- Select «Match Any Of The Words» from the drop down menu for «Return results containing:» (Step 2)
- Type «diazinon kaolin» inside the «text box» where you are asked: What word or phrase would you like to search for?» (Step 3)
- Click the «Search» button to execute the search request. (Step 3)
Figure 2
The Search Results
In this example, the search results produced 10 items in the PDF document for information about diazinon and kaolin. See Figure 3 below.