Проще найти в интернете чем на компьютере

Парадоксально, но с этим сталкивались все. Открываешь окно браузера, вбиваешь запрос прямо в адресную строку и вот он результат.

А на компьютере? Сначала мучительно вспоминаешь где оно могло лежать, потому что на диске...

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Можно, конечно, искать по всему диску, но займет это во встроенном поиске чуть больше чем «да ну нафиг». Еще и наполовину бессмысленно — по многим видам файлов, искать будет только по имени но не по содержимому. А если файл в архиве? А архив прикреплен к письму? И помнишь только примерно что было в тексте.


Можно ли это исправить? Конечно. Наши корпорации добра Гугл и Яндекс выпустили настольные версии своих продуктов, как раз для поиска документов на компьютере и..

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Google Desktop недоступна с 2011 года. Yandex Desktop Search с 2008. Оно и понятно, все должны искать только в Web и только через яндекс браузер, где можно показать рекламу. Что же делать и куда податься?


Если нужно искать только по именам, то есть Everything – быстро, просто и бесплатно, дистрибутив весит меньше чем средняя NSFW картинка. Она даже умеет искать по содержимому, но делает это очень медленно, так как не строит индекс. А хочется все и сразу.


Прежде всего, можно представить, как бы выглядело идеальное решение. Наверное так:

• Не нужно ничего устанавливать

• Не нужно ничего настраивать

• Не нужно открывать никаких программ для поиска, просто как обычно вбиваем запрос в  браузере

• Не нужно долго ждать индексацию, все ищется сразу

• Легко ищет по любым разумным объемам — хоть миллиону документов

• Показывает документы в полном виде — с сохранением верстки.

• Поддерживает любые форматы и архивы

• Учитывает морфологию русского языка

• Поддерживает синтаксис больших поисковых систем

• Ищет в почте


И как ни странно, такое решение есть. Если документы хранятся в облаке, скажем на Google Docs, то эти пункты легко выполняются. Квест выполнен, расходимся.

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Но нет, времена изменились. Еще недавно облака были в тренде, казались надежными и удобными, все либо уже были в них, либо собирались. И вдруг оказалось, что кто волосок подвесил, тот его и перерезать может. Как говорится, деньги в банке - это не ваши деньги, а деньги банка. Ну и с приватностью как-то спокойнее, когда все свое у себя. Какие же есть варианты приземленные?


Понятно, что первые два пункта придется отбросить. Если документы хранятся локально, то в любом случае нужно что-то поставить и как-то его настроить. Ну и желательно чтобы индекс по миллиону документов не строился в течение 1,5 дней на восьми 8-ядерных серверах с 16 Гб оперативной памяти а потом еще две недели «обогащался семантической информацией». А ведь миллион документов это не так уж много, даже для домашнего компьютера. Скажем небезызвестная библиотека траума сейчас содержит 200 тысяч книг, каждая из которых куда больше по объему текста чем средний офисный документ. То есть как раз соответствует миллиону обычных документов.


Вдумчивое изучение предмета выявило ряд претендентов, из тех что можно скачать и попробовать. Конечно, есть много красивых сайтов содержащих много маркетинговой воды убедительные описания серьезных систем, но ни цены ни кнопки Скачать там никогда не будет. Кстати, это вообще характерно для отечественных компаний. Ради интереса, я просмотрел почти все программы из Реестра российского ПО у которых указан тип Поисковые средства и у всех "цена по запросу", как на базаре. Нужно сначала оценить на сколько можно раскрутить клиента при том что у каждого десятого  вообще ссылка битая. Чуть менее чем все они сделаны на основе ElasticSearch/Solr/Lucene, но есть и реально отечественные разработки, правда не предназначенные для конечных пользователей (хотя вы и используете Сфинкс заходя на Авито). Стоп, отставить отечественные, теперь Sphinx Technologies Inc. is a tiny, private US-based company. Кстати, интересующимся теорией поисковых систем, весьма рекомендую видео выступлений Андрея Аксенова на различных конференциях, ютуб в помощь.


Впрочем, даже готовые решения на основе тех же Elastic/Solr/Lucene предполагает, что устанавливать и настраивать их будут бородатые люди в растянутых свитерах, для которых слова типа Apache, TomCat, Docker, Linux, JSP и прочие обладают тайным смыслом. Они с радостью будут набирать магические заклинания в консоли и править текстовые файлы конфигураций. В общем, все не как у людей.

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

A что есть «по настоящему», чтобы нажал кнопку и все заработало?



Архивариус 3000

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Отечественный бестселлер, к сожалению ныне не поддерживаемый (последняя версия 2018 год). Тем не менее вполне рабочий, так что включим в обзор.

Плюсы:

• Компактный дистрибутив (30 мегабайт) при этом не просит установить дополнительные модули Net или Java.

• Низкая цена (на 2018 год 395р для физлиц, 990 для юрлиц).

• Поддерживает русский язык, как в интерфейсе так и морфологию.

• В отличии от многих выводит в окне поиска цитаты с найденными словами.

• Поддерживает большое число форматов.

• Умеет индексировать почтовые базы Outlook и The Bat (а также подключаться к POP3 и IMAP ящикам), архивы RAR, ZIP и прочие.

• Есть доступ из браузера


Минусы:

• Возраст дает о себе знать: интерфейс выглядит архаично, масштаб экрана не поддерживается (текст становится мелким).

• Больше не поддерживается, легально купить нельзя.

• EPUB воспринимает как архив, то есть индексирует отдельные главы.

• Не умеет отображать документы с форматированием, только простой текст.

• Почта показывается в том же простом неприглядном текстовом виде, вложенные в сообщение файлы при просмотре не видны, их можно найти только отдельно.

• Нет просмотра списка найденных фраз в документе

• Только для Windows


DocFetcher

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Создан на основе Lucene, доступен исходный код. Можно использовать без установки (portable версия).

Плюсы

• Бесплатный (есть pro версия за $40)

• Не требует регистрации, email и прочей личной информации.

• Есть версия для Linux

• Поддерживает Outlook PST

• Может работать из браузера, но только в версии Server ($65 за каждого пользователя)

• Есть русский интерфейс


Минусы

• Требует наличия Java RE 1.7

• Примитивный внешний вид (для кого-то может быть плюсом).

• Сильно тормозит интерфейс, изменение размеров окна может занимать секунды.

• Плохой расчет релевантности, вверху оказывается не то что ожидаешь

• Нет морфологии русского языка

• Нет поддержки почтовых баз Outlook OST, The Bat.

• Просмотр показывает только текст без форматирования

• Не показывает цитаты в результатах поиска

• Нет просмотра списка найденных фраз в документе



dtSearch

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

По интерфейсу напоминает docFetcher, но только весьма платный - $199. Из РФ сайт может не открыться, видимо не справляются с наплывом клиентов, и временно ограничили посещение. Но даже зайдя на сайт, не предъявив карту вы пробную версию скачать не сможете.

Использует несколько странное решение с отдельным окном для поиска

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Для отображения документа используется встроенный Internet Explorer, благодаря этому HTML файлы отображаются нормально, но вот офисные хоть и пытаются показать форматирование, выходит это довольно криво.


Плюсы

• Есть нечеткий поиск (только для английского языка)

• Поддержка архивов (RAR, ZIP)

• Поддержка почтовых баз Outlook (PST, OST)


Минусы

• Высокая цена, $199 за простую версию, минимум $900 за многопользовательскую на 5 пользователей.

• Требует кредитную карту для получения пробной версии

• Интерфейс только на английском

• Нет морфологии русского языка

• Нет поддержки EPUB – индексирует как архив

• Просмотр показывает только текст без форматирования либо с кривым форматированием.

• Не показывает цитаты в результатах поиска

• Нет просмотра списка найденных фраз в документе

• Не работает из браузера



X1Search

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Самый модный лук в обзоре. За $79 в год (постоянной лицензии нет) все так же нет поддержки EPUB, но зато умеет отображать офисные файлы в полном виде (используя Aspose):

Инсталлятор выглядит компактным, но на самом деле докачивает еще 70 мегабайт. Чтобы скачать триал, нужно предоставить email и прочие данные, хорошо хоть без карты.


Ведет себя довольно бесцеремонно, сразу после установки, ничего не спрашивая начинает сканировать файлы на диске. Устанавливается только на Windows 10, на более старшие отказывается категорически.

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Окно создания индекса довольно неинтуитивно: некоторые папки отмечены автоматически, и легко их забыть снять. При этом бесполезно встать в корень диска и нажать Nothing. Нужно сначала выбрать другую опцию, и только потом Nothing.


Чтобы создать индекс по одной папке, нужно найти ее в дереве, и выбрать нужную опцию из шести справа. При этом создать несколько индексов нельзя, нужно открыть файловый индекс на редактирование, и отметить другую папку.


Просмотр документов очень сильно тормозит в режиме Normal и более-менее приемлемо работает в режиме Preview.


Плюсы:

• Современный интерфейс

• Умеет индексировать почту Outlook, Gmail

• Просмотр документов в полном виде


Минусы:

• Нет постоянной лицензии

• Нет поддержки EPUB – индексирует как архив

• Интерфейс только на английском

• Нет морфологии русского языка

• Не показывает цитаты в результатах поиска

• Нет просмотра списка найденных фраз в документе

• Не работает из браузера

• Тормозит просмотр



Copernic

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Триал 200 мегабайт и со странной процедурой активации. После установки нужно извлечь специальный файл из того же архива, и загрузить его в меню программы. Почему она не может это сделать самостоятельно — непонятно.


Стоит $32 в год, за версию с поддержкой EPUB, постоянной лицензии нет. Также агрессивно начинает сканирование дисков сразу после установки. Поведение мало того что раздражающее, так еще и бессмысленное, так как до загрузки лицензии, документы полноценно индексироваться не будут.


Построен на основе Lucene, интерфейс выглядит довольно современно, но местами странно. Тестовая индексация показала удивительно низкую скорость — по несколько секунд на один документ. Оказалось что все дело в принудительно включенном распознавании текста на картинках. Однако отключить его тоже не так просто, снятие языков в настройках распознавания не помогает, они сами включаются обратно, только полное отключение расширения.


Документы отображаются с оформлением, но открывается просмотр очень долго. Пространство окна используется довольно нерационально, много пустого места.


Плюсы

• Русский язык интерфейса

• Распознавание текста

• Просмотр документов в полном виде

• Минусы

• Нет постоянной лицензии

• Не поддерживается морфология русского языка

• Не показывает цитаты в результатах поиска

• Нет просмотра списка найденных фраз в документе

• Не работает из браузера


Посмотрим как обстоят дела со скоростью индексации, поеданием памяти и места на диске. На первый взгляд, скорость не так важна, рано или поздно доиндексирует. Но во первых индексация заметно грузит компьютер, то есть чем быстрее она пройдет и меньше памяти займет, тем комфортнее и незаметнее работает программа. А во вторых, библиотеки книг могут достигать сотен тысяч экземпляров, и если результата придется ждать несколько дней это не комильфо.

Для теста возьмем книги авторов на одну букву Л — 3.5 гигабайта, около 8 тысяч книг, и интерполируем результат. Чтобы оценить время индексирования всей библиотеки, нужно умножить результат примерно на 30.

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Архивариус отметаем сразу, 5 гигабайт памяти это никуда не годится, X1 будет индексировать всю библиотеку больше суток, что тоже ни в какие ворота, а лучшие результаты по всем пунктам, как ни странно, у бесплатного docFetcher. Coperniс из трех оставшихся самый медленный, но зато имеет русский интерфейс и полноценный просмотр документов. То есть dtSearch еще и с его ценой $200 - на вылет. Получается что идеала не нашлось: для него нужно взять скорость и память docFetcher, прибавить современный интерфейс X1, но на русском, просмотр документов как у Copernic или X1, а ко всему добавить русскую морфологию и работу из браузера как у Архивариуса. Ну и чтобы оно было бесплатным дешевле всех остальных и создано в Тюмени доступно из РФ.

Раз такого нет, надо сделать. Сейчас же актуальна тема перехода на все отечественное. Собственно дело то несложное, нужно написать поисковую систему с поддержкой русской морфологии, способную хранить данные компактнее чем все аналоги, а искать по ним быстрее. Индексатор, который будет уметь быстрее всех читать документы и разбирать пару десятков форматов — PDF, DOC, PPTX.. там всего-то по каждому формату документация страниц 600, Джоэл Спольски считает что это займет несколько тысяч человеко-часов, но некоторым же удавалось. А, да, чтобы все это из браузера работало, нужно еще научиться все виды документов на лету конвертировать в HTML с учетом страничной разбивки, попутно подсвечивая найденные слова. Написать, конечно, надо с нуля, чтобы все свое, иначе это сиджиподс ерунда получится а не импортозамещение.

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Шутка. Все уже сделано, работает вдвое быстрее (1 минута 30 секунд), памяти занимает вдвое меньше (300 Мб) а индекс втрое меньше (145 Мб), просмотр из любого браузера, поддерживает морфологию (3 миллиона словоформ) и поиск по синонимам, выводит цитаты в результатах, исправляет ошибки и неверную раскладку, подсказывает при вводе варианты с количеством документов, показывает документы в полном виде, и даже список найденных документов может вывести в виде миниатюр. Поддерживает навигацию как по автоматически формируемому оглавлению, так и по списку найденных фраз. Дистрибутив 25 мегабайт, ничего дополнительно не просит, работает хоть в Windows 7 и на любом ноутбуке, имеет влагозащиту и кейс из авиационного алюминия. Установка занимает 18 секунд (два раза нажать Далее и один раз Установить) и ничего не скачивает из интернета.

Выглядит как-то так

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост
Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

Можно посмотреть похожие документы (совпадение по ключевым словам), связанные (содержат тот же ИНН, номер договора и.т.д.) увидеть распределение найденного по типам и годам, открыть на мобильном (по QR коду), сохранить в PDF) и так далее.

В общем

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

На самом деле ищу. В связи с выходом полноценной второй версии (первая была скорее пробой пера) нужны полевые испытания в реальном жестоком мире. И все кто найдет заметные косяки или предложит интересные идеи для развития, получат бесплатно постоянную лицензию. Пишите на support@ с пометкой pikabu, есть реальный шанс получить воплощение своих идей и помочь в развитии действительно отечественному продукту а не как вот это все. Критика и советы welcome, поливайте, не стесняйтесь объясните что три года были потречены зря. А начну сам

Проще найти в интернете чем на компьютере Windows, Компьютер, Поисковик, Офис, Документы, Microsoft office, Софт, Длиннопост

• Некоторые документы пока отображаются не так как в офисе. Впрочем, «как в офисе» они и в • самом офисе не всегда отображаются.

• Архивы поддерживаются только ZIP и RAR

• Загрузки почты по POP3/IMAP пока нет.

• Распознавание текста пока отключено, но скоро будет.

• Изредка съезжает кодировка в поле Тема у почты.