четверг, 8 декабря 2016 г.

OSInt, TI, DeepWeb и другие

Продолжая тему больших данных и их анализа - интересно что не только соц.сети могут быть источником интересных данных. 
Вот, к примеру, BrightPlanet, довольно подробно раскрывает подходы и архитектуру решения по анализу deepweb (не путать с darkweb). Проблема довольно проста: выдача поисковых систем по популярным запросам довольно объемна, и, даже не учитывая закрытых разделов форумов, сайтов требующих регистрации и т.д. и т.п. - в открытой части пользователь всё равно идёт по "поверхности", заглядывая в небольшой процент наиболее популярных страниц и документов. Запрос можно уточнять, но это превращает процесс в искусство, а, в случае с большими объемами данных - стратегия проигрышная. Нужна автоматизированная система.


Сценарии использования такой аналитики не ограничиваются поиском утечек и конкурентной разведкой, вот хорошая подборка сценариев:
  • Business: Competitive Intelligence, Fraud Detection, Anti-Counterfeiting, Social Media monitoring, Brand Protection, Theft of Trade Secret (ToTS), Monitoring Intellectual Property Rights (IPR), People Finding, VAR/Distribution, Channel integrity and protection, Domain Management, Company-specific news, Press releases, FDA warnings, SEC filings, USPTO applications.
  • Government: Intelligence analysts can automatically monitor websites and social media from any source, in any language and in any format to monitor for security threats. Intelligence Agencies Federal Agencies State/Local/Tribal Law Enforcement Agencies
  • Law Enforcement: Criminal activity, Patterns of life analysis, Geo location, Threaded activity timeline, Connections between suspects, Social Unrest.
  • Translational Research: Grants, Journal articles, Legislation, News Patents, Clinical Trial Information, White Papers, Blogs/Message Boards, Conference Reports, Institutional Papers.

Проблема в доступе к таким данным номер раз - сбор и первичная обработка. Серьезный технологический барьер, на котором большинство и остановится (и собственно до обработки больших данных дело не дойдет). Начиная с необходимости "поднять" краулер и далее по пунктам - типы контента, языки и так далее. Но тема при этом интересная, так как растёт понимание о простоте доступа к структурированным данным в соц.сетях и пользователи, среди которых как интересные, так и массовка, как "добрые", так и не очень весьма вероятно в 2017 году будут уходить в тень:

Users will begin to pull back from social media platforms, like Twitter and Instagram, which allow easy data mining

Although platforms try to limit or restrict unlawful monitoring, the pressure for data mining capabilities won’t completely eliminate access. We’ll start to see users pulling back from open social platforms (Twitter, Instagram & Facebook) in favor of closed platforms (Snapchat, LINE, Telegram, WhatsApp, LinkedIn, )
As advertisers try to trick more “organic” ads, users will pull back from these platforms in frustration over valuable content. We saw this phenomenon during the 2016 U.S. presidential election with fake news. Even though these platforms will continue to grow overall, user-generated raw content will be scaled back in frustration. This inevitably results in self-censored platforms.