Информационный дизайн в Visual Text Analytics - инструмент системного социолога

А.А.Давыдов.

Информационный дизайн в Visual Text Analytics - инструмент системного социолога

Ключевые слова: Системная социология, Анализ текстов, Визуальный дизайн

 

Введение

Visual Text Analytics (Визуальная аналитика текстовой информации) [1-3] - одно из современных направлений визуальной аналитики [4], которая реализована в многочисленных компьютерных интеллектуальных системах Text Mining and Knowledge Discovery («добычи знаний») [1,5], Collaborative Tagging Systems [6] и т.д. и широко используется в системной социологии [7], поскольку текстовая информация - это социальная система. С помощью визуализации текстовой информации решаются задачи выявления законов строения и (или) динамики структур сетей знаний, смыслов и т.д. в тексте, текстовых базах данных, блогосфере, интерпретации текстов, изучаются потоки текстовой информации в Collaborative Document Spaces и т.д. В целом, Visual Text Analytics [1-4] включает в себя visual methods for text analysis, multimedia support for visual reasoning in text mining, visualisation schemata and formal visual representation of metaphors, visual explanations, visual reasoning and uncertainty management in text mining, complexity, efficiency and scalability of information visualisation in text mining, incorporation of domain knowledge in visual reasoning, virtual environments for text visualisation and exploration, algorithmic animation methods for visual text mining, perceptual and cognitive aspects of information visualisation in text mining, interactivity and iterativity in visual text mining, representation of discovered knowledge, visual analysis of large databases, collaborative visual text exploration and model building, metrics for evaluation of visual text mining methods, immersive text mining techniques и т.д.

В данной статье автор предпринимает попытку привлечения внимания российских социологов к одному из аспектов Visual Text Analytics, а именно, к информационному дизайну [8-9] визуальной аналитики текстовой информации.  Необходимость привлечения внимания российских социологов к информационному дизайну в Visual Text Analytics, обусловлена следующими обстоятельствами. С точки зрения автора, основанной на просмотре научных статей в российских социологических журналах «Социологические исследования», «Социологический журнал», «Социология 4М», «ИНТЕР» [10] и т.д., за период 2000-2008 гг., практике анализа данных в современной российской социологии, бесед с коллегами, наблюдений за выступлениями на российских социологических конгрессах, конференциях и т.д., в российской социологии недостаточно внимания уделяется анализу текстовой информации, в частности, в Интернете (е-СМИ, сайты, блоги, форумы и т.д.), еще меньше внимания уделяется Visual Text Analytics и практически не уделяется внимания информационному дизайну Visual Text Analytics, что ограничивает аналитический арсенал российских социологов.

 

Использование информационного дизайна, как аналитического инструмента

Использование информационного дизайна, как аналитического инструмента  в Visual Text Analytics, базируется на следующих общих принципах. Во-первых, нужно знать общесистемные визуальные закономерности строения и динамики систем, в том числе, социальных систем, текстовых систем [7, 13-15]. Во-вторых, необходимо знать дизайнерские решения визуализации текстовой информации, например, представленных на порталах Information Aesthetics ( http://infosthetics.com ), Visual Complexity ( http://www.visualcomplexity.com ), на персональном сайте Chris Harrison ( http://www.chrisharrison.net/projects/visualization.html ) и других информационных дизайнеров ( http://designlabel.blogspot.com/2008_03_01_archive.html ). В-третьих, при использовании (разработке) визуализации, необходимы многократные эксперименты с различными схемами визуализации, что позволяет выдвигать нетривиальные гипотезы и получать плодотворные содержательные результаты, в частности, при интерпретации текстов, стимулируя социологическое воображение и интуицию аналитика, способствуя возникновению инсайта («озарения»). Существуют несколько подходов в разработке информационного дизайна, как аналитического инструмента  в Visual Text Analytics. Установление соответствия между содержанием, смыслом, контекстом текстовой информации и визуализацией. Визуальные аналитики используют уже готовую визуализацию хорошо изученных систем, как правило, природных систем, чтобы по аналогии увидеть общесистемные закономерности строения и динамики анализируемой текстовой информации. Использование нейтрального дизайна или Art Design. В-четвертых, критериями правильно подобранной визуализации текстовой информации являются красота, быстрое понимание и объяснение текстовой информации, запоминаемость результатов и т.д. В этой связи отметим, что широко известный  афоризм - «Pulcheritudo splender veritatis» (Красота - сияние истины), использовали в научной деятельности многие выдающиеся ученые, например А.Эйнштейн.

Более конкретно со схемами визуализации, правилами выбора цветовой гаммы, композиции, алгоритмами, компьютерными системами визуализации и т.д. заинтересованный читатель может ознакомиться в учебниках по информационному дизайну [8-9]. Ниже представлены некоторые примеры информационного дизайна в компьютерных системах для Visual Text Analytics.

 

Примеры информационного дизайна в компьютерных системах Visual Text Analytics

Рис.1

Визуализация текста, выполненная с помощью компьютерной системы IN-SPIRE

( http://in-spire.pnl.gov )

 

Отметим, что компьютерная система визуализации текстовой информации и визуальной аналитики динамики текстовой информации IN -SPIRE, используется в Национальном Центре визуальной аналитики при Правительстве США ( http://nvac.pnl.gov ).

Рис.2

Визуализация текста, выполненная с помощью системы VxInsight

( http://www.cs.sandia.gov/projects/VxInsight/snapshot.html )

 

 

Отметим, что визуализация текста, представленная на рис. 2, выполнена в Sandia National Laboratories   (http://www.cs.sandia.gov ), одной из ведущих лабораторий США в области разработки высоких технологий, в частности, военных технологий. При Правительстве США существует Национальный Центр визуальной аналитики ( http://nvac.pnl.gov ), где осуществляется аналитика текстовой информации и разрабатываются инновационные компьютерные системы для визуальной аналитики текстов, например IN -SPIRE (см. рис.1). Также отметим, что в Великобритании существует The National Centre for Text Mining (NaCTeM)  ( http://www.nactem.ac.uk/index.php ), что свидетельствует о важности визуальной аналитики текстовой информации.

Как правило, визуализация текстовой информации осуществляется с помощью анимации, чтобы визуальный аналитик мог «с разных сторон» целостно рассмотреть визуальное изображение текста и обнаружить скрытые (неочевидные) закономерности строения и динамики, глубже проникнуть в смысл текстовой информации. На рис. 3 представлен пример визуальной анимации текста.  

Рис.3

Анимационная визуализация и визуальная аналитика текста, выполненная с помощью компьютерной системы Tianamo ( http://www.tianamo.com

Рис.4

Интерактивная визуализация кластеров текстовой информации в Интернете c помощью компьютерной системы Grokker

( http://www.grokker.com )

 

 

Визуализация кластеров текстовой информации, представленная на рис. 4, полученная с помощью алгоритмов классификации текстов, в дальнейшем используется для быстрого интерактивного извлечения текстовой информации из Интернета, т.е. как визуальный поисковый интерфейс. В этой связи отметим, что интерактивные визуальные интерфейсы, полученные на основе предварительного кластерного анализа, многомерного шкалирования, Latent Semantic Indexing и других методов анализа текстовой информации, широко используются для последующего поиска текстовых документов в компьютерных информационных базах (см. рис.1,3), система KartOO ( http://www.kartoo.com ), TouchGraph и т.д.

 

Рис.5

Интерактивная визуализация кластеров текстовой информации в Интернете c помощью компьютерной системы TouchGraph

( http://www.touchgraph.com/TGGoogleBrowser.html )

 

Примечание: для построения карты текстовых документов и связей между ними в Google, автор использовал слово «Visual Text Analytics»

 

Примеры, представленные на рис. 4-5, показывают широкие практические приложения  Visual Text Analytics.

Рис.6

Сходства и различия основных мировых религий в Holy Books (Христианства,  Ислама, Индуизма, Буддизма и Иудаизма)

( http://similardiversity.net )

 

 

 

Рис.7

Визуализация текста Библии (система перекрестных ссылок в тексте)

( http://www.chrisharrison.net/projects/bibleviz/index.html )

 

Гистограмма, которая проходит вдоль нижней оси, представляет все главы в Библии. Длина каждого столбца обозначает количество стихов в этой главе. Каждая из 63779 перекрестных ссылок, содержащихся в тесте, изображена на одной дуге - цвет соответствует расстоянию между двумя главами.

Рис.8

Визуализация текста Библии(Biblical Social Network - люди и географические места)

( http://www.chrisharrison.net/projects/bibleviz/index.html )

 

Рис.9

Анимационная визуализация текста В.Шекспира «Гамлет», выполненная с помощью компьютерной системы TextArc

( http://textarc.org/Hamlet2.html )

 

Примечание: подведите курсор на ссылку рис.9 и нажмите левую клавишу мыши, тогда Вы сможете посмотреть анимацию и самостоятельно визуально проанализировать данный текст 

 

 

Рис. 10

Визуализация новостных сообщений СМИ (One week of The Guardian)

( http://www.designingthenews.com )

 

 

 

 

Визуализация текстов широко используется при анализе блогосферы [цит. по 7]. На рис. 11 представлен вариант визуализации текстовой информации в блогосфере.

 Рис.11

Визуализация текстовой информации в политической блогосфере США(Выборы Президента США 2008 г.)

( http://presidentialwatch08.com/index.php/map )

 

Примечание: подведите курсор на ссылку рис.11 и нажмите левую клавишу мыши, тогда Вы сможете посмотреть различные варианты визуализации

 

Визуальная аналитика Knowledge Netwoks (сетей знаний), извлеченных из текстов, осуществляется в рамках Knowledge Cartography (Картографии Знаний) [11]. Также отметим, что визуализация сетей знаний широко используется в современных направлениях Web - Intelligence (Интеллектуальный Web) [12]. С примерами визуализации Knowledge Netwoks заинтересованный читатель может ознакомиться на персональном сайте Chaomei Chen ( http://www.pages.drexel.edu/~cc345 ). На рис. 12-13 представлены варианты визуализации сетей научных знаний.

Рис.12

Визуализация сети научных знаний

( http://www.visualcomplexity.com/vc/index.cfm?domain=Knowledge%20Networks )

Рис.13

Визуализация сети научных знаний

( http://www.pages.drexel.edu/~cc345 )

 

Отметим, что визуализация сетей знаний часто осуществляется в визуальных лабораториях [7,13], что дает дополнительные возможности для информационного дизайна в Visual Text Analytics (см. рис.14).

Рис.14

HIPerWall для Visual Text Analytics

( http://databeautiful.net/category/dnas-of-global-culture )

 

 

 

Для визуальной аналитики сетей знаний используются технологии 3D виртуальной визуализации (CAVE, I-Wall, I-Desk, SGI), Collaborative, Interactive Immersive Visualization [цит. по 7] (см. рис.15).

Рис.15

CAVE Automatic Virtual Environment для интерактивной визуальной аналитики сетей знаний

( http://www.ceap.wcu.edu/Houghton/MM/ch6/cave.jpg )

 

 

Для Visual Text Analytics потоков текстовой информации и сетей знаний в режиме реального времени в Интернете, используется Visual Supercomputing [13].  С оригинальными дизайнерскими решениями визуализации потоков текстовой информации в Интернете заинтересованный читатель может ознакомиться на сайтах The Cooperative Association for Internet Data Analysis (CAIDA)  (http://www.caida.org ) и Cyber-Geography Research  ( http://personalpages.manchester.ac.uk/staff/m.dodge/cybergeography ). На рис. 16-17 представлены некоторые примеры визуализации потоков текстовой информации в Интернете, полученные с помощью Visual Supercomputing.

 

Рис.16

Визуализация потоков текстовой информации в Интернете

( http://www.caida.org/tools/visualization/walrus/gallery1 )

   

 

Рис.17

Semantic Web

 

[Цит. по 13]

 

Визуализация, представленная на рис. 17, показывает системному социологу, что в анализируемой текстовой информационной системе действуют известные общесистемные закономерности строения и динамики сложных адаптивных динамических систем, scale-free networks («безмасштабных сетей»), фрактальных закономерностей и т.д. [14-15] .

 

Заключение

Информационный дизайн в Visual Text Analytics - это современный, мощный, полезный и красивый аналитический инструмент системного социолога, который объединяет Науку и Искусство. Процесс использования (разработки) информационного дизайна для Visual Text Analytics, позволяет исследователю эффективно реализовать системный синтез «Объяснения» и «Понимания» текстовой информации.

 

Приглашаем обсудить эту статью в форуме.

 

СПИСОК ЛИТЕРАТУРЫ

  1. Simoff S., Böhlen M., Mazeika A. Visual Data Mining: Theory, Techniques and Tools for Visual Analytics. Berlin.: Springer, www
  2. Do Prado A., Ferneda E. Emerging Technologies of Text Mining: Techniques and Applications. London.: Idea Group Reference, 2007.
  3. Feldman R., Sanger J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge.: Cambridge University Press, 2006.
  4. Keim D., Schneidewind J. Introduction to the Special Issue on Visual Analytics. ( http://www.sigkdd.org/explorations/issues/9-2-2007-12/0_intro.pdf ).
  5. Давыдов А.А. Качественные исследования: перспективы развития. М.: ИСАН, www ( https://www.isras.ru/index.php?page_id=922 )
  6. Давыдов А.А. Системная социология: изучение и использование Collaborative Tagging Systems. М.: ИСАН, www  ( https://www.isras.ru/index.php?page_id=951 )
  7. Давыдов А.А. Конкурентные преимущества системной социологии. (Электронное издание) М.: ИСАН, www ( https://www.isras.ru/publ.html?id=855http://www.ecsocman.edu.ru/db/msg/324618.html )
  8. O'Grady J., O'Grady K. The Information Design Handbook. N.Y.: How, www
  9. Lipton R. The Practical Guide to Information Design. N.Y.: Wiley, 2007.
  10. https://www.isras.ru/Magazines.html 
  11.  http://www.knowledgecartography.org/#images  
  12. Давыдов А.А. Развитие Интернет-технологий - вызов современной российской социологии. М.: ИСАН, www ( https://www.isras.ru/index.php?page_id=957 )
  13. Давыдов А.А. Системная социология: визуальный суперкомпьютинг взаимодействий пользователей Интернета. Доклад. М.: ИС РАН, www ( https://www.isras.ru/index.php?page_id=120&id=372 )
  14. Давыдов А.А. Системный подход в социологии: новые направления, теории и методы анализа социальных систем. М.: Эдиториал УРСС, 2005.
  15. Давыдов А.А. Системная социология. М.: Эдиториал УРСС, 2006.