1. Distant Approaches to the Printed Page
- Author
-
James Dobson and Scott Sanders
- Subjects
text mining ,computer vision ,materialism ,book history ,fouille de texte ,vision par ordinateur ,History of scholarship and learning. The humanities ,AZ20-999 ,Electronic computers. Computer science ,QA75.5-76.95 - Abstract
Laurence Sterne’s novel – The Life and Opinions of Tristram Shandy, Gentlemen – includes a tongue-and-cheek moment that prefigures distant reading. Near the end of the sixth volume, the narrator represents uncle Toby’s story as a meandering line with unexpected twists and predictable turns. The narrator’s precise line is inserted between two paragraphs. Its shape reminds the reader of the book’s tangential plot. But it also brings the reader back to the material contours of the story. It is a story that comes into being from the organization of lines and paragraphs on the printed page. The narrator’s precise line exists as a material object, in the middle of page 407 in volume 6 of the 1762 Lynch edition. The line gestures towards the physical space that it inhabits. In order to interpret its contours, the reader should also take into account the shape, organization and size of the printed page.This type of material analysis is under-represented in computational humanities, the majority of which has addressed segmented objects at the level of the book—actually, at the level of collections of books. The most common category of this text segmentation procedure is natural to literary scholars: the separation of individual works from within a larger collection of texts. Other categories or types of text segmentation might include the segmentation and parcellation of a longer text into its component chapters or automated algorithmically-defined procedures that ignore chapter and paragraph boundaries to cut a text or collection of texts into equally sized units of words. Segmentation enables comparison of textual objects to determine smaller effects—signals that within the larger stream of words might otherwise be lost.There has been some interest in examining individual sentences. Sarah Allison, Marissa Gemma, Ryan Heuser, Franco Moretti, Amir Tevel, and Irena Yamboliev argue that “style” exists at the level or scale of the sentence. Thematic units, however, as Mark Algee-Hewitt, Ryan Heuser, and Franco Moretti argue, might be best captured at the level of the paragraph. Sentences and paragraphs are two different units of segmentation that are both connected with linear, human reading practices. However, segmenting a text into paragraphs rids us of information about the appearance of the paragraph and its relation to the rest of the page remains occluded. Where, for example, does a particular paragraph appear in the space of the page? Are there gaps between paragraphs? Are there printed ornaments, illustrations or annotations? When digital humanists erase the footnotes from Walter Scott’s novels, the marginalia from Bunyan’s Pilgrim’s Progress and the irreverent experimental pages from Tristram Shandy, they lose the page-level context with which these texts are presented. Le roman Vie et Opinions de Tristram Shandy gentilhomme de Laurence Sterne inclut un momentironique qui préfigure la lecture à distance. Vers la fin du sixième tome, le narrateur décrit l’histoire de l’once Toby comme une ligne sinueuse avec des rebondissements inattendus et des tournures prévisibles. Les lignes précises du narrateur sont insérées entre deux paragraphes. Sa forme rappelle la tangente de l’intrigue au lecteur. Mais aussi, elle rappelle le lecteur du contour matériel de l’histoire. C’est une histoire qui voit le jour à partir d’une organisation de lignes et paragraphes sur des pages imprimées. Les lignes précises du narrateur existent en tant qu’objet matériel, dans le milieu de la page 407 du volume six de l’édition Lynch de 1762. Cette ligne fait signe à l’espace physique que celle-ci habite. Afin d’interpréter ces contours, le lecteur doit alors tenir compte de la forme, de l’organisation et de la grosseur de la page. Ce type de matériel d’analyse est sous-représenté dans le domaine des humanités informatiques, dont la majorité s’adresse à des objets segmentés au niveau du livre – et même au niveau des collections de livres. La catégorie la plus commune de cette procédure segmentée est naturelle pour les spécialistes littéraires : la séparation de travaux individuels au sein de collections de textes plus larges. D’autres catégories ou types de textes segmentés peuvent inclurent la division et le morcellement d’un texte long dans son chapitre ou des procédures algorithmiques définies et automatisées qui ignorent les limites de chapitre ou paragraphe et coupent un texte ou une collection de textes en unités de mots de la même taille. Cette division permet la comparaison d’objets textuels pour déterminer de plus petits effets – des signaux qui seraient autrement perdus dans le flux de mots plus large. Il y a de l’intérêt pour examiner les phrases individuelles. Sarah Allison, Marissa Gemma, Ryan Heuser, Franco Moretti, Amir Tevel et Irena Yamboliev soutiennent que le « style » existe au niveau ou à l’échelle de la phrase. Toutefois, comme Mark Algee-Hewitt,Ryan Heuser et Franco Moretti soutiennent, les unités thématiques pourraient être mieux capturées au niveau du paragraphe. Les phrases et paragraphes sont deux unités de segmentation différentes qui sont toutes deux connectées aux pratiques humaines de lecture linéaire. Cependant, diviser un texte en paragraphes nous enlève l’information sur l’apparence du paragraphe et les relations au reste de la page demeurent obstruées. Par exemple, où est-ce qu’un paragraphe particulier apparait sur la page? Est-ce qu’il y a des espaces entre les paragraphes? Est-ce qu’il y a des décorations, illustrations ou annotations imprimées sur la page? Lorsque les humanités numériques effacent les notes de bas de page de romans de Walter Scott, les notes marginales de Le Voyage du pèlerin de Bunyan et les pages expérimentales impertinentes de Tristam Shandy, ils perdent le contexte au niveau de la page dans lequel ces textes sont présentés.
- Published
- 2022
- Full Text
- View/download PDF