292 results on '"Eisert, Peter"'
Search Results
252. Mirror-Based Multi-View Analysis of Facial Motions
- Author
-
Rurainsky, Jurgen, primary and Eisert, Peter, additional
- Published
- 2007
- Full Text
- View/download PDF
253. Creation of High-Resolution Video Panoramas of Sport Events
- Author
-
Fehn, Christoph, primary, Weissig, Christian, additional, Feldmann, Ingo, additional, Muller, Markus, additional, Eisert, Peter, additional, Kauff, Peter, additional, and BloB, Hans, additional
- Published
- 2006
- Full Text
- View/download PDF
254. 3D Video and Free Viewpoint Video - Technologies, Applications and MPEG Standards
- Author
-
Smolic, Aljoscha, primary, Mueller, Karsten, additional, Merkle, Philipp, additional, Fehn, Christoph, additional, Kauff, Peter, additional, Eisert, Peter, additional, and Wiegand, Thomas, additional
- Published
- 2006
- Full Text
- View/download PDF
255. Towards Robust Intuitive Vision-Based User Interfaces
- Author
-
Schreer, Oliver, primary, Eisert, Peter, additional, Kauff, Peter, additional, Tanger, Ralf, additional, and Englert, Roman, additional
- Published
- 2006
- Full Text
- View/download PDF
256. Reconstruction of Volumetric 3D Models
- Author
-
Eisert, Peter, primary
- Published
- 2005
- Full Text
- View/download PDF
257. Immersive 3D video conferencing: challenges, concepts, and implementation
- Author
-
Eisert, Peter, primary
- Published
- 2003
- Full Text
- View/download PDF
258. MPEG-4 facial animation in video analysis and synthesis
- Author
-
Eisert, Peter, primary
- Published
- 2003
- Full Text
- View/download PDF
259. Tracking and Retexturing Cloth for Real-Time Virtual Clothing Applications.
- Author
-
Hilsmann, Anna and Eisert, Peter
- Abstract
In this paper, we describe a dynamic texture overlay method from monocular images for real-time visualization of garments in a virtual mirror environment. Similar to looking into a mirror when trying on clothes, we create the same impression but for virtually textured garments. The mirror is replaced by a large display that shows the mirrored image of a camera capturing e.g. the upper body part of a person. By estimating the elastic deformations of the cloth from a single camera in the 2D image plane and recovering the illumination of the textured surface of a shirt in real time, an arbitrary virtual texture can be realistically augmented onto the moving garment such that the person seems to wear the virtual clothing. The result is a combination of the real video and the new augmented model yielding a realistic impression of the virtual piece of cloth. [ABSTRACT FROM AUTHOR]
- Published
- 2009
- Full Text
- View/download PDF
260. Model-based enhancement of lighting conditions in image sequences
- Author
-
Eisert, Peter, primary and Girod, Bernd, additional
- Published
- 2002
- Full Text
- View/download PDF
261. Real-Time Avatar Animation Steered by Live Body Motion.
- Author
-
Roli, Fabio, Vitulano, Sergio, Schreer, Oliver, Tanger, Ralf, Eisert, Peter, Kauff, Peter, Kaspar, Bernhard, and Englert, Roman
- Abstract
The future customer service provided by call centres will be changed due to new web-based interactive multimedia technologies. Technical support will be offered in a completely new way by using advanced image processing technologies and natural representation of virtual humans. We present a prototype system of an animated avatar, which is steered by live body motion of the operator in a call centre. The hand and head motion is transferred directly to the avatar at the customer side in order to support a more natural representation of the virtual human. The system tracks the operators hands and the head motion quite robust in real-time without specific initialization based on a monocular camera. [ABSTRACT FROM AUTHOR]
- Published
- 2005
- Full Text
- View/download PDF
262. Immersive 3D video conferencing: challenges, concepts, and implementation.
- Author
-
Eisert, Peter
- Published
- 2003
- Full Text
- View/download PDF
263. Multiview image coding with depth maps and 3D geometry for prediction.
- Author
-
Magnor, Marcus, Eisert, Peter, and Girod, Bernd
- Published
- 2000
- Full Text
- View/download PDF
264. Data Fusion for Cross-Domain Real-Time Object Detection on the Edge.
- Author
-
Kovalenko, Mykyta, Przewozny, David, Eisert, Peter, Bosse, Sebastian, and Chojecki, Paul
- Subjects
- *
OBJECT recognition (Computer vision) , *CONVOLUTIONAL neural networks , *MULTISENSOR data fusion , *ROBOT control systems - Abstract
We investigate an edge-computing scenario for robot control, where two similar neural networks are running on one computational node. We test the feasibility of using a single object-detection model (YOLOv5) with the benefit of reduced computational resources against the potentially more accurate independent and specialized models. Our results show that using one single convolutional neural network (for object detection and hand-gesture classification) instead of two separate ones can reduce resource usage by almost 50 % . For many classes, we observed an increase in accuracy when using the model trained with more labels. For small datasets (a few hundred instances per label), we found that it is advisable to add labels with many instances from another dataset to increase detection accuracy. [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
265. Digital watermarking of MPEG-4 facial animation parameters
- Author
-
Hartung, Frank, primary, Eisert, Peter, additional, and Girod, Bernd, additional
- Published
- 1998
- Full Text
- View/download PDF
266. Motion-based analysis and segmentation of image sequences using 3-D scene models
- Author
-
Steinbach, Eckehard, primary, Eisert, Peter, additional, and Girod, Bernd, additional
- Published
- 1998
- Full Text
- View/download PDF
267. Personalization of Statistical Face Models for Tracking and Animation.
- Author
-
Kettern, Markus, Hilsmann, Anna, and Eisert, Peter
- Published
- 2015
- Full Text
- View/download PDF
268. Realness of face images can be decoded from non-linear modulation of EEG responses.
- Author
-
Chen, Yonghao, Stephani, Tilman, Bagdasarian, Milena Teresa, Hilsmann, Anna, Eisert, Peter, Villringer, Arno, Bosse, Sebastian, Gaebler, Michael, and Nikulin, Vadim V.
- Subjects
- *
VISUAL evoked potentials , *ELECTROENCEPHALOGRAPHY , *DIGITAL technology , *EYE - Abstract
Artificially created human faces play an increasingly important role in our digital world. However, the so-called uncanny valley effect may cause people to perceive highly, yet not perfectly human-like faces as eerie, bringing challenges to the interaction with virtual agents. At the same time, the neurocognitive underpinnings of the uncanny valley effect remain elusive. Here, we utilized an electroencephalography (EEG) dataset of steady-state visual evoked potentials (SSVEP) in which participants were presented with human face images of different stylization levels ranging from simplistic cartoons to actual photographs. Assessing neuronal responses both in frequency and time domain, we found a non-linear relationship between SSVEP amplitudes and stylization level, that is, the most stylized cartoon images and the real photographs evoked stronger responses than images with medium stylization. Moreover, realness of even highly similar stylization levels could be decoded from the EEG data with task-related component analysis (TRCA). Importantly, we also account for confounding factors, such as the size of the stimulus face's eyes, which previously have not been adequately addressed. Together, this study provides a basis for future research and neuronal benchmarking of real-time detection of face realness regarding three aspects: SSVEP-based neural markers, efficient classification methods, and low-level stimulus confounders. [ABSTRACT FROM AUTHOR]
- Published
- 2024
- Full Text
- View/download PDF
269. Image-based measurement by instrument tip tracking for tympanoplasty using digital surgical microscopy
- Author
-
Fei, Baowei, Linte, Cristian A., Gard, Niklas, Rosenthal, Jean-Claude, Jurk, Silvio, Schneider, Armin, and Eisert, Peter
- Published
- 2019
- Full Text
- View/download PDF
270. Texturbasierte Gesichtsanimation/Retargeting.
- Author
-
Eisert, Peter, Hilsmann, Anna, and Paier, Wolfgang
- Published
- 2016
271. INTERAKTIVES TRACKING SICH DEFORMIERENDER OBERFLÄCHEN.
- Author
-
EISERT, PETER and ROMMEL, ANNE
- Published
- 2018
272. Assessing the Value of Multimodal Interfaces: A Study on Human–Machine Interaction in Weld Inspection Workstations.
- Author
-
Chojecki, Paul, Strazdas, Dominykas, Przewozny, David, Gard, Niklas, Runde, Detlef, Hoerner, Niklas, Al-Hamadi, Ayoub, Eisert, Peter, and Bosse, Sebastian
- Subjects
- *
WELDING inspection , *MULTIMODAL user interfaces , *USER interfaces , *WORKBENCHES - Abstract
Multimodal user interfaces promise natural and intuitive human–machine interactions. However, is the extra effort for the development of a complex multisensor system justified, or can users also be satisfied with only one input modality? This study investigates interactions in an industrial weld inspection workstation. Three unimodal interfaces, including spatial interaction with buttons augmented on a workpiece or a worktable, and speech commands, were tested individually and in a multimodal combination. Within the unimodal conditions, users preferred the augmented worktable, but overall, the interindividual usage of all input technologies in the multimodal condition was ranked best. Our findings indicate that the implementation and the use of multiple input modalities is valuable and that it is difficult to predict the usability of individual input modalities for complex systems. [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
273. SANE A--The Male Perspective.
- Author
-
Eisert, Peter
- Abstract
A personal narrative is presented which explores the author's experience of joining a sexual assault forensic examiner (SAFE) team.
- Published
- 2010
274. Continuous intraoperative perfusion monitoring of free microvascular anastomosed fasciocutaneous flaps using remote photoplethysmography.
- Author
-
Schraven, Sebastian P., Kossack, Benjamin, Strüder, Daniel, Jung, Maximillian, Skopnik, Lotte, Gross, Justus, Hilsmann, Anna, Eisert, Peter, Mlynski, Robert, and Wisotzky, Eric L.
- Subjects
- *
INTRAOPERATIVE monitoring , *PHOTOPLETHYSMOGRAPHY , *PLASTIC surgery , *FREE flaps , *SURGICAL complications , *PERFUSION - Abstract
Flap loss through limited perfusion remains a major complication in reconstructive surgery. Continuous monitoring of perfusion will facilitate early detection of insufficient perfusion. Remote or imaging photoplethysmography (rPPG/iPPG) as a non-contact, non-ionizing, and non-invasive monitoring technique provides objective and reproducible information on physiological parameters. The aim of this study is to establish rPPG for intra- and postoperative monitoring of flap perfusion in patients undergoing reconstruction with free fasciocutaneous flaps (FFCF). We developed a monitoring algorithm for flap perfusion, which was evaluated in 15 patients. For 14 patients, ischemia of the FFCF in the forearm and successful reperfusion of the implanted FFCF was quantified based on the local signal. One FFCF showed no perfusion after reperfusion and devitalized in the course. Intraoperative monitoring of perfusion with rPPG provides objective and reproducible results. Therefore, rPPG is a promising technology for standard flap perfusion monitoring on low costs without the need for additional monitoring devices. [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
275. Telepresence for surgical assistance and training using eXtended reality during and after pandemic periods.
- Author
-
Wisotzky, Eric L, Rosenthal, Jean-Claude, Meij, Senna, van den Dobblesteen, John, Arens, Philipp, Hilsmann, Anna, Eisert, Peter, Uecker, Florian Cornelius, and Schneider, Armin
- Abstract
Existing challenges in surgical education (See one, do one, teach one) as well as the COVID-19 pandemic make it necessary to develop new ways for surgical training. Therefore, this work describes the implementation of a scalable remote solution called “TeleSTAR” using immersive, interactive and augmented reality elements which enhances surgical training in the operating room. The system uses a full digital surgical microscope in the context of Ear–Nose–Throat surgery. The microscope is equipped with a modular software augmented reality interface consisting an interactive annotation mode to mark anatomical landmarks using a touch device, an experimental intraoperative image-based stereo-spectral algorithm unit to measure anatomical details and highlight tissue characteristics. The new educational tool was evaluated and tested during the broadcast of three live XR-based three-dimensional cochlear implant surgeries. The system was able to scale to five different remote locations in parallel with low latency and offering a separate two-dimensional YouTube stream with a higher latency. In total more than 150 persons were trained including healthcare professionals, biomedical engineers and medical students. [ABSTRACT FROM AUTHOR]
- Published
- 2023
- Full Text
- View/download PDF
276. Compact and efficient representations of deep neural networks
- Author
-
Wiedemann, Simon, Müller, Klaus-Robert, Technische Universität Berlin, Eisert, Peter, and Stabernack, Benno
- Subjects
effiziente Tiefe neuronaler Netze ,machine learning ,Tiefe neuronaler Netze ,deep neural network ,maschinelles Lernen ,Kompression ,ddc:004 ,004 Datenverarbeitung ,Informatik ,compression ,Informationstheorie ,information theory ,efficient deep learning - Abstract
The past decade has experienced blistering progress in artificial intelligence, achieving several breakthroughs in a wide range of tasks such as image classification, voice and object recognition, translation, media generation, etc.; to even mastering the game of Go at superhuman levels. Most of the successes were achieved thanks to deep neural networks (DNNs), a particular class of machine learning algorithms that are able to capture complex patterns from large amounts of data. However, DNNs suffer from the caveat that they need to be equipped with vast amounts of parameters in order to learn meaningful representations from them, so much so that, in practice, most state-of-the-art models have hundreds of millions of parameters, and can sometimes even reach the billions. This renders DNN models to be very resource-hungry, requiring high amounts of memory, compute power, and expensive hardware components in order to be executed. Consequently, deploying DNNs becomes unfeasible for a wide set of real-world use-cases, especially if inference on resource-constraint devices such as mobile phones or micro-controllers is required, thus hindering their wide adoption in the market. Motivated by this issue, in this thesis we study methods that aim to reduce the memory and processing complexity of DNN models. In particular, our contributions mainly focus on reducing their memory requirements, since the communication of information incurs the highest costs (in terms of speed, power, and economical costs) among all types of operations. Our approach consists of firstly characterizing the information content entailed in the model's parameters and then devising methods for minimizing it. We put particular focus on the design of compression algorithms that output highly compact representations of them. To this end, we propose two types of algorithms with different characteristics: (1) DeepCABAC, outputs maximally compact representations but does not trivially reduce the complexity for performing inference, (2) CER & CSER, output compact and computationally efficient representations simultaneously. Finally, we devise a specialized hardware architecture, named FantastIC4, that is able to leverage compressed representations in order to attain a highly efficient execution engine of DNNs. Our experimental results show that our compression techniques achieve up to x51 size reduction on average and that we can reduce the number of required operations for inference by x5.53. Moreover, with our hardware architecture we were able to increase the area efficiency (GOPS/mm2) for performing inference by up to x115, two orders of magnitude better as compared to previous approaches., Das letzte Jahrzehnt hat einen rasanten Fortschritt im Bereich der k��nstlichen Intelligenz erlebt. Mehrere Durchbr��che bei einer Vielzahl von Aufgaben wurden erzielt, wie z. B. bei der Bildklassifizierung, der Sprach- und Objekterkennung, der au- tomatisierten ��bersetzung, Mediengenerierung usw.; bis hin zu einer Spielst��rke bei Go auf einem ��bermenschlichen Niveau. Grosse Teile dieser Erfolge wurden dank tiefe neuronaler Netze (DNNs) erzielt, einer besonderen Klasse von Algorithmen f��r Maschinelles Lernen, die in der Lage sind, komplexe Muster aus gro��en Datenmengen zu erfassen. DNNs haben jedoch den Nachteil, dass sie mit Unmengen von Parametern ausgestattet werden m��ssen, um sinnvolle Repr��sentationen aus den Daten erlernen zu k��nnen. Dies f��hrt dazu, dass in der Praxis die meisten Modelle, die auf dem Stand der Technik sind, Hunderte von Millionen von Parametern haben und manchmal sogar die Milliardengrenze erreichen. Dadurch sind DNN-Modelle sehr ressourcenhungrig, ben��tigen hohe Mengen an Speicher, Rechenleistung und teure Hardwarekomponenten um ausgef��hrt werden zu k��nnen. Infolgedessen wird der Einsatz von DNNs f��r eine Vielzahl von realen Anwendungsf��llen unm��glich, insbesondere wenn die Inferenz auf ressourcenbeschr��nkten Ger��ten wie Mobiltelefonen oder Mikrocontrollern erforderlich ist. Dies erschwert deren breite Marktakzeptanz und dadurch die Weiterentwicklung von intelligenten Produkten, die der Gesellschaft zugutekommen k��nnten. Motiviert durch dieses Problem, untersuchen wir in dieser Dissertation Meth- oden, die darauf abzielen, den Speicherbedarf und die Verarbeitungskomplexit��t von DNN Modellen zu reduzieren. Insbesondere konzentrieren sich unsere Beitr��ge auf die Verringerung von Speicherbedarf, da die Datenkommunikation unter allen Arten von Operationen die h��chsten ���Kosten��� verursacht (Geschwindigkeit, Energie und wirtschaftliche Kosten). Unser Ansatz besteht darin zun��chst den Informationsgehalt, der in den Modellparametern steckt, zu charakterisieren und an- schlie��end Methoden zu entwickeln, die diese minimieren. Wir legen besonderen Fokus auf den Entwurf von Kompressionsalgorithmen, die hochkompakte Repr��senationen dieser Daten ausgeben. Wir schlagen zwei Methoden mit jeweils unter- schiedlichen Eigenschaften vor: (1) DeepCABAC: Besteht aus einem Kompressionsalgorithmus, der maximal kompakte Repr��sentationen der DNN-Parameter ausgibt. Dadurch wird der Speicherbedarf drastisch reduziert, jedoch die Rechenkomplexit��t der Inferenz durch den Algorithmus vernachl��ssigt. (2) CER & CSER: Besteht aus zwei Kompressionsalgorithmen, die hoch kompakte Repr��sentationen ausgeben und gleichzeitig die Rechenkomplexit��t reduzieren. Schlie��lich entwickeln wir eine spezielle Hardwarearchitektur, die wir Fantas- tIC4 benannt haben. Diese macht sich komprimierte Repr��sentationen der DNNs zu Nutze, um deren hocheffiziente Ausf��hrung zu erreichen. Unsere experimentellen Ergebnisse zeigen, dass unsere Komprimierungstechniken im Durchschnitt eine Gr����enreduktion von bis zu x51 erreichen und, dass wir die Anzahl der erforderlichen Operationen f��r die Inferenz um x5.53 reduzieren k��nnen. Au��erdem konnten wir mit FantastIC4 die Fl��cheneffizienz (GOPS/mm2) f��r die Durchf��hrung von DNNs um bis zu x115 erh��hen, zwei Gr����enordnungen besser als bei bisherigen Ans��tzen.
- Published
- 2022
- Full Text
- View/download PDF
277. Multi-View Motion Capture based on Model Adaptation
- Author
-
Fechteler, Philipp, Reulke, Ralf, Eisert, Peter, and Alexa, Marc
- Subjects
ST 330 ,Motion Capture ,Skinning ,ddc:000 ,000 Informatik, Informationswissenschaft, allgemeine Werke ,model adaptation ,Modellierung von Menschen ,human modeling ,Modellanpassung - Abstract
Fotorealistische Modellierung von Menschen ist in der Computer Grafik von besonderer Bedeutung, da diese allgegenwärtig in Film- und Computerspiel-Produktionen benötigt wird. Heutige Modellierungs-Software vereinfacht das Generieren realistischer Modelle. Hingegen ist das Erstellen realitätsgetreuer Abbilder real existierender Personen nach wie vor eine anspruchsvolle Aufgabe. Die vorliegende Arbeit adressiert die automatische Modellierung von realen Menschen und die Verfolgung ihrer Bewegung. Ein Skinning-basierter Ansatz wurde gewählt, um effizientes Generieren von Animationen zu ermöglichen. Für gesteigerte Realitätstreue wurde eine artefaktfreie Skinning-Funktion um den Einfluss mehrerer kinematischer Gelenke erweitert. Dies ermöglicht eine große Vielfalt an real wirkenden komplexen Bewegungen. Zum Erstellen eines Personen-spezifischen Modells wird hier ein automatischer, datenbasierter Ansatz vorgeschlagen. Als Eingabedaten werden registrierte, geschlossene Beispiel-Meshes verschiedener Posen genutzt. Um bestmöglich die Trainingsdaten zu approximieren, werden in einer Schleife alle Komponenten des Modells optimiert: Vertices, Gelenke und Skinning-Gewichte. Zwecks Tracking von Sequenzen verrauschter und nur teilweise erfasster 3D Rekonstruktionen wird ein markerfreier modelladaptiver Ansatz vorgestellt. Durch die nicht-parametrische Formulierung werden die Gelenke des generischen initialien Tracking-Modells uneingeschränkt optimiert, als auch die Oberfläche frei deformiert und somit individuelle Eigenheiten des Subjekts extrahiert. Integriertes a priori Wissen über die menschliche Gestalt, extrahiert aus Trainingsdaten, gewährleistet realistische Modellanpassungen. Das resultierende Modell mit Animationsparametern ist darauf optimiert, bestmöglich die Eingabe-Sequenz wiederzugeben. Zusammengefasst ermöglichen die vorgestellten Ansätze realitätsgetreues und automatisches Modellieren von Menschen und damit akkurates Tracking aus 3D Daten. Photorealistic modeling of humans in computer graphics is of special interest because it is required for modern movie- and computer game productions. Modeling realistic human models is relatively simple with current modeling software, but modeling an existing real person in detail is still a very cumbersome task. This dissertation focuses on realistic and automatic modeling as well as tracking human body motion. A skinning based approach is chosen to support efficient realistic animation. For increased realism, an artifact-free skinning function is enhanced to support blending the influence of multiple kinematic joints. As a result, natural appearance is supported for a wide range of complex motions. To setup a subject-specific model, an automatic and data-driven optimization framework is introduced. Registered, watertight example meshes of different poses are used as input. Using an efficient loop, all components of the animatable model are optimized to closely resemble the training data: vertices, kinematic joints and skinning weights. For the purpose of tracking sequences of noisy, partial 3D observations, a markerless motion capture method with simultaneous detailed model adaptation is proposed. The non-parametric formulation supports free-form deformation of the model’s shape as well as unconstrained adaptation of the kinematic joints, thereby allowing to extract individual peculiarities of the captured subject. Integrated a-prior knowledge on human shape and pose, extracted from training data, ensures that the adapted models maintain a natural and realistic appearance. The result is an animatable model adapted to the captured subject as well as a sequence of animation parameters, faithfully resembling the input data. Altogether, the presented approaches provide realistic and automatic modeling of human characters accurately resembling sequences of 3D input data.
- Published
- 2019
278. Real-time 3D-based Virtual Eye Contact for Video Communication
- Author
-
Waizenegger, Wolfgang, Eisert, Peter, Reulke, Ralf, and Sikora, Thomas
- Subjects
Augenkontakt ,Grafikkarte ,GPU ,graphics card ,real-time ,CUDA ,eye contact ,Rechnersehen ,computer vision ,image processing ,ST 330 ,ddc:000 ,Echtzeit ,000 Informatik, Informationswissenschaft, allgemeine Werke ,Bildverarbeitung ,3D - Abstract
Das Problem des fehlenden Augenkontaktes vermindert den Eindruck einer natürlichen Kommunikationssituation bei Videokonferenzen. Während eine Person auf den Bildschirm blickt, wird sie von Kameras aufgenommen, die sich normalerweise direkt daneben befinden. Mit dem Aufkommen von massiv paralleler Computer Hardware und ganz speziell den sehr leistungsstarken Spielegrafikkarten ist es möglich geworden, viele Eingabeansichten für eine Echtzeit 3D Rekonstruktion zu verarbeiten. Eine größere Anzahl von Eingabeansichten mildert Verdeckungsprobleme ab und führt zu vollständigeren 3D Daten. In dieser Arbeit werden neue Algorithmen vorgeschlagen, welche eine hochqualitative Echtzeit 3D Rekonstruktion, die kontinuierliche Anpassung der photometrischen Kameraparameter und die benutzerunabhängige Schätzung der Augenkontaktkameras ermöglichen. Die Echtzeit 3D Analyse besteht aus zwei komplementären Ansätzen. Einerseits gibt es einen Algorithmus, der auf der Verarbeitung geometrischer Formen basiert und auf der anderen Seite steht eine patchbasierte Technik, die 3D Hypothesen durch das Vergleichen von Bildtexturen evaluiert. Zur Vorbereitung für die Bildsynthese ist es notwendig, Texturen von verschiedenen Ansichten anzugleichen. Hierfür wird die Anwendung eines neuen Algorithmus zur kontinuierlichen photometrischen Justierung der Kameraparameter vorgeschlagen. Die photometrische Anpassung wird iterativ, im Wechsel mit einer 3D Registrierung der entsprechenden Ansichten, ausgeführt. So ist die Qualität der photometrischen Parameter direkt mit jener der Ergebnisse der 3D Analyse verbunden und vice versa. Eine weitere wichtige Voraussetzung für eine korrekte Synthese der Augenkontaktansicht ist die Schätzung einer passenden virtuellen Augenkontaktkamera. Hierfür wird die Augenkontaktkamera kontinuierlich an die Augenposition der Benutzer angeglichen. Auf diese Weise wird eine virtuelle Kommunikationsumgebung geschaffen, die eine natürlichere Kommunikation ermöglicht. A major problem, that decreases the naturalness of conversations via video communication, is missing eye contact. While a person is looking on the display, she or he is recorded from cameras that are usually attached next to the display frame. With the advent of massively parallel computer hardware and in particular very powerful consumer graphics cards, it became possible to simultaneously process multiple input views for real-time 3D reconstruction. Here, a greater amount of input views mitigate occlusion problems and lead to a more complete set of 3D data that is available for view synthesis. In this thesis, novel algorithms are proposed that enable for high quality real-time 3D reconstruction, the on-line alignment of photometric camera parameters, and the automatic and user independent estimation of the eye contact cameras. The real-time 3D analysis consist of two complementary approaches. On the one hand, a shape based algorithm and on the other hand, a patch based technique that evaluates 3D hypotheses via comparison of image textures. Preparative to rendering, texture from multiple views needs to be aligned. For this purpose, a novel algorithm for photometric on-line adjustment of the camera parameters is proposed. The photometric adjustment is carried out iteratively in alternation with a 3D registration of the respective views. In this way, the quality of photometric parameters is directly linked to the 3D analysis results and vice versa. Based on the textured 3D data, the eye contact view is rendered. An important prerequisite for this task is the estimation of a suitable virtual eye contact camera. In this thesis, a novel approach is formulated that enables for an automatic adaptation to arbitrary new users. Therefor, the eye contact camera is dynamically adapted to the current eye positions of the users. In this way, a virtual communication environment is created that allows for a more natural conversation.
- Published
- 2019
279. 3D real time object recognition
- Author
-
Amplianitis, Konstantinos, Reulke, Ralf, Eisert, Peter, and Tewes, Andreas
- Subjects
Kinect-Sensor ,3D Reconstructions ,ICP registration ,Kinect Sensor ,ICP Registrierung ,3D Mensch Segmentierung ,004 Informatik ,3D Rekonstruktionen ,Bundle Adjustment ,Conditional Random Fields ,3D Object Recognition ,RGBD Data ,ST 330 ,28 Informatik, Datenverarbeitung ,Object Detection ,3D Objekt Erkennung ,ddc:004 ,Objekt Erkennung ,RGBD-Daten ,3D Human Segmentation - Abstract
Die Objekterkennung ist ein natürlicher Prozess im Menschlichen Gehirn. Sie ndet im visuellen Kortex statt und nutzt die binokulare Eigenschaft der Augen, die eine drei- dimensionale Interpretation von Objekten in einer Szene erlaubt. Kameras ahmen das menschliche Auge nach. Bilder von zwei Kameras, in einem Stereokamerasystem, werden von Algorithmen für eine automatische, dreidimensionale Interpretation von Objekten in einer Szene benutzt. Die Entwicklung von Hard- und Software verbessern den maschinellen Prozess der Objek- terkennung und erreicht qualitativ immer mehr die Fähigkeiten des menschlichen Gehirns. Das Hauptziel dieses Forschungsfeldes ist die Entwicklung von robusten Algorithmen für die Szeneninterpretation. Sehr viel Aufwand wurde in den letzten Jahren in der zweidimen- sionale Objekterkennung betrieben, im Gegensatz zur Forschung zur dreidimensionalen Erkennung. Im Rahmen dieser Arbeit soll demnach die dreidimensionale Objekterkennung weiterent- wickelt werden: hin zu einer besseren Interpretation und einem besseren Verstehen von sichtbarer Realität wie auch der Beziehung zwischen Objekten in einer Szene. In den letzten Jahren aufkommende low-cost Verbrauchersensoren, wie die Microsoft Kinect, generieren Farb- und Tiefendaten einer Szene, um menschenähnliche visuelle Daten zu generieren. Das Ziel hier ist zu zeigen, wie diese Daten benutzt werden können, um eine neue Klasse von dreidimensionalen Objekterkennungsalgorithmen zu entwickeln - analog zur Verarbeitung im menschlichen Gehirn. Object recognition is a natural process of the human brain performed in the visual cor- tex and relies on a binocular depth perception system that renders a three-dimensional representation of the objects in a scene. Hitherto, computer and software systems are been used to simulate the perception of three-dimensional environments with the aid of sensors to capture real-time images. In the process, such images are used as input data for further analysis and development of algorithms, an essential ingredient for simulating the complexity of human vision, so as to achieve scene interpretation for object recognition, similar to the way the human brain perceives it. The rapid pace of technological advancements in hardware and software, are continuously bringing the machine-based process for object recognition nearer to the inhuman vision prototype. The key in this eld, is the development of algorithms in order to achieve robust scene interpretation. A lot of recognisable and signi cant e ort has been successfully carried out over the years in 2D object recognition, as opposed to 3D. It is therefore, within this context and scope of this dissertation, to contribute towards the enhancement of 3D object recognition; a better interpretation and understanding of reality and the relationship between objects in a scene. Through the use and application of low-cost commodity sensors, such as Microsoft Kinect, RGB and depth data of a scene have been retrieved and manipulated in order to generate human-like visual perception data. The goal herein is to show how RGB and depth information can be utilised in order to develop a new class of 3D object recognition algorithms, analogous to the perception processed by the human brain.
- Published
- 2017
280. Fuellen von Aufdeckungen in virtuellen Ansichten mittels neuartiger Textur Synthese Verfahren
- Author
-
Köppel, Martin, Ndjiki-Nya, Patrick, Müller, Karsten, Technische Universität Berlin, Wiegend, Thomas, Eisert, Peter, and de With, Peter H. N.
- Subjects
view synthesis ,machine learning ,Textursynthese ,Ansichtssynthese ,inpainting ,ComputingMethodologies_IMAGEPROCESSINGANDCOMPUTERVISION ,000 Informatik, Informationswissenschaft, allgemeine Werke ,ddc:000 ,regression ,maschinelles Lernen ,texture synthesis - Abstract
Stereoscopic Three Dimensional (3-D) video technologies have been established in the mainstream. Many cinemas already show movies in 3-D. Due to the higher visual information, 3-D video technology is increasingly used in other application areas, e.g. medical and logistical applications. However, the need to wear additional glasses to create a 3-D impression for the viewer is regarded as a major obstacle for 3-D video in home environments. The same applies to medical technology where surgery devices or safety goggles hinder the use of additional 3-D glasses. New technologies such as autostereoscopic displays, however, allow the viewer to receive a 3-D impression without the need to wear additional glasses by showing a number of slightly different views (currently 5-32) simultaneously. Since usually only a few real cameras (1-3) are available, the missing views must be calculated. For this purpose, Depth Image-based Rendering (DIBR) can be used to synthesize a number of different perspectives of the same scene, e.g., from a Multiview Video plus Depth (MVD) representation. This MVD format consists of video and depth sequences for a limited number of original camera views of the same natural scene. An inherent problem of the view synthesis concept is the fact that image information which is occluded in the original views may become visible, especially in extrapolated views beyond the viewing range of the original cameras. The presented approaches synthesize these disoccluded textures. The synthesizers achieve visually satisfying results by taking spatial and temporal consistency measures into account. For this purpose, solutions for sequences with both static and dynamic backgrounds are presented. Detailed experiments show significant objective and subjective gains of the proposed methods in comparison to state-of-the-art approaches., Stereoskopische 3-D Technologien haben sich mittlerweile im Mainstream etabliert. Viele Kinos zeigen bereits Filme in 3-D. Aufgrund des hohen visuellen Informationsgehaltes werden 3-D Video Technologien zudem immer häufiger in medizinische und logistische Applikationen integriert. Die Notwendigkeit, eine zusätzliche Brille tragen zu müssen, um einen 3-D Eindruck beim Betrachter zu erzeugen, wird jedoch als großes Hindernis für die Etablierung von 3-D Video im Heimbereich betrachtet. Ähnliches gilt für die Medizintechnik, wo Operationsgeräte oder Schutzbrillen die Verwendung zusätzlicher 3-D Brillen behindern. Neue Technologien, wie autostereoskopische Displays, ermöglichen es dem Zuschauer mittlerweile einen 3-D Eindruck zu vermitteln, ohne dass dieser eine zusätzliche Brille tragen muss. Hierbei werden mehrere Ansichten (derzeit 5-32) einer Szene aus leicht verschobenen Blickwinkeln ausgestrahlt. Da oft nur wenige (1-3) originale Kamerapositionen vorliegen, müssen die Ansichten für die fehlenden Positionen errechnet werden. Hierfür können Depth Image-based Rendering (DIBR) Verfahren verwendet werden. Diese synthetisieren eine Anzahl von unterschiedlichen Perspektiven der gleichen Szene, beispielsweise für das Multiview-Video-plus-Tiefe (MVD) Format. Das MVD Format besteht aus einer begrenzten Anzahl von Videosequenzen derselben Szene und deren zugehörigen Tiefenkarten. Ein Kernproblem beim Rendern mit wenigen Ansichten und den zugehörigen Tiefenkarten besteht jedoch darin, dass in den virtuellen Ansichten Bereiche sichtbar werden, die in allen Originalansichten verdeckt sind. Die vorgestellten Ansätze synthetisieren diese aufgedeckten Bereiche. Die Synthesizer berechnen die neuen Texturen unter Berücksichtigung räumlicher und zeitlicher Kohärenzen. Es werden Syntheseverfahren für Sequenzen mit statischen und dynamischen Hintergründen vorgestellt. Detaillierte Experimente zeigen, dass die vorgestellten Verfahren erhebliche objektive und subjektive Gewinne im Vergleich zu Verfahren erzielen, die dem aktuellen Stand der Technik entsprechen.
- Published
- 2017
281. Accurate and robust neural networks for face morphing attack detection.
- Author
-
Seibold, Clemens, Samek, Wojciech, Hilsmann, Anna, and Eisert, Peter
- Subjects
- *
ARTIFICIAL neural networks , *HUMAN facial recognition software , *BIOMETRIC identification , *CONVOLUTIONAL neural networks , *ROBUST statistics - Abstract
Artificial neural networks tend to use only what they need for a task. For example, to recognize a rooster, a network might only considers the rooster's red comb and wattle and ignores the rest of the animal. This makes them vulnerable to attacks on their decision making process and can worsen their generality. Thus, this phenomenon has to be considered during the training of networks, especially in safety and security related applications. In this paper, we propose neural network training schemes, which are based on different alternations of the training data, to increase robustness and generality. Precisely, we limit the amount and position of information available to the neural network for the decision making process and study their effects on the accuracy, generality, and robustness against semantic and black box attacks for the particular example of face morphing attacks. In addition, we exploit layer-wise relevance propagation (LRP) to analyze the differences in the decision making process of the differently trained neural networks. A face morphing attack is an attack on a biometric facial recognition system, where the system is fooled to match two different individuals with the same synthetic face image. Such a synthetic image can be created by aligning and blending images of the two individuals that should be matched with this image. We train neural networks for face morphing attack detection using our proposed training schemes and show that they lead to an improvement of robustness against attacks on neural networks. Using LRP, we show that the improved training forces the networks to develop and use reliable models for all regions of the analyzed image. This redundancy in representation is of crucial importance to security related applications. [ABSTRACT FROM AUTHOR]
- Published
- 2020
- Full Text
- View/download PDF
282. Detection and recognition of text in videos with low quality
- Author
-
Cobet, Andreas, Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik, Sikora, Thomas, and Eisert, Peter
- Subjects
ddc:620 - Abstract
Text wird oft in Bildern oder Videos zusätzlich übertragen. Der begleitende Text dient dem Betrachter zur schnellen Information über den sachlichen Inhalt des aktuellen Bildes oder Videos. Kann dieser Text automatisch aus dem Video in die Liste der Stichwörter aufgenommen werden, ist eine genauere bzw. umfangreichere Suche in einer Videodatenbank möglich. Durch eine Reihe von Verfahren kann Text aus solchen Videos extrahiert werden. Im Allgemeinen wird der Text dabei in den Bildern detektiert und dann durch eine Schriftzeichenerkennung interpretiert. Eine entscheidende Eigenschaft für die Erkennung von Text in Bildern ist die hohe Dichte der Konturen gegenüber anderen Objekten. Durch die Konturenerkennung nach Canny können diese Konturen gefunden und in ein Konturbild gespeichert werden. Von den einzelnen separierten Schriftzeichen werden dann Merkmale extrahiert, die mit Hilfe eines Klassifikationsverfahrens interpretiert werden können. Je nach Art und Qualität der Videos steigt oder sinkt die Genauigkeit der Ergebnisse. Durch eine Nachbearbeitung kann die Erkennungsrate erhöht werden. Ein Beispiel hierfür ist der Abgleich mit einem Wörterbuch. Alternativ dazu wird in dieser Arbeit ein Verfahren vorgestellt, das die Ergebnisse der Erkennung desselben Textes, der in vielen aufeinanderfolgenden Bildern in dem Video entsteht, über die Zeit mittelt und damit insgesamt Fehler reduziert. Aus der Analyse der Fehler nach der Texterkennung zeigt sich, dass Schriftzeichen an jeder beliebigen Position im gesuchten Wort nicht nur falsch sein können, sondern auch ein Schriftzeichen als viele oder mehrere Schriftzeichen als eins erkannt werden. Daher sind das Erstellen einer Tabelle und das statistische Auszählen der häufigsten Schriftzeichen für jede Position nicht möglich. Mit Hilfe der Levenshtein-Distanz kann der Abstand von zwei Wörtern errechnet werden, d. h. wie viele Schritte minimal benötigt werden, um ein Wort in das andere zu überführen. Für die Berechnung wird ebenfalls eine Matrix erzeugt, aus der mittels der Operatoren „Hinzufügen“, „Entfernen“ oder „Austauschen“ die Umformung des einen Wortes in das andere ausgelesen werden kann. So wird ersichtlich, an welcher Position Fehler gegenüber dem anderen Wort entstanden sind. Diese Berechnung kann dann für jedes Ergebnis der Texterkennung wiederholt und in eine Datenstruktur integriert werden. Aus der Datenstruktur wird nach jedem weiteren integrierten Wort ein repräsentatives und deterministisches Ergebnis ausgelesen. Durch Messung mittels synthetisch generierter Daten wird in dieser Arbeit gezeigt, dass mit jedem in die Datenstruktur integrierten Wort die gesamte Erkennungsrate verbessert werden kann. Durch Experimente mit realen Videos wird ebenfalls nachgewiesen, dass auch hier eine Verbesserung zu erwarten ist. Videos very often include text. This additional text is embedded to provide the viewer faster accessible information about the content of the video. Could it be possible to read all words automatically from the video, and store them into a data base of key words, then a more precise and wider search on a video data base would be possible. By using a set of existing algorithms this text would be extracted from the videos. In general, the text is detected in the first step. In the second step the letters are interpreted by an optical character recognition. A crucial feature of text in images is the edge density compared to other objects. Using an edge detection algorithm introduced by Canny it is possible to find these edges and extract them into a new image. Features from images of single separated letters are extracted, and then interpreted using a classification method. The recognition rate of this procedure is strongly dependent on the quality and type of the video. It is possible to increase this recognition rate by post processing, for example by using a word library. Alternatively a new method is introduced in this theses, which is using the same text area in a set of successive video frames, filter them, and thus reduce the recognition error. After the analysis of the recognition errors it is obvious that any recognized letter at any position within a word can be wrong. Furthermore it is also possible that a letter was completely missed or was recognized as multiple letters. That is why it is not possible to use the simple approach to generate a table of all recognized words and then count and select the most frequent letter at each position. By using the Levenshtein-Distance the distance of two words can be calculated, or in other words, how many steps are required to convert the first word to the second one. This conversion can be achieved by using the three operations “Add”, “Remove”, or “Exchange”. The algorithm for this calculation also generates a matrix, which can be used to identify the required type of operation and position in the word for each conversion step. Due to this information it is obvious which position has different recognition results. This calculation can be performed for each pair of recognized words in the video and then the results can be stored into a data base. After each integrated word it is possible to generate a representative and deterministic word out of this database. Measurements using synthetic generated words demonstrated the improvement of the recognition rate after each integrated word inside the database. The approach is also proven by experiments with real video material.
- Published
- 2015
283. Verfahren zur automatisierten Analyse, Kontrolle und Korrektur von stereoskopischen Verzeichnungen und Parametern für 3D TV-Anwendungen:neue Bildverarbeitungsalgorithmen zur Verbesserung der Effizienz von Stereo- und Multi-Kamera 3D-TV Produktionen
- Author
-
Zilly, Frederik, Sikora, Thomas, Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik, Eisert, Peter, and Hellwich, Olaf
- Subjects
ddc:620 - Abstract
Hintergrund und Motivation für die in der vorliegenden Dissertation getätigten Forschungsarbeiten ist die Digitalisierung der Kino- bzw. Filmproduktion, die vollkommen neue Arbeitsabläufe auf Grundlage von neuen Bilderverarbeitungsalgorithmen erlaubt. Ein besonderes Augenmerk liegt dabei auf stereoskopischen 3D Produktionen und Multi-Kamera-Produktionen. Während eine Vielzahl an 3D Produktionen in den letzten Jahren in die Kinos kam, so blieb das zugrundeliegende Prinzip der stereoskopischen Wiedergabe das gleiche wie von Wheatstones [Wheatstone38] und Brewsters [Brewster56] vorgestellt, d.h. dem Betrachter werden für das linke und rechte Auge zwei Bilder mit leicht unterschiedlichen Perspektiven bereitgestellt. Wenn das Betrachten der 3D-Inhalte allerdings zu unnatürlichen Sehbedingungen führt, z.B. durch zu große Parallaxe, kann dies zu Unwohlsein bei der 3D-Wahrnehmung führen [IJsselsteijn00]. Folglich müssen besondere 3D-Produktionsregeln, wie in [Mendiburu08] und [Knorr12] beschrieben, beachtet werden, um hochwertige 3D-Inhalte zu produzieren. Dies beinhaltet eine genaue Kalibrierung der Kameras mit konsistenten elektronischen und optischen Parametern. Ferner müssen Stereo-Basis und Konvergenzebene der 3D-Szene angepasst werden. Ohne Hilfsmittel oder Assistenzsysteme kann die Auswahl geeigneter stereoskopischer Parameter wie in [Lipton82] beschrieben ein sehr mühevoller Vorgang sein, der gut ausgebildetes Personal benötigt und die Gesamtkosten einer Produktion ansteigen lässt [Buchs11]. Mit der Einführung von digitalen Kinokameras wurde es möglich, 3D-Videoströme zu analysieren und ggf. elektronisch zu korrigieren mittels stereoskopischer Bildverarbeitungsprozessoren (engl. „stereoscopic image processors”) [Zilly10b, Sony]. Diese vereinfachen die oben genannten Aufgaben und erlauben eine kostengünstigere 3D-Produktion bei gesteigerter Qualität des produzierten Materials. Vor diesem Hintergrund wird in der vorliegenden Dissertation ein neues Verfahren für die Schätzung der Kamerapose und Stereo-Rektifizierungsparameter basierend auf einem neuen Verfahren zur Schätzung der Fundamentalmatrix vorgestellt. Der Ansatz wird ferner auf trifokale Kamera-Systeme erweitert mithilfe eines neuen Verfahrens zur Schätzung des trifokalen Tensors. Ferner wird ein neuer Merkmalsdeskriptor (SKB), der für die Korrespondenzpunktanalyse von unkalibrierten Kameras eingesetzt werden kann, vorgestellt und mit bestehenden Verfahren wie SIFT, SURF und BRIEF verglichen. Die genannten neuen Verfahren werden kombiniert und um Funktionen zur Berechnung von stereoskopischen Parametern, sowie einer graphischen Benutzeroberfläche, erweitert. Das Stereoscopic Analyzer (STAN) genannte Assistenzsystem soll auch Nicht-Experten die Produktion von guten 3D Inhalten ermöglichen. Schließlich wird ein neues Verfahren zur Multi-Kamera-Disparitäts-Schätzung vorgestellt und auf einen Multi-Kamera-Aufbau zur Erstellung von tiefenbasierten 3D-Inhalten für verschiedene Endgeräte angewendet. The background and motivation for the research performed within this thesis is the introduction of the Digital Cinema which allows for new workflows based on image processing algorithms. Thereby, the development of algorithms for stereoscopic 3D and multi-camera productions within the era of the Digital Cinema is of special interest. Several 3D productions have been released in the cinemas in the past years while the basic principle of 3D reproduction is still based on Wheatstone’s [Wheatstone38] and Brewster’s stereoscopic approach [Brewster56] where two views corresponding to two different viewing positions are presented to the viewer’s left and right eye. However, if the reproduced 3D content imposes unnatural viewing conditions when watched, e.g. due to an excessive amount of inherent parallax, an impaired 3D sensation can result which can even lead to visual fatigue and head-ache [IJsselsteijn00]. Consequently, specific 3D production rules as described in [Mendiburu08] and [Knorr12] have to be obeyed when high quality 3D content shall be produced. It includes a precise calibration of the two cameras with consistent electronic and optical parameters. Moreover, the stereo baseline and convergence distance have to be chosen according to the depth structure of the scene content. When performed without specific assistance systems, the calibration process and the choice of proper stereoscopic parameters as described by Lipton in [Lipton82] can be tedious tasks which require trained personnel and increase the overall production costs [Buchs11]. With the advent of digital cameras, it became possible to analyze and possibly correct the 3D signal electronically using dedicated stereoscopic image processors [Zilly10b, Sony] which facilitates the above mentioned tasks and allows for new 3D production workflows, possibly lowering the costs and improving the resulting quality. Against this background, within this thesis, a new and robust technique for camera pose estimation and rectification of uncalibrated stereo cameras based on a new method to estimate the fundamental matrix is proposed. The approach is subsequently enhanced towards trifocal setups involving a new estimation method for the trifocal tensor. To rectify the images acquired by uncalibrated cameras, a suitable feature detector is required. In this context, a new feature descriptor (SKB) is proposed and compared to existing descriptors such as SIFT, SURF or BRIEF. The different algorithms are combined, extended by new functions to calculate important stereoscopic parameters, and made accessible through an intuitive graphical user-interface which allows non-expert camera personnel to make use of it using an application which is called stereoscopic analyzer (STAN). Finally a new multi-camera disparity estimation workflow is proposed and applied to a multi-camera setup suitable for the generation of display agnostic 3D content.
- Published
- 2015
284. Ein generisches Abbildungsmodell für Stereokamerasysteme
- Author
-
Luber, Andreas, Reulke, Ralf, Luhmann, Thomas, and Eisert, Peter
- Subjects
model ,stereo ,Stereo ,heterogenes Kamerasystem ,calibration ,004 Informatik ,Kameramodell ,ST 330 ,Weitwinkel ,28 Informatik, Datenverarbeitung ,non-perspectiv ,Kalibrierung ,Kamera ,ddc:004 ,heterogenous camera system ,camera - Abstract
In den letzten Jahren kommen immer mehr nicht perspektivische Kamerasysteme beim maschinellen Sehen zur Anwendung, die vor allem ein deutlich erweitertes Blickfeld bieten. Das klassische perspektivische Abbildungsmodell lässt sich hier häufig nicht mehr erfolgreich anwenden. In dieser Arbeit wird ein generisches Abbildungsmodell vorgestellt, welches übliche Kamerasysteme akkurat modellieren kann. Solche Kamerasysteme schließen insbesondere klassische perspektivische Systeme, aber auch Fischaugen- und Spiegellinsen-Kamerasysteme ein. Die Nutzung eines einheitlichen Abbildungsmodells ermöglicht schließlich eine einfache Verwendung und Kalibrierung von heterogenen Stereokamerasystemen, also einer Kombination von unterschiedlichen Kameratypen, die vorteilhafte Eigenschaften gegenüber klassischen Stereosystemen bieten. Nicht zuletzt trägt die in dieser Arbeit vorgestellte einheitliche Modellierung und Kalibrierung von Mono- und Stereokamerasystemen dazu bei, Fehler durch falschen Umgang oder falsche Wahl von Methoden der Modellierung oder Kalibrierung zu vermeiden und den Kamerakalibrierprozess insgesamt zu vereinfachen. In dieser Arbeit wurden verschiedene Ansätze der Modellierung untersucht und evaluiert. Es wurde eine generische Modellierung vorgeschlagen, die die untersuchten spezifischen Abbildungsmodelle vollständig ersetzen kann. Für die Kalibrierung nicht linearer Abbildungsmodelle wurde eine einheitliche Methode zur Startwertbestimmung vorgeschlagen und evaluiert. Die Genauigkeit der Kalibrierung mittels einheitlicher Methoden wurde anhand diverser realer Kamerasysteme untersucht und bewertet. Es konnte gezeigt werden, dass die dabei auftretenden Fehler deutlich im Subpixelbereich liegen. Durch Erweiterung des klassischen Konzepts der Epipolargeometrie um die generische Abbildungsmodellierung konnten schließlich heterogene Stereokamerasysteme kalibriert und genaue Stereomodelle abgeleitet werden. The application of perspective camera systems in photogrammetry and computer vision is state of the art. In recent years non-perspective and especially omnidirectional camera systems have increasingly been used in close-range photogrammetry tasks. In general, the perspective camera model, i.e. pinhole model, cannot be applied when using non-perspective camera systems. However, several camera models for different omnidirectional camera systems are proposed in literature. Using different types of cameras in a heterogeneous camera system may lead to an advantageous combination. The advantages of different camera systems, e.g. field of view and resolution, result in a new enhanced camera system. If these different kinds of cameras can be modeled, using a unified camera model, the total calibration process can be simplified. Sometimes it is not possible to give the specific camera model in advance. In these cases a generic approach is helpful too. Furthermore, a simple stereo reconstruction becomes possible when using a fisheye and a perspective camera for example. In this work camera models for perspective, wide-angle and omnidirectional camera systems were evaluated. A generic camera model were introduced that fully substitutes specific camera models. The crucial initialization of the model''s parameters is conducted using a new generic method that is independent of the particular camera system. The accuracy of this generic camera calibration approach is validated by the calibration of a dozen of real camera systems up to subpixel accuracy. Finally, it has been shown that a unified method of modeling, parameter approximation and calibration of interior and exterior orientation can be applied to a generic stereo system to derive precise 3D object data.
- Published
- 2015
285. Temporal pixel trajectories for frame denoising in a hybrid video codec
- Author
-
Esche, Marko, Sikora, Thomas, Technische Universität Berlin, Fakultät IV - Elektrotechnik und Informatik, Kaup, André, and Eisert, Peter
- Subjects
ddc:620 - Abstract
In komprimierten Videosequenzen treten generell Artefakte bei niedrigen Bitraten auf. Sogenannte in-loop-Filter stellen eine Möglichkeit dar, diese Artefakte zu reduzieren. Zu in-loop-Filtern gehören sowohl solche, die ausschließlich räumlich arbeiten, als auch solche die zusätzlich noch die zeitliche Dimension beinhalten. Damit die temporale Filterung effektiv funktionieren kann, werden exakte Bewegungsinformationen für jedes Pixel benötigt. In dieser Arbeit wird ein zeitliches Filter, das Temporal Trajectory Filter (TTF), näher beleuchtet. Unter anderem werden Methoden vorgestellt, um die Bewegung eines einzelnen Pixels aus blockbasierten Bewegungsvektoren zu rekonstruieren. Zusätzlich wird ein theoretisches Fundament für das Filter aufgebaut und es werden Vorhersagen bezüglich der Filtereffektivität gemacht. In der Arbeit werden weiterhin Erweiterungen des Filters wie die quadtreebasierte Parametersignalisierung, Seiteninformationskompression und dichte Bewegungsvektorfeldinterpolation zur Verbesserung der Bewegungsrepräsentation vorgestellt. Selbst für die letzte Version des neuen Videokodierungsstandards H.265/MPEG.H Part 2 konnte das Filter noch mittlere Bitratenreduktionen von 0,4% erzielen. Für frühere Versionen des Testmodells und für H.264/AVC wurden sogar noch deutlich bessere Ergebnisse erzielt. Abschließend werden mögliche Implementierungen des TTFs als Postfilter vorgestellt und untersucht. Zu diesen gehört ein hochadaptives neuronales Netzwerk und ein echtes referenzfreies Postfilter. In compressed video sequences artifacts frequently occur at low bit rates. One possible way to reduce these artifacts and to lower the required bit rate are inloop filters. Among them are filters that work in the spatial domain only and those that utilize the temporal domain as well. In order to effectively perform temporal filtering, accurate motion information per pixel is required. In this thesis, one temporal filter, the Temporal Trajectory Filter (TTF), is investigated. Methods are described to reconstruct pixel motion paths from block-based motion vectors. In addition, a theoretical foundation for the filter is derived and predictions concerning the theoretically achievable gain are made. The thesis also covers several additions to the filter such as quadtree-based parameter signaling, side-information compression, and dense motion vector field interpolation to improve the motion accuracy. Even for the latest version of the new video compression standard H.265/MPEG.H Part 2 the filter still produces an average additional bit rate reduction of 0.4% with much higher values for prior versions and for H.264/AVC. Finally, possible implementations of the TTF as a post-filter are presented and evaluated. These include a highly adaptive neural network approach and a true reference-free post-filter.
- Published
- 2014
286. Image-based approaches for photo-realistic rendering of complex objects
- Author
-
Hilsmann, Anna, Eisert, Peter, Hafner, Verena, and Magnor, Marcus
- Subjects
Virtual Clothing ,Bild-basiertes Retexturing ,Image Registration ,ST 320 ,28 Informatik, Datenverarbeitung ,Bild-basiertes Rendering ,Image-based Rendering ,ddc:004 ,004 Informatik ,Bildregistrierung ,Virtuelle Kleidung ,Image-based Retexturing - Abstract
Fotorealistisches Rendering ist eines der Hauptziele der Computer Grafik. Mittels physikalischer Simulation ist eine fotorealistische Darstellung immer noch rechenaufwändig. Diese Arbeit stellt neue Methoden für Bild-basiertes Rendering komplexer Objekte am Beispiel von Kleidung vor. Die vorgestellten Methoden nutzen Kamerabilder und deren fotorealistische Eigenschaften für komplexe Animationen und Texturmodifikationen. Basierend auf der Annahme, dass für eng anliegende Kleidung Faltenwurf hauptsächlich von der Pose des Trägers beeinflusst wird, schlägt diese Dissertation ein neues Bild-basiertes Verfahren vor, das neue Bilder von Kleidungsstücken abhängig von der Körperpose einer Person aus einer Datenbank von Bildern synthetisiert. Posen-abhängige Eigenschaften (Textur und Schattierung) werden über Abbildungsvorschriften zwischen den Bildern extrahiert und im Posenraum interpoliert. Um die Erscheinung eines Objekts zu verändern, wird ein Verfahren vorgestellt, das den Austausch von Texturen ohne Kenntnis der zugrundeliegenden Szeneneigenschaften ermöglicht. Texturdeformation und Schattierung werden über Bildregistrierung zu einem geeigneten Referenzbild extrahiert. Im Gegensatz zu klassischen Bild-basierten Verfahren, in denen die Synthese auf Blickpunktänderung beschränkt und eine Veränderung des Objekts nicht möglich ist, erlauben die vorgestellten Verfahren komplexe Animationen und Texturmodifikation. Beide Verfahren basieren auf örtlichen und photometrischen Abbildungen zwischen Bildern. Diese Abbildungen werden basierend auf einem angepassten Brightness Constancy Constraint mit Gitternetz-basierten Modellen optimiert. Die vorgestellten Verfahren verlagern einen großen Teil des Rechenaufwands von der Darstellungsphase in die vorangegangene Trainingsphase und erlauben eine realistische Visualisierung von Kleidung inklusive charakteristischer Details, ohne die zugrundeliegenden Szeneneigenschaften aufwändig zu simulieren. One principal intention of computer graphics is the achievement of photorealism. With physically-based methods, achieving photorealism is still computationally demanding. This dissertation proposes new approaches for image-based visualization of complex objects, concentrating on clothes. The developed methods use real images as appearance examples to guide complex animation or texture modification processes, combining the photorealism of images with the ability to animate or modify an object. Under the assumption that wrinkling depends on the pose of a human body (for tight-fitting clothes), a new image-based rendering approach is proposed, which synthesizes images of clothing from a database of images based on pose information. Pose-dependent appearance and shading information is extracted by image warps and interpolated in pose-space using scattered data interpolation. To allow for appearance changes in image-based methods, a retexturing approach is proposed, which enables texture exchange without a-priori knowledge of the underlying scene properties. Texture deformation and shading are extracted from the input image by a warp to an appropriate reference image. In contrast to classical image-based visualization methods, where animation is restricted to viewpoint change and appearance modification is not possible, the proposed methods allow for complex pose animations and appearance changes. Both approaches build on image warps, not only in the spatial but also in the photometric domain. A new framework for joint spatial and photometric warp optimization is introduced, which estimates mesh-based warp models under a modified brightness constancy assumption. The presented approaches shift computational complexity from the rendering to an a-priori training phase and allow a photo-realistic visualization and modification of clothes, including fine and characteristic details without computationally demanding simulation of the underlying scene and object properties.
- Published
- 2014
287. Multilevel Datenfusion konkurrierender Sensoren in der Fahrzeugumfelderfassung
- Author
-
Haberjahn, Mathias, Reulke, Ralf, Stiller, Christoph, and Eisert, Peter
- Subjects
multi level data fusion ,Fahrzeugumfelderfassung ,konkurrierende Datenfusion ,object detection ,stereo vision ,004 Informatik ,ZQ 3130 ,Stereo-Kamera ,Stereobildverbeitung ,laser scanner ,Multi-Sensor Datenfusion ,Multilevel Datenfusion ,28 Informatik, Datenverarbeitung ,multi sensor data fusion ,Objekterkennung ,ddc:004 ,Laserscanner - Abstract
Mit der vorliegenden Dissertation soll ein Beitrag zur Steigerung der Genauigkeit und Zuverlässigkeit einer sensorgestützten Objekterkennung im Fahrzeugumfeld geleistet werden. Aufbauend auf einem Erfassungssystem, bestehend aus einer Stereokamera und einem Mehrzeilen-Laserscanner, werden teils neu entwickelte Verfahren für die gesamte Verarbeitungskette vorgestellt. Zusätzlich wird ein neuartiges Framework zur Fusion heterogener Sensordaten eingeführt, welches über eine Zusammenführung der Fusionsergebnisse aus den unterschiedlichen Verarbeitungsebenen in der Lage ist, die Objektbestimmung zu verbessern. Nach einer Beschreibung des verwendeten Sensoraufbaus werden die entwickelten Verfahren zur Kalibrierung des Sensorpaares vorgestellt. Bei der Segmentierung der räumlichen Punktdaten werden bestehende Verfahren durch die Einbeziehung von Messgenauigkeit und Messspezifik des Sensors erweitert. In der anschließenden Objektverfolgung wird neben einem neuartigen berechnungsoptimierten Ansatz zur Objektassoziierung ein Modell zur adaptiven Referenzpunktbestimmung und –Verfolgung beschrieben. Durch das vorgestellte Fusions-Framework ist es möglich, die Sensordaten wahlweise auf drei unterschiedlichen Verarbeitungsebenen (Punkt-, Objekt- und Track-Ebene) zu vereinen. Hierzu wird ein sensorunabhängiger Ansatz zur Fusion der Punktdaten dargelegt, der im Vergleich zu den anderen Fusionsebenen und den Einzelsensoren die genaueste Objektbeschreibung liefert. Für die oberen Fusionsebenen wurden unter Ausnutzung der konkurrierenden Sensorinformationen neuartige Verfahren zur Bestimmung und Reduzierung der Detektions- und Verarbeitungsfehler entwickelt. Abschließend wird beschrieben, wie die fehlerreduzierenden Verfahren der oberen Fusionsebenen mit der optimalen Objektbeschreibung der unteren Fusionsebene für eine optimale Objektbestimmung zusammengeführt werden können. Die Effektivität der entwickelten Verfahren wurde durch Simulation oder in realen Messszenarien überprüft. With the present thesis a contribution to the increase of the accuracy and reliability of a sensor-supported recognition and tracking of objects in a vehicle’s surroundings should be made. Based on a detection system, consisting of a stereo camera and a laser scanner, novel developed procedures are introduced for the whole processing chain of the sensor data. In addition, a new framework is introduced for the fusion of heterogeneous sensor data. By combining the data fusion results from the different processing levels the object detection can be improved. After a short description of the used sensor setup the developed procedures for the calibration and mutual orientation are introduced. With the segmentation of the spatial point data existing procedures are extended by the inclusion of measuring accuracy and specificity of the sensor. In the subsequent object tracking a new computation-optimized approach for the association of the related object hypotheses is presented. In addition, a model for a dynamic determination and tracking of an object reference point is described which exceeds the classical tracking of the object center in the track accuracy. By the introduced fusion framework it is possible to merge the sensor data at three different processing levels (point, object and track level). A sensor independent approach for the low fusion of point data is demonstrated which delivers the most precise object description in comparison to the other fusion levels and the single sensors. For the higher fusion levels new procedures were developed to discover and clean up the detection and processing mistakes benefiting from the competing sensor information. Finally it is described how the fusion results of the upper and lower levels can be brought together for an ideal object description. The effectiveness of the newly developed methods was checked either by simulation or in real measurement scenarios.
- Published
- 2013
288. The Stixel World
- Author
-
Pfeiffer, David, Reulke, Ralf, Eisert, Peter, and Franke, Uwe
- Subjects
Freiraum ,Medium-level representation ,Zwischenrepräsentation ,Auswertung ,Szenenrepräsentation ,Sensor model ,Objektrepräsentation ,Dynamische Programmierung ,Kalmanfilter ,Object tracking ,Dynamic programming ,Motion estimation ,LIDAR ,Obstacles ,KLT-Tracker ,The Stixel World ,Dichtes Stereo ,Globale Optimierung ,Object representation ,Bewegungsschätzung ,Robustness ,Hindernisse ,Bildsegmentierung ,Sensormodell ,Image segmentation ,evaluation ,Die Stixel-Welt ,Optical flow ,Maximum a posteriori Schätzproblem ,Robustheit ,Optischer Fluss ,Maximum a posteriori estimation ,004 Informatik ,Stixel ,Stereo vision ,RADAR ,Objektverfolgung ,ST 330 ,Scene representation ,28 Informatik, Datenverarbeitung ,Dense stereo ,Freespace ,Bewegungzustandschätzung ,Global optimization ,Kalman filter ,Stixels ,ddc:004 - Abstract
Die Stixel-Welt ist eine neuartige und vielseitig einsetzbare Zwischenrepräsentation zur effizienten Beschreibung dreidimensionaler Szenen. Heutige stereobasierte Sehsysteme ermöglichen die Bestimmung einer Tiefenmessung für nahezu jeden Bildpunkt in Echtzeit. Das erlaubt zum einen die Anwendung neuer leistungsfähiger Algorithmen, doch gleichzeitig steigt die zu verarbeitende Datenmenge und der dadurch notwendig werdende Aufwand massiv an. Gerade im Hinblick auf die limitierte Rechenleistung jener Systeme, wie sie in der videobasierten Fahrerassistenz zum Einsatz kommen, ist dies eine große Herausforderung. Um dieses Problem zu lösen, bietet die Stixel-Welt eine generische Abstraktion der Rohdaten des Sensors. Jeder Stixel repräsentiert individuell einen Teil eines Objektes im Raum und segmentiert so die Umgebung in Freiraum und Objekte. Die Arbeit stellt die notwendigen Verfahren vor, um die Stixel-Welt mittels dynamischer Programmierung in einem einzigen globalen Optimierungsschritt in Echtzeit zu extrahieren. Dieser Prozess wird durch eine Vielzahl unterschiedlicher Annahmen über unsere von Menschenhand geschaffene Umgebung gestützt. Darauf aufbauend wird ein Kalmanfilter-basiertes Verfahren zur präzisen Bewegungsschätzung anderer Objekte vorgestellt. Die Arbeit stellt umfangreiche Bewertungen der zu erwartenden Leistungsfähigkeit aller vorgestellten Verfahren an. Dafür kommen sowohl vergleichende Ansätze als auch diverse Referenzsensoren, wie beispielsweise LIDAR, RADAR oder hochpräzise Inertialmesssysteme, zur Anwendung. Die Stixel-Welt ist eine extrem kompakte Abstraktion der dreidimensionalen Umgebung und bietet gleichzeitig einfachsten Zugriff auf alle essentiellen Informationen der Szene. Infolge dieser Arbeit war es möglich, die Effizienz vieler auf der Stixel-Welt aufbauender Algorithmen deutlich zu verbessern. The Stixel World is a novel and versatile medium-level representation to efficiently bridge the gap between pixel-based processing and high-level vision. Modern stereo matching schemes allow to obtain a depth measurement for almost every pixel of an image in real-time, thus allowing the application of new and powerful algorithms. However, it also results in a large amount of measurement data that has to be processed and evaluated. With respect to vision-based driver assistance, these algorithms are executed on highly integrated low-power processing units that leave no room for algorithms with an intense calculation effort. At the same time, the growing number of independently executed vision tasks asks for new concepts to manage the resulting system complexity. These challenges are tackled by introducing a pre-processing step to extract all required information in advance. Each Stixel approximates a part of an object along with its distance and height. The Stixel World is computed in a single unified optimization scheme. Strong use is made of physically motivated a priori knowledge about our man-made three-dimensional environment. Relying on dynamic programming guarantees to extract the globally optimal segmentation for the entire scenario. Kalman filtering techniques are used to precisely estimate the motion state of all tracked objects. Particular emphasis is put on a thorough performance evaluation. Different comparative strategies are followed which include LIDAR, RADAR, and IMU reference sensors, manually created ground truth data, and real-world tests. Altogether, the Stixel World is ideally suited to serve as the basic building block for today''s increasingly complex vision systems. It is an extremely compact abstraction of the actual world giving access to the most essential information about the current scenario. Thanks to this thesis, the efficiency of subsequently executed vision algorithms and applications has improved significantly.
- Published
- 2012
289. Scalable Video Adaptation Based On Bitstream Syntax Description
- Author
-
Žgaljić, Toni, Šprljan, Nikola, Izquierdo, Ebroul, and Eisert, Peter
- Subjects
ComputingMethodologies_IMAGEPROCESSINGANDCOMPUTERVISION ,Data_CODINGANDINFORMATIONTHEORY - Abstract
Scalable Video Adaptation Based On Bitstream Syntax Description
- Published
- 2005
290. Animatable Virtual Humans: Learning Pose-Dependent Human Representations in UV Space for Interactive Performance Synthesis.
- Author
-
Morgenstern W, Bagdasarian MT, Hilsmann A, and Eisert P
- Subjects
- Humans, Computer Graphics
- Abstract
We propose a novel representation of virtual humans for highly realistic real-time animation and rendering in 3D applications. We learn pose dependent appearance and geometry from highly accurate dynamic mesh sequences obtained from state-of-the-art multiview-video reconstruction. Learning pose-dependent appearance and geometry from mesh sequences poses significant challenges, as it requires the network to learn the intricate shape and articulated motion of a human body. However, statistical body models like SMPL provide valuable a-priori knowledge which we leverage in order to constrain the dimension of the search space, enabling more efficient and targeted learning and to define pose-dependency. Instead of directly learning absolute pose-dependent geometry, we learn the difference between the observed geometry and the fitted SMPL model. This allows us to encode both pose-dependent appearance and geometry in the consistent UV space of the SMPL model. This approach not only ensures a high level of realism but also facilitates streamlined processing and rendering of virtual humans in real-time scenarios.
- Published
- 2024
- Full Text
- View/download PDF
291. [Endoscopic measurement of nasal septum perforations. German version].
- Author
-
Rosenthal JC, Wisotzky EL, Matuschek C, Hobl M, Hilsmann A, Eisert P, and Uecker FC
- Subjects
- Endoscopy methods, Humans, Nasal Septum diagnostic imaging, Nasal Septum surgery, Quality of Life, Nasal Septal Perforation diagnostic imaging, Nasal Septal Perforation surgery, Robotic Surgical Procedures
- Abstract
Background: Nasal septum perforations (NSP) have many uncomfortable symptoms for the patient and a highly negative impact on quality of life. NSPs are closed using patient-specific implants or surgery. Implants are created either under anesthesia using silicone impressions or using 3D models from CT data. Disadvantages for patient safety are the increased risk of morbidity or radiation exposure., Materials and Methods: In the context of otorhinolaryngologic surgery, we present a gentle approach to treating NSP with a new image-based, contactless, and radiation-free measurement method using a 3D endoscope. The method relies on image information only and makes use of real-time capable computer vision algorithms to compute 3D information. This endoscopic method can be repeated as often as desired in the clinical course and has already proven its accuracy and robustness for robotic-assisted surgery (RAS) and surgical microscopy. We expand our method for nasal surgery, as there are additional spatial and stereoperspective challenges., Results: After measuring 3 relevant parameters (NSP extension: axial, coronal, and NSP circumference) of 6 patients and comparing the results of 2 stereoendoscopes with CT data, it was shown that the image-based measurements can achieve comparable accuracies to CT data. One patient could be only partially evaluated because the NSP was larger than the endoscopic field of view., Conclusion: Based on the very good measurements, we outline a therapeutic procedure which should enable the production of patient-specific NSP implants based on endoscopic data only., (© 2021. The Author(s).)
- Published
- 2022
- Full Text
- View/download PDF
292. The Collaborative Research Center FONDA.
- Author
-
Leser U, Hilbrich M, Draxl C, Eisert P, Grunske L, Hostert P, Kainmüller D, Kao O, Kehr B, Kehrer T, Koch C, Markl V, Meyerhenke H, Rabl T, Reinefeld A, Reinert K, Ritter K, Scheuermann B, Schintke F, Schweikardt N, and Weidlich M
- Abstract
Today's scientific data analysis very often requires complex Data Analysis Workflows (DAWs) executed over distributed computational infrastructures, e.g., clusters. Much research effort is devoted to the tuning and performance optimization of specific workflows for specific clusters. However, an arguably even more important problem for accelerating research is the reduction of development, adaptation, and maintenance times of DAWs. We describe the design and setup of the Collaborative Research Center (CRC) 1404 "FONDA -- Foundations of Workflows for Large-Scale Scientific Data Analysis", in which roughly 50 researchers jointly investigate new technologies, algorithms, and models to increase the portability, adaptability, and dependability of DAWs executed over distributed infrastructures. We describe the motivation behind our project, explain its underlying core concepts, introduce FONDA's internal structure, and sketch our vision for the future of workflow-based scientific data analysis. We also describe some lessons learned during the "making of" a CRC in Computer Science with strong interdisciplinary components, with the aim to foster similar endeavors., (© Gesellschaft für Informatik e.V. and Springer-Verlag GmbH Germany, part of Springer Nature 2021.)
- Published
- 2021
- Full Text
- View/download PDF
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.