T´ezisek magyar nyelven - Emulált digitális CNN-UM architektúra megvalósítása újrakonfigurálhat

1. T´ eziscsoport: Emul´ alt digit´ alis CNN-UM processzorok megval´ os´ıthat´ os´ aga ´ ujrakonfigur´ alhat´ o FPGA ´ aramk¨ or¨ ok¨ on.

A SZTAKI-ban tervezett CASTLE emul´alt digit´alis CNN-UM architekt´ura lehet˝ov´e teszi a CNN dinamika emul´aci´oj´at k¨ul¨onb¨oz˝o sz´am´abr´azol´asi pontoss´ag (1, 6 ´es 12 bit) felhaszn´al´as´aval. A sz´am´ıt´asi pontoss´ag cs¨okkent´es´evel a sz´am´ıt´asi teljes´ıtm´eny jelent˝osen n¨ovelhet˝o, a cs¨okkentett pontoss´ag´u ¨uzemm´odok eset´en azonban a chip jelent˝os r´esze nem vesz r´eszt a dinamika sz´am´ıt´as´aban. Noha a be´all´ıthat´o sz´am´ıt´asi pontoss´agok ´altal´anos k´epfeldolgoz´asi feladatok eset´en megfelel˝oek, de sok esetben, pl.

biol´ogiai rendszerek modellez´ese, parci´alis differenci´al egyenletek megold´asa, nagyobb pontoss´agra van sz¨uks´eg¨unk.

A jelenlegi anal´og ´es emul´alt digit´alis VLSI CNN-UM implement´aci´ok csak 3× 3-as esetleg 5×5-¨os m´eret˝u template-ek alkalmaz´as´at teszik lehet˝ov´e. Nagyobb m´eret˝u template-ek csak 3×3-as template-ekre t¨ort´en˝o dekompoz´ıci´oval futtathat´ok azonban nem minden CNN template dekompon´alhat´o. Ezekben az esetekben a CNN dinamika csak szoftver szimul´aci´oval vizsg´alhat´o azonban a megn¨ovekedett template m´eret mi-att a sz´am´ıt´asi teljes´ıtm´eny l´enyegesen lecs¨okken.

Bonyolult biol´ogiai ´es fizikai rendszerek j´ol modellezhet˝ok t¨obbr´eteg˝u CNN h´al´o-zatokkal. Azonban az anal´og CNN megval´os´ıt´asok vagy nem teszik lehet˝ov´e t¨obbr´e-teg˝u CNN modellek haszn´alat´at vagy a megold´asok nem megfelel˝o pontoss´ag´uak.

Ez´ert a t¨obbr´eteg˝u CNN dinamika vizsg´alat´ahoz szoftveres szimul´aci´ot kellett alkal-mazni, amely nagy m´eret˝u h´al´ozat vagy elt´er˝o id˝o´alland´oj´u r´etegek szimul´aci´oj´an´al nagyon lass´u.

A fent eml´ıtett probl´em´ak megold´as´ara l´etrehoztam egy ´uj Falcon-nak nevezett emul´alt digit´alis CNN-UM architekt´ura csal´adot. Megmutattam, hogy egy FPGA-n megval´os´ıtott Falcon emul´alt digit´alis CNN-UM processzor egy 3,0GHz-es Pentium 4 processzoron futtatott szoftver szimul´aci´on´al nagys´agrendekkel nagyobb sz´am´ıt´asi tel-jes´ıtm´eny˝u azonos pontoss´ag ´es flexibilit´as mellett. Kib˝ov´ıtettem a Falcon emul´alt digit´alis CNN-UM architekt´ura k´epess´egeit lehet˝ov´e t´eve tetsz˝oleges szomsz´eds´ag´u CNN template-ek haszn´alat´at ´es t¨obbr´eteg˝u CNN h´al´ozatok emul´al´as´at.

1.1. T´ezis: Konfigur´alhat´o digit´alisan emul´alt CNN-UM processzor meg-val´os´ıt´asa ´es optimaliz´al´asa Xilinx FPGA ´aramk¨or¨ok¨on

A SZTAKI-ban tervezett CASTLE emul´alt digit´alis CNN-UM architekt´ura alap-jait felhaszn´alva kidolgoztam, ´es FPGA ´aramk¨or¨okre optimaliz´altam egy ´uj kon-figur´alhat´o emul´alt digit´alis CNN-UM processzort, amely lehet˝ov´e teszi k¨ul¨onb¨oz˝o

m´eret˝u CNN t¨omb¨ok emul´aci´oj´at k¨ul¨onb¨oz˝o sz´am´ıt´asi pontoss´ag mellett. A Falcon-nak elnevezett ´uj architekt´ura szintetiz´alhat´o RTL le´ır´asban be´all´ıthat´ok a procesz-szorok f˝obb param´eterei ´ugymint a cellat¨omb sz´eless´ege, a cella ´allapot´anak, be-menet´enek ´es a felhaszn´alt template-ek sz´am´abr´azol´asi pontoss´aga, a felhaszn´alt t´er-vari´ans template-ek sz´ama valamint az architekt´ur´an bel¨uli processzormagok sz´ama

´es elrendez´ese. A felsorolt param´eterek v´altoztat´as´aval a Falcon architekt´ura m´erete

´es sebess´ege az aktu´alis alkalmaz´ashoz optimaliz´alhat´o.

Megmutattam, hogy a Xilinx Virtex-II FPGA-n megval´os´ıtott Falcon architekt´ura

´orajel-frekvenci´aja a sz´am´ıt´asi pontoss´agt´ol f¨ugg˝oen 147-429MHz. Egy cella ´uj ´alla-pot´anak kisz´am´ıt´asa 3 ´orajel-ciklust ig´enyel, ennek megfelel˝oen egy processzor jes´ıtm´enye 49-143 milli´o cella iter´aci´o/s. Megmutattam, hogy ez a sz´am´ıt´asi tel-jes´ıtm´eny 3,5-10,4-szeresen m´ulja fel¨ul egy 3,0GHz-es Pentium 4 processzor teljes´ıtm´e-ny´et. T¨obb Falcon processzor haszn´alat´aval a sz´am´ıt´asi teljes´ıtm´eny a processzorok sz´am´aval ar´anyosan tov´abb n¨ovelhet˝o, az egy chip-en megval´os´ıthat´o processzorok sz´ama pontoss´agt´ol f¨ugg˝oen 11-185db lehet a legnagyobb Virtex-IIPro 125-¨os FPGA-n.

1.2. T´ezis: Tetsz˝oleges szomsz´eds´ag´u template-eket haszn´al´o CNN-UM megval´os´ıt´asa

Kidolgoztam egy ´uj elj´ar´ast, amellyel tetsz˝oleges szomsz´eds´ag´u template-ek

futtathat-´ok emul´alt digit´alis architekt´ur´akon. Megterveztem egy olyan emul´alt digit´alis arc-hitekt´ur´at, amelyen a template-ek m´erete be´all´ıthat´o. Az RTL le´ır´asban szerepl˝o kon-figur´aci´os param´etereknek megfelel˝oen v´altozik a processzoron bel¨uli m˝uveletv´egz˝o egys´egek (¨osszead´ok, szorz´ok) sz´ama ennek megfelel˝oen n×n-es template m´eret eset´en n szorz´ora van sz¨uks´eg, amelyekkel n ´orajel-ciklus alatt sz´am´ıthat´o ki egy cella ´uj

´ert´eke. A v´altoz´o hossz´us´ag´u cella-iter´aci´os ciklus miatt a processzor vez´erl˝oegys´ege is automatikusan a template m´erethez idomul.

Megmutattam, hogy a m˝uveletv´egz˝o egys´egek nagyobb sz´ama l´enyegesen nem befoly´asolja a m˝uk¨od´esi sebess´eget, ´ıgy Virtex-IIPro FPGA-k haszn´alat´aval, tem-plate m´erett˝ol f¨uggetlen¨ul el´erhet˝o a 147-429MHz-es ´orajel-frekvencia. A hosszabb cella iter´aci´os ciklus miatt a Falcon architekt´ura teljes´ıtm´enye 5x5-¨os template-ek eset´en 29-85 milli´o cella iter´aci´o/s-ra cs¨okken. Megmutattam, hogy ez a sz´am´ıt´asi teljes´ıtm´eny 3,3-9,8-szeresen m´ulja fel¨ul egy 3,0GHz-es Pentium 4 processzor tel-jes´ıtm´eny´et. A m˝uveletv´egz˝o egys´egek sz´am´anak n¨oveked´ese miatt az egy chip-en megval´os´ıthat´o processzorok sz´ama, Virtex-IIPro 125-¨os FPGA ´es 5×5-¨os template m´eret eset´en, pontoss´agt´ol f¨ugg˝oen 6-111db.

1.3. T´ezis: T¨obbr´eteg˝u CNN-UM megval´os´ıt´asa

Kib˝ov´ıtettem a Falcon emul´alt digit´alis CNN-UM architekt´ura k´epess´egeit lehet˝ov´e t´eve tetsz˝oleges r´etegsz´am´u CNN cellat¨omb emul´aci´oj´at. Az ´uj architekt´ura egy tel-jesen ¨osszek¨ot¨ott t¨obbr´eteg˝u CNN h´al´ozatot emul´al teh´at minden r´eteg, glob´alisan be´all´ıthat´o m´eret˝u template-ekkel, kapcsol´odik az ¨osszes t¨obbi r´eteghez. A t¨obbr´eteg˝u Falcon architekt´ura az egyr´eteg˝u processzor f˝obb elemeib˝ol ´all, r r´eteg eset´en r darab mem´oria egys´eg ´es r´etegenk´ent r darab ¨osszekapcsolt aritmetikai egys´eg (¨osszesen r×r) sz¨uks´eges. Egy cella ´uj ´ert´ek´enek kisz´am´ıt´as´ahoz sz¨uks´eges ´orajelek sz´ama f¨uggetlen a r´etegsz´amt´ol ´es csak a template m´erett˝ol f¨ugg.

A t¨obbr´eteg˝u processzor megval´os´ıt´as´ahoz sz¨uks´eges fel¨ulet a sok r´etegk¨ozi kapcso-lat miatt jelent˝osen megn˝o, h´arom r´eteg˝u h´al´ozat ´es 3×3-as template-ek haszn´alat´an´al a Virtex-IIPro 125-¨os FPGA-n megval´os´ıthat´o processzorok sz´ama 1-20 darabra cs¨ok-ken. Megmutattam, hogy a m˝uk¨od´esi sebess´eget ez l´enyegesen nem befoly´asolja, ´ıgy ebben az esetben is el´erhet˝o a 147-429MHz-es ´orajel-frekvencia. H´arom r´eteg˝u h´al´ozat

´es 3×3-as template-ek haszn´alat´an´al egy t¨obbr´eteg˝u Falcon processzor 49-143-szor gyorsabb, mint egy 3,0GHz-es Pentium 4 processzor.

1.4. T´ezis: Elosztott aritmetikai (distributed arithmetic) egys´eg alkal-maz´asa a Falcon emul´alt digit´alis CNN-UM architekt´ura aritmetikai egys´ e-g´enek FPGA-ra t¨ort´en˝o optimaliz´al´as´ara.

Kidolgoztam a Falcon emul´alt digit´alis CNN-UM architekt´ura aritmetikai egys´eg´enek soros aritmetik´at haszn´al´o ter¨uletre optimaliz´alt v´altozat´at, amely t´erinvari´ans tem-plate-ek futtat´as´at teszi lehet˝ov´e. Megmutattam, hogy az optimaliz´alt aritmetikai egys´eg, az alkalmazott template ´es ´allapot v´altoz´o sz´am´abr´azol´asi pontoss´ag´anak f¨uggv´eny´eben, ak´ar 40%-kal kisebb ter¨uletet is ig´enyelhet, v´altozatlan sz´am´ıt´asi tel-jes´ıtm´eny mellett. Az ´uj aritmetikai egys´eg tov´abbi el˝onye hogy teljes´ıtm´enye jobban sk´al´azhat´o a hagyom´anyos szorz´okb´ol fel´ep´ıtett aritmetikai egys´egn´el. A szorz´okb´ol fel´ep´ıtett aritmetikai egys´eg-ben n×n-es template m´eret eset´en 1, n ´es n² szorz´o haszn´alata k´ezenfekv˝o ennek megfelel˝oen egy cella ´uj ´ert´eke n², n ´es 1 ´orajel alatt sz´am´ıthat´o ki. Megmutattam, hogy soros aritmetika alkalmaz´asa eset´en a ciklusid˝o az ´allapot v´altoz´o sz´am´abr´azol´asi pontoss´ag´at´ol f¨ugg, pl. 12 bites esetben lehets´eges 1, 2, 3, 4, 6 ´es 12 ´orajeles feldolgoz´asi idej˝u aritmetikai egys´egek l´etrehoz´asa.

2. T´ eziscsoport: Alkalmaz´ as specifikus emul´ alt digit´ alis CNN-UM felhaszn´ al´ asa parci´ alis differenci´ al egyenletek meg-old´ as´ ara.

Parci´alis differenci´al egyenletek megold´asa a matematika egyik legfontosabb ´aga mivel ezek az egyenletek gyakran fordulnak el˝o a fizik´aban, m˝uszaki tudom´anyokban ´es m´as

tudom´anyter¨uleteken. A CNN architekt´ura szab´alyos r´acsban elhelyezett lok´alisan

¨osszek¨ot¨ott anal´og processz´al´o elemei k´ezenfekv˝o lehet˝os´eget k´ın´alnak parci´alis dif-ferenci´al egyenletek v´eges differenci´akkal val´o megold´as´ara. A megold´ashoz sz¨uks´eges CNN h´al´ozat azonban a legt¨obb esetben t¨obbr´eteg˝u ´es n´eh´any fontos egyenlet pl.

a Navier-Stokes egyenletek, eset´en a cell´ak k¨oz¨otti interakci´ok nemline´arisak. A je-lenlegi egyr´eteg˝u anal´og VLSI CNN-UM chip-eken t¨obbr´eteg˝u h´al´ozatok viselked´es´et csak k¨ozel´ıteni tudjuk, ezen k´ıv¨ul gondot okoz a nemline´aris interakci´ok megval´os´ıt´asa is. Tov´abbi probl´ema hogy az anal´og VLSI CNN-UM chip-ek 7-8 bites pontoss´aga ´es 128×128-as cellat¨omb m´erete nem elegend˝o a legt¨obb m´ern¨oki alkalmaz´asban.

A Falcon emul´alt digit´alis CNN-UM architekt´ura alkalmaz´asa eset´en a cellat¨omb m´erete ´es a r´etegek sz´ama nem jelent probl´em´at. A megold´as pontoss´ag´at viszont m´as szemsz¨ogb˝ol kell vizsg´alnunk: minim´alisan mekkora sz´am´abr´azol´asi pontoss´ag sz¨uks´eges ahhoz, hogy helyes eredm´enyt kapjunk?

A parci´alis differenci´al egyenletek CNN-en t¨ort´en˝o megold´asakor kapott template-ek sok esetben szimmetrikusak, t´erinvari´ansok vagy az ´ert´template-ektemplate-ek egym´ashoz viszony´ıtott ar´anya ´alland´o. Ezek a tulajdons´agok lehet˝ov´e teszik, hogy a Falcon emul´alt digit´alis CNN-UM architekt´ur´at az adott parci´alis differenci´alegyenlet megold´as´ara specializ´al-juk. A specializ´alt processzorok megval´os´ıt´asa kisebb fel¨uletet ig´enyel, valamint sz´am´ıt´asi teljes´ıtm´eny¨uk is jelent˝osen n¨ovekedhet. Ebben az esetben a hagyom´anyos RTL szint˝u VHDL le´ır´ason alapul´o tervez´esi m´odszer haszn´alata t´uls´agosan id˝oig´enyes

´ıgy magas szint˝u szint´ezis m´odszereket kell haszn´alni a processzorok tervez´ese sor´an.

2.1. T´ezis: A sz´am´abr´azol´asi pontoss´ag hat´asa a megold´as pontoss´ag´ara parci´alis differenci´al egyenletek megold´asa eset´en

Kidolgoztam k´et ´uj heurisztikus elj´ar´ast, amelyek seg´ıts´eg´evel meghat´arozhat´o parci´a-lis differenci´al egyenletek ´es k¨oz¨ons´eges differenci´alegyenlet rendszerek fixpontos meg-old´as´ahoz sz¨uks´eges optim´alis sz´am´ıt´asi pontoss´ag. Az elj´ar´asok hat´ekonys´ag´at algo-ritmikus megfontol´asokkal ´es k´ıs´erletekkel igazoltam. Az ´uj heurisztikus elj´ar´asokat parci´alis differenci´al egyenletek ´es k¨oz¨ons´eges differenci´alegyenlet rendszerek megold´a-sa sor´an teszteltem. K´ıs´erletileg igazoltam, hogy az ´uj heurisztikus m´odszerek ´altal´a-nosan haszn´alhat´oak.

2.2. T´ezis: Magas szint˝u szint´ezis ´es gyors protot´ıpus k´epz˝o technik´ak alkalmazhat´os´aga parci´alis differenci´alegyenlet megold´o architekt´ur´ak ter-vez´es´ere

Megvizsg´altam k´et parci´alis differenci´al egyenlet megold´as´at (nyom´as´erz´ekel˝o szen-zor, ´oce´an modell) ´es megterveztem egy ´uj sz´am´ıt´asi architekt´ur´at ezeknek az egyen-leteknek a megold´as´ara, amely j´ol illeszkedik az emul´alt digit´alis CNN architekt´ur´ak strukt´ur´aj´ahoz, valamint gyors ´es hat´ekony sz´am´ıt´ast tesz lehet˝ov´e. Kidolgoztam

egy ´uj elj´ar´ast, amellyel k¨ul¨onb¨oz˝o parci´alis differenci´al egyenletek megold´as´ara spe-cializ´alt emul´alt digit´alis architekt´ur´ak hozhat´ok l´etre a hagyom´anyos tervez´esi m´od-szerekn´el jelent˝osen r¨ovidebb id˝o alatt. K´et parci´alis differenci´al egyenlet megold´as´an (nyom´as´erz´ekel˝o szenzor, ´oce´an modell) kereszt¨ul megmutattam a m´odszer m˝uk¨od´es´et

´es hat´ekonys´ag´at. Az architekt´ura lehet˝ov´e teszi tetsz˝oleges karakterisztik´aj´u, lok´ali-san ¨osszek¨ot¨ott cellat¨omb¨ok emul´aci´oj´at. A karakterisztika megv´altoztat´as´ahoz csak az aritmetikai egys´eg le´ır´as´at kell m´odos´ıtani ez azonban a magas szint˝u Handel-C hardver-le´ır´o nyelv haszn´alata miatt egyszer˝ubben elv´egezhet˝o valamint tesztel´ese a hagyom´anyos VHDL szimul´aci´on´al nagys´agrendekkel gyorsabb.

[1] L. O. Chua and L. Yang, “Cellular Neural Networks: Theory and Applications,”

IEEE Trans. On Circuits and Systems, vol. 35, pp. 1257–1290, 1988.

[2] Cs. Rekeczky and L. O. Chua, “Computing with front propagation: Active con-tour and skeleton models in continuous-time cnn,”Journal of VLSI Signal Pro-cessing Special Issue: Spatiotemporal Signal ProPro-cessing with Analogic CNN Vi-sual Microprocessors, vol. 23, pp. pp. 373–402, 1999.

[3] T. Roska, T. Kozek, D. Wolf, and L. O. Chua, “Solving partial differential equa-tions by CNN,” inProc. of European Conf. on Circuits Theory and Design, 1992.

[4] P. Szolgay, G. V¨or¨os, and Gy. Er˝oss, “On the applications of the cellular neural network paradigm in mechanical vibrating system,” IEEE. Trans. Circuits and Systems-I, Fundamental Theory and Appl., vol. 40, no. 3, pp. 222–227, 1993.

[5] T. Roska and L. O. Chua, “The CNN Universal Machine: An analogic array computer,”IEEE Trans. On Circuits and Systems-II, vol. 40, pp. 163–173, 1993.

[6] P. Keresztes, A. Zar´andy, T. Roska, P. Szolgay, T. H´ıdv´egi, P. J´on´as, and A. Ka-tona, “An emulated digital CNN implementation,” Int. Journal of VLSI Signal Processing, 1999.

[7] G. Lin´an, R. Dom´ınguez-Castro, S. Espejo, and A. Rodr´ıguez-V´azquez,

“ACE16k: A programmable focal plane vision processor with 128×128 reso-lution,” in Proc. of the15^th European Conference on Circuit Theory and Design, vol. 1, pp. 345–348, 2001.

[8] A. K. Sharma, Programmable Logic Handbook PLDs, CPLDs and FPGAs.

McGraw-Hill, 1998.

[9] “Xilinx products homepage.” [Online] http://www.xilinx.com, 2005.

[10] T. Roska, G. B´artfai, P. Szolgay, T. Szir´anyi, A. Radv´anyi, T. Kozek, Z. Ugray, and A. Zar´andy, “A digital multiprocessor hardware accelerator board for cellular

138

neural networks: CNN-HAC,” Int. Journal of Circuit Theory and Applications, vol. 20, pp. 589–599, 1992.

[11] T. Hidv´egi, P. Keresztes, and P. Szolgay, “An accelerated digital CNN-UM (CAS-TLE) architecture by using the pipe-line technique,” inProc. of the15^thEuropean Conference on Circuit Theory and Design, 2002.

[12] T. H´ıdv´egi, P. Keresztes, and P. Szolgay, “Enhanced emulated digital CNN-UM (CASTLE) arithmetic cores,” Journal of Circuits, Systems and Computers, vol. 12, no. 6, 1999.

[13] D. B´alya, B. Roska, T. Roska, and F. S. Werblin, “A CNN framework for model-ing parallel processmodel-ing in a mammalian retina,”International Journal of Circuit Theory and Applications, vol. 30, pp. 363–393, 2002.

[14] Cs. Rekeczky, T. Serrano-Gotarredona, T. Roska, and A. Rodr´ıguez-V´azquez,

“A stored program 2^nd order/3-layer complex cell CNN-UM,” in Proc. of the 6^th IEEE Int. Workshop on Cellular Neural Networks and their Applications, pp. 219–224, 2000.

[15] Peled and B. Liu, “A new hardware realization of digital filters,” IEEE Trans.

on Acoust., Speech, Signal Processing, vol. 22, pp. 456–462, 1974.

[16] L. Mintzer, “FIR filters with the Xilinx FPGA,” in Proc. of FPGA ’92 ACM/SIGDA Workshop on FPGAs, vol. 1, pp. 129–134, 1992.

[17] “Intel Performance Libraries Homepage.” [Online]

http://www.intel.com/software/products/perflib/, 2005.

[18] “IA-32 Intel(R) Architecture Software Developer’s Manual.” [Online]

http://www.intel.com/design/pentium4/manuals/253665.htm, 2005.

[19] H. Harrer, A. Schuler, and E. Amelunxen, “Comparison of different numerical integration methods for simulating cellular neural networks,” in Proc. of the 1^st IEEE Int. Workshop on Cellular Neural Networks and their Applications, pp. 151–159, 1990.

[20] W. H. Press, S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, Numerical Recipes in C. [Online] http://www.library.cornell.edu/nr/bookcpdf.html, 1992.

[21] T. Myint-U and L. Debnath, Partial Differential Equations for Scientists and Enginiers. Elsevier Science Publishing Co., Inc., 1987.

[22] A. Kiss and P. Szolgay, “Elementary CNN algorithms and an experimental sys-tem for typical tactile actions,” in Proc. of the 16^th European Conference on Circuit Theory and Design, 2003.

[23] S. Timoshenko and J. N. Goodier,Theory of Elasticity. McGraw-Hill, 1951.

[24] “Celoxica Ltd. homepage.” [Online] http://www.celoxica.com, 2005.

[25] L. Kantha and S. Piacsek, Ocean Models. [Online]

http://csep1.phy.ornl.gov/CSEP/OM/OM.html, 2004.

[26] R. Robertson, L. Padman, and G. D. Egbert, “Tides in the weddell sea,”[Online]

http://www.esr.org/antarctic/barotropic.html, 1998.

[27] R. H. Stewart, Introduction To Physical Oceanography. [Online]

http://oceanworld.tamu.edu/resources/ocng textbook/contents.html, 2003.

[28] J. A. Kahle, M. N. Day, H. P. Hofstee, C. R. Johns, T. R. Maeurer, and D. Shippy,

“Introduction to the Cell multiprocessor,”IBM Journal of Research and Develop-ment [Online] http://www.research.ibm.com/journal/rd/494/kahle.html, vol. 49, pp. 589–604, JULY/SEPTEMBER 2005.

Detailed area requirement diagramms of Chapter 3

141

5x5

5x5, Speed optimized multipliers

7x7, Speed optimized multipliers

5x5, Area optimized multipliers

7x7, Area optimized multipliers

Figure A.1: Area requirements of the arithmetic unit in case of different template sizes and multiplier implemenations

3x3, 1clk/cell

Figure A.2: Area requirements of the DA arithmetic unit in case of different template sizes and computing cycle length

5x5, 3clk/cell

Figure A.2: Area requirements of the DA arithmetic unit in case of different template sizes and computing cycle length (continued)

3x3, 1clk/cell

Figure A.3: Ratio of the AT product of the DA arithmetic unit and the conventional arithmetic unit in case of different template sizes and computing cycle length

5x5, 3clk/cell

Figure A.3: Ratio of the AT product of the DA arithmetic unit and the conven-tional arithmetic unit in case of different template sizes and computing cycle length (continued)

Detailed computing performance diagramms of Section 3.5

Virtex

0 1 2 3 4 5 6 7 8

0 8 16 24 32 40 48 56 64

Input Width (bit)

Delay (ns)

2 4 6 8 10 12 14 16 18 24 32 48 64

Virtex-E

0 1 2 3 4 5 6 7 8

0 8 16 24 32 40 48 56 64

Input Width (bit)

Delay (ns)

2 4 6 8 10 12 14 16 18 24 32 48 64

Virtex-II

0 1 2 3 4 5 6 7 8 9

0 8 16 24 32 40 48 56 64

Input Width (bit)

Delay (ns)

2 4 6 8 10 12 14 16 18 24 32 48 64

Figure B.1: Delay of the multiplier with different input precision 147

3x3