• Nem Talált Eredményt

1. T´ eziscsoport: Emul´ alt digit´ alis CNN-UM processzorok megval´ os´ıthat´ os´ aga ´ ujrakonfigur´ alhat´ o FPGA ´ aramk¨ or¨ ok¨ on.

A SZTAKI-ban tervezett CASTLE emul´alt digit´alis CNN-UM architekt´ura lehet˝ov´e teszi a CNN dinamika emul´aci´oj´at k¨ul¨onb¨oz˝o sz´am´abr´azol´asi pontoss´ag (1, 6 ´es 12 bit) felhaszn´al´as´aval. A sz´am´ıt´asi pontoss´ag cs¨okkent´es´evel a sz´am´ıt´asi teljes´ıtm´eny jelent˝osen n¨ovelhet˝o, a cs¨okkentett pontoss´ag´u ¨uzemm´odok eset´en azonban a chip jelent˝os r´esze nem vesz r´eszt a dinamika sz´am´ıt´as´aban. Noha a be´all´ıthat´o sz´am´ıt´asi pontoss´agok ´altal´anos k´epfeldolgoz´asi feladatok eset´en megfelel˝oek, de sok esetben, pl.

biol´ogiai rendszerek modellez´ese, parci´alis differenci´al egyenletek megold´asa, nagyobb pontoss´agra van sz¨uks´eg¨unk.

A jelenlegi anal´og ´es emul´alt digit´alis VLSI CNN-UM implement´aci´ok csak 3× 3-as esetleg 5×5-¨os m´eret˝u template-ek alkalmaz´as´at teszik lehet˝ov´e. Nagyobb m´eret˝u template-ek csak 3×3-as template-ekre t¨ort´en˝o dekompoz´ıci´oval futtathat´ok azonban nem minden CNN template dekompon´alhat´o. Ezekben az esetekben a CNN dinamika csak szoftver szimul´aci´oval vizsg´alhat´o azonban a megn¨ovekedett template m´eret mi-att a sz´am´ıt´asi teljes´ıtm´eny l´enyegesen lecs¨okken.

Bonyolult biol´ogiai ´es fizikai rendszerek j´ol modellezhet˝ok t¨obbr´eteg˝u CNN h´al´o-zatokkal. Azonban az anal´og CNN megval´os´ıt´asok vagy nem teszik lehet˝ov´e t¨obbr´e-teg˝u CNN modellek haszn´alat´at vagy a megold´asok nem megfelel˝o pontoss´ag´uak.

Ez´ert a t¨obbr´eteg˝u CNN dinamika vizsg´alat´ahoz szoftveres szimul´aci´ot kellett alkal-mazni, amely nagy m´eret˝u h´al´ozat vagy elt´er˝o id˝o´alland´oj´u r´etegek szimul´aci´oj´an´al nagyon lass´u.

A fent eml´ıtett probl´em´ak megold´as´ara l´etrehoztam egy ´uj Falcon-nak nevezett emul´alt digit´alis CNN-UM architekt´ura csal´adot. Megmutattam, hogy egy FPGA-n megval´os´ıtott Falcon emul´alt digit´alis CNN-UM processzor egy 3,0GHz-es Pentium 4 processzoron futtatott szoftver szimul´aci´on´al nagys´agrendekkel nagyobb sz´am´ıt´asi tel-jes´ıtm´eny˝u azonos pontoss´ag ´es flexibilit´as mellett. Kib˝ov´ıtettem a Falcon emul´alt digit´alis CNN-UM architekt´ura k´epess´egeit lehet˝ov´e t´eve tetsz˝oleges szomsz´eds´ag´u CNN template-ek haszn´alat´at ´es t¨obbr´eteg˝u CNN h´al´ozatok emul´al´as´at.

1.1. T´ezis: Konfigur´alhat´o digit´alisan emul´alt CNN-UM processzor meg-val´os´ıt´asa ´es optimaliz´al´asa Xilinx FPGA ´aramk¨or¨ok¨on

A SZTAKI-ban tervezett CASTLE emul´alt digit´alis CNN-UM architekt´ura alap-jait felhaszn´alva kidolgoztam, ´es FPGA ´aramk¨or¨okre optimaliz´altam egy ´uj kon-figur´alhat´o emul´alt digit´alis CNN-UM processzort, amely lehet˝ov´e teszi k¨ul¨onb¨oz˝o

m´eret˝u CNN t¨omb¨ok emul´aci´oj´at k¨ul¨onb¨oz˝o sz´am´ıt´asi pontoss´ag mellett. A Falcon-nak elnevezett ´uj architekt´ura szintetiz´alhat´o RTL le´ır´asban be´all´ıthat´ok a procesz-szorok f˝obb param´eterei ´ugymint a cellat¨omb sz´eless´ege, a cella ´allapot´anak, be-menet´enek ´es a felhaszn´alt template-ek sz´am´abr´azol´asi pontoss´aga, a felhaszn´alt t´er-vari´ans template-ek sz´ama valamint az architekt´ur´an bel¨uli processzormagok sz´ama

´es elrendez´ese. A felsorolt param´eterek v´altoztat´as´aval a Falcon architekt´ura m´erete

´es sebess´ege az aktu´alis alkalmaz´ashoz optimaliz´alhat´o.

Megmutattam, hogy a Xilinx Virtex-II FPGA-n megval´os´ıtott Falcon architekt´ura

´orajel-frekvenci´aja a sz´am´ıt´asi pontoss´agt´ol f¨ugg˝oen 147-429MHz. Egy cella ´uj ´alla-pot´anak kisz´am´ıt´asa 3 ´orajel-ciklust ig´enyel, ennek megfelel˝oen egy processzor jes´ıtm´enye 49-143 milli´o cella iter´aci´o/s. Megmutattam, hogy ez a sz´am´ıt´asi tel-jes´ıtm´eny 3,5-10,4-szeresen m´ulja fel¨ul egy 3,0GHz-es Pentium 4 processzor teljes´ıtm´e-ny´et. T¨obb Falcon processzor haszn´alat´aval a sz´am´ıt´asi teljes´ıtm´eny a processzorok sz´am´aval ar´anyosan tov´abb n¨ovelhet˝o, az egy chip-en megval´os´ıthat´o processzorok sz´ama pontoss´agt´ol f¨ugg˝oen 11-185db lehet a legnagyobb Virtex-IIPro 125-¨os FPGA-n.

1.2. T´ezis: Tetsz˝oleges szomsz´eds´ag´u template-eket haszn´al´o CNN-UM megval´os´ıt´asa

Kidolgoztam egy ´uj elj´ar´ast, amellyel tetsz˝oleges szomsz´eds´ag´u template-ek

futtathat-´ok emul´alt digit´alis architekt´ur´akon. Megterveztem egy olyan emul´alt digit´alis arc-hitekt´ur´at, amelyen a template-ek m´erete be´all´ıthat´o. Az RTL le´ır´asban szerepl˝o kon-figur´aci´os param´etereknek megfelel˝oen v´altozik a processzoron bel¨uli m˝uveletv´egz˝o egys´egek (¨osszead´ok, szorz´ok) sz´ama ennek megfelel˝oen n×n-es template m´eret eset´en n szorz´ora van sz¨uks´eg, amelyekkel n ´orajel-ciklus alatt sz´am´ıthat´o ki egy cella ´uj

´ert´eke. A v´altoz´o hossz´us´ag´u cella-iter´aci´os ciklus miatt a processzor vez´erl˝oegys´ege is automatikusan a template m´erethez idomul.

Megmutattam, hogy a m˝uveletv´egz˝o egys´egek nagyobb sz´ama l´enyegesen nem befoly´asolja a m˝uk¨od´esi sebess´eget, ´ıgy Virtex-IIPro FPGA-k haszn´alat´aval, tem-plate m´erett˝ol f¨uggetlen¨ul el´erhet˝o a 147-429MHz-es ´orajel-frekvencia. A hosszabb cella iter´aci´os ciklus miatt a Falcon architekt´ura teljes´ıtm´enye 5x5-¨os template-ek eset´en 29-85 milli´o cella iter´aci´o/s-ra cs¨okken. Megmutattam, hogy ez a sz´am´ıt´asi teljes´ıtm´eny 3,3-9,8-szeresen m´ulja fel¨ul egy 3,0GHz-es Pentium 4 processzor tel-jes´ıtm´eny´et. A m˝uveletv´egz˝o egys´egek sz´am´anak n¨oveked´ese miatt az egy chip-en megval´os´ıthat´o processzorok sz´ama, Virtex-IIPro 125-¨os FPGA ´es 5×5-¨os template m´eret eset´en, pontoss´agt´ol f¨ugg˝oen 6-111db.

1.3. T´ezis: T¨obbr´eteg˝u CNN-UM megval´os´ıt´asa

Kib˝ov´ıtettem a Falcon emul´alt digit´alis CNN-UM architekt´ura k´epess´egeit lehet˝ov´e t´eve tetsz˝oleges r´etegsz´am´u CNN cellat¨omb emul´aci´oj´at. Az ´uj architekt´ura egy tel-jesen ¨osszek¨ot¨ott t¨obbr´eteg˝u CNN h´al´ozatot emul´al teh´at minden r´eteg, glob´alisan be´all´ıthat´o m´eret˝u template-ekkel, kapcsol´odik az ¨osszes t¨obbi r´eteghez. A t¨obbr´eteg˝u Falcon architekt´ura az egyr´eteg˝u processzor f˝obb elemeib˝ol ´all, r r´eteg eset´en r darab mem´oria egys´eg ´es r´etegenk´ent r darab ¨osszekapcsolt aritmetikai egys´eg (¨osszesen r×r) sz¨uks´eges. Egy cella ´uj ´ert´ek´enek kisz´am´ıt´as´ahoz sz¨uks´eges ´orajelek sz´ama f¨uggetlen a r´etegsz´amt´ol ´es csak a template m´erett˝ol f¨ugg.

A t¨obbr´eteg˝u processzor megval´os´ıt´as´ahoz sz¨uks´eges fel¨ulet a sok r´etegk¨ozi kapcso-lat miatt jelent˝osen megn˝o, h´arom r´eteg˝u h´al´ozat ´es 3×3-as template-ek haszn´alat´an´al a Virtex-IIPro 125-¨os FPGA-n megval´os´ıthat´o processzorok sz´ama 1-20 darabra cs¨ok-ken. Megmutattam, hogy a m˝uk¨od´esi sebess´eget ez l´enyegesen nem befoly´asolja, ´ıgy ebben az esetben is el´erhet˝o a 147-429MHz-es ´orajel-frekvencia. H´arom r´eteg˝u h´al´ozat

´es 3×3-as template-ek haszn´alat´an´al egy t¨obbr´eteg˝u Falcon processzor 49-143-szor gyorsabb, mint egy 3,0GHz-es Pentium 4 processzor.

1.4. T´ezis: Elosztott aritmetikai (distributed arithmetic) egys´eg alkal-maz´asa a Falcon emul´alt digit´alis CNN-UM architekt´ura aritmetikai egys´ e-g´enek FPGA-ra t¨ort´en˝o optimaliz´al´as´ara.

Kidolgoztam a Falcon emul´alt digit´alis CNN-UM architekt´ura aritmetikai egys´eg´enek soros aritmetik´at haszn´al´o ter¨uletre optimaliz´alt v´altozat´at, amely t´erinvari´ans tem-plate-ek futtat´as´at teszi lehet˝ov´e. Megmutattam, hogy az optimaliz´alt aritmetikai egys´eg, az alkalmazott template ´es ´allapot v´altoz´o sz´am´abr´azol´asi pontoss´ag´anak f¨uggv´eny´eben, ak´ar 40%-kal kisebb ter¨uletet is ig´enyelhet, v´altozatlan sz´am´ıt´asi tel-jes´ıtm´eny mellett. Az ´uj aritmetikai egys´eg tov´abbi el˝onye hogy teljes´ıtm´enye jobban sk´al´azhat´o a hagyom´anyos szorz´okb´ol fel´ep´ıtett aritmetikai egys´egn´el. A szorz´okb´ol fel´ep´ıtett aritmetikai egys´eg-ben n×n-es template m´eret eset´en 1, n ´es n2 szorz´o haszn´alata k´ezenfekv˝o ennek megfelel˝oen egy cella ´uj ´ert´eke n2, n ´es 1 ´orajel alatt sz´am´ıthat´o ki. Megmutattam, hogy soros aritmetika alkalmaz´asa eset´en a ciklusid˝o az ´allapot v´altoz´o sz´am´abr´azol´asi pontoss´ag´at´ol f¨ugg, pl. 12 bites esetben lehets´eges 1, 2, 3, 4, 6 ´es 12 ´orajeles feldolgoz´asi idej˝u aritmetikai egys´egek l´etrehoz´asa.

2. T´ eziscsoport: Alkalmaz´ as specifikus emul´ alt digit´ alis CNN-UM felhaszn´ al´ asa parci´ alis differenci´ al egyenletek meg-old´ as´ ara.

Parci´alis differenci´al egyenletek megold´asa a matematika egyik legfontosabb ´aga mivel ezek az egyenletek gyakran fordulnak el˝o a fizik´aban, m˝uszaki tudom´anyokban ´es m´as

tudom´anyter¨uleteken. A CNN architekt´ura szab´alyos r´acsban elhelyezett lok´alisan

¨osszek¨ot¨ott anal´og processz´al´o elemei k´ezenfekv˝o lehet˝os´eget k´ın´alnak parci´alis dif-ferenci´al egyenletek v´eges differenci´akkal val´o megold´as´ara. A megold´ashoz sz¨uks´eges CNN h´al´ozat azonban a legt¨obb esetben t¨obbr´eteg˝u ´es n´eh´any fontos egyenlet pl.

a Navier-Stokes egyenletek, eset´en a cell´ak k¨oz¨otti interakci´ok nemline´arisak. A je-lenlegi egyr´eteg˝u anal´og VLSI CNN-UM chip-eken t¨obbr´eteg˝u h´al´ozatok viselked´es´et csak k¨ozel´ıteni tudjuk, ezen k´ıv¨ul gondot okoz a nemline´aris interakci´ok megval´os´ıt´asa is. Tov´abbi probl´ema hogy az anal´og VLSI CNN-UM chip-ek 7-8 bites pontoss´aga ´es 128×128-as cellat¨omb m´erete nem elegend˝o a legt¨obb m´ern¨oki alkalmaz´asban.

A Falcon emul´alt digit´alis CNN-UM architekt´ura alkalmaz´asa eset´en a cellat¨omb m´erete ´es a r´etegek sz´ama nem jelent probl´em´at. A megold´as pontoss´ag´at viszont m´as szemsz¨ogb˝ol kell vizsg´alnunk: minim´alisan mekkora sz´am´abr´azol´asi pontoss´ag sz¨uks´eges ahhoz, hogy helyes eredm´enyt kapjunk?

A parci´alis differenci´al egyenletek CNN-en t¨ort´en˝o megold´asakor kapott template-ek sok esetben szimmetrikusak, t´erinvari´ansok vagy az ´ert´template-ektemplate-ek egym´ashoz viszony´ıtott ar´anya ´alland´o. Ezek a tulajdons´agok lehet˝ov´e teszik, hogy a Falcon emul´alt digit´alis CNN-UM architekt´ur´at az adott parci´alis differenci´alegyenlet megold´as´ara specializ´al-juk. A specializ´alt processzorok megval´os´ıt´asa kisebb fel¨uletet ig´enyel, valamint sz´am´ıt´asi teljes´ıtm´eny¨uk is jelent˝osen n¨ovekedhet. Ebben az esetben a hagyom´anyos RTL szint˝u VHDL le´ır´ason alapul´o tervez´esi m´odszer haszn´alata t´uls´agosan id˝oig´enyes

´ıgy magas szint˝u szint´ezis m´odszereket kell haszn´alni a processzorok tervez´ese sor´an.

2.1. T´ezis: A sz´am´abr´azol´asi pontoss´ag hat´asa a megold´as pontoss´ag´ara parci´alis differenci´al egyenletek megold´asa eset´en

Kidolgoztam k´et ´uj heurisztikus elj´ar´ast, amelyek seg´ıts´eg´evel meghat´arozhat´o parci´a-lis differenci´al egyenletek ´es k¨oz¨ons´eges differenci´alegyenlet rendszerek fixpontos meg-old´as´ahoz sz¨uks´eges optim´alis sz´am´ıt´asi pontoss´ag. Az elj´ar´asok hat´ekonys´ag´at algo-ritmikus megfontol´asokkal ´es k´ıs´erletekkel igazoltam. Az ´uj heurisztikus elj´ar´asokat parci´alis differenci´al egyenletek ´es k¨oz¨ons´eges differenci´alegyenlet rendszerek megold´a-sa sor´an teszteltem. K´ıs´erletileg igazoltam, hogy az ´uj heurisztikus m´odszerek ´altal´a-nosan haszn´alhat´oak.

2.2. T´ezis: Magas szint˝u szint´ezis ´es gyors protot´ıpus k´epz˝o technik´ak alkalmazhat´os´aga parci´alis differenci´alegyenlet megold´o architekt´ur´ak ter-vez´es´ere

Megvizsg´altam k´et parci´alis differenci´al egyenlet megold´as´at (nyom´as´erz´ekel˝o szen-zor, ´oce´an modell) ´es megterveztem egy ´uj sz´am´ıt´asi architekt´ur´at ezeknek az egyen-leteknek a megold´as´ara, amely j´ol illeszkedik az emul´alt digit´alis CNN architekt´ur´ak strukt´ur´aj´ahoz, valamint gyors ´es hat´ekony sz´am´ıt´ast tesz lehet˝ov´e. Kidolgoztam

egy ´uj elj´ar´ast, amellyel k¨ul¨onb¨oz˝o parci´alis differenci´al egyenletek megold´as´ara spe-cializ´alt emul´alt digit´alis architekt´ur´ak hozhat´ok l´etre a hagyom´anyos tervez´esi m´od-szerekn´el jelent˝osen r¨ovidebb id˝o alatt. K´et parci´alis differenci´al egyenlet megold´as´an (nyom´as´erz´ekel˝o szenzor, ´oce´an modell) kereszt¨ul megmutattam a m´odszer m˝uk¨od´es´et

´es hat´ekonys´ag´at. Az architekt´ura lehet˝ov´e teszi tetsz˝oleges karakterisztik´aj´u, lok´ali-san ¨osszek¨ot¨ott cellat¨omb¨ok emul´aci´oj´at. A karakterisztika megv´altoztat´as´ahoz csak az aritmetikai egys´eg le´ır´as´at kell m´odos´ıtani ez azonban a magas szint˝u Handel-C hardver-le´ır´o nyelv haszn´alata miatt egyszer˝ubben elv´egezhet˝o valamint tesztel´ese a hagyom´anyos VHDL szimul´aci´on´al nagys´agrendekkel gyorsabb.

[1] L. O. Chua and L. Yang, “Cellular Neural Networks: Theory and Applications,”

IEEE Trans. On Circuits and Systems, vol. 35, pp. 1257–1290, 1988.

[2] Cs. Rekeczky and L. O. Chua, “Computing with front propagation: Active con-tour and skeleton models in continuous-time cnn,”Journal of VLSI Signal Pro-cessing Special Issue: Spatiotemporal Signal ProPro-cessing with Analogic CNN Vi-sual Microprocessors, vol. 23, pp. pp. 373–402, 1999.

[3] T. Roska, T. Kozek, D. Wolf, and L. O. Chua, “Solving partial differential equa-tions by CNN,” inProc. of European Conf. on Circuits Theory and Design, 1992.

[4] P. Szolgay, G. V¨or¨os, and Gy. Er˝oss, “On the applications of the cellular neural network paradigm in mechanical vibrating system,” IEEE. Trans. Circuits and Systems-I, Fundamental Theory and Appl., vol. 40, no. 3, pp. 222–227, 1993.

[5] T. Roska and L. O. Chua, “The CNN Universal Machine: An analogic array computer,”IEEE Trans. On Circuits and Systems-II, vol. 40, pp. 163–173, 1993.

[6] P. Keresztes, A. Zar´andy, T. Roska, P. Szolgay, T. H´ıdv´egi, P. J´on´as, and A. Ka-tona, “An emulated digital CNN implementation,” Int. Journal of VLSI Signal Processing, 1999.

[7] G. Lin´an, R. Dom´ınguez-Castro, S. Espejo, and A. Rodr´ıguez-V´azquez,

“ACE16k: A programmable focal plane vision processor with 128×128 reso-lution,” in Proc. of the15th European Conference on Circuit Theory and Design, vol. 1, pp. 345–348, 2001.

[8] A. K. Sharma, Programmable Logic Handbook PLDs, CPLDs and FPGAs.

McGraw-Hill, 1998.

[9] “Xilinx products homepage.” [Online] http://www.xilinx.com, 2005.

[10] T. Roska, G. B´artfai, P. Szolgay, T. Szir´anyi, A. Radv´anyi, T. Kozek, Z. Ugray, and A. Zar´andy, “A digital multiprocessor hardware accelerator board for cellular

138

neural networks: CNN-HAC,” Int. Journal of Circuit Theory and Applications, vol. 20, pp. 589–599, 1992.

[11] T. Hidv´egi, P. Keresztes, and P. Szolgay, “An accelerated digital CNN-UM (CAS-TLE) architecture by using the pipe-line technique,” inProc. of the15thEuropean Conference on Circuit Theory and Design, 2002.

[12] T. H´ıdv´egi, P. Keresztes, and P. Szolgay, “Enhanced emulated digital CNN-UM (CASTLE) arithmetic cores,” Journal of Circuits, Systems and Computers, vol. 12, no. 6, 1999.

[13] D. B´alya, B. Roska, T. Roska, and F. S. Werblin, “A CNN framework for model-ing parallel processmodel-ing in a mammalian retina,”International Journal of Circuit Theory and Applications, vol. 30, pp. 363–393, 2002.

[14] Cs. Rekeczky, T. Serrano-Gotarredona, T. Roska, and A. Rodr´ıguez-V´azquez,

“A stored program 2nd order/3-layer complex cell CNN-UM,” in Proc. of the 6th IEEE Int. Workshop on Cellular Neural Networks and their Applications, pp. 219–224, 2000.

[15] Peled and B. Liu, “A new hardware realization of digital filters,” IEEE Trans.

on Acoust., Speech, Signal Processing, vol. 22, pp. 456–462, 1974.

[16] L. Mintzer, “FIR filters with the Xilinx FPGA,” in Proc. of FPGA ’92 ACM/SIGDA Workshop on FPGAs, vol. 1, pp. 129–134, 1992.

[17] “Intel Performance Libraries Homepage.” [Online]

http://www.intel.com/software/products/perflib/, 2005.

[18] “IA-32 Intel(R) Architecture Software Developer’s Manual.” [Online]

http://www.intel.com/design/pentium4/manuals/253665.htm, 2005.

[19] H. Harrer, A. Schuler, and E. Amelunxen, “Comparison of different numerical integration methods for simulating cellular neural networks,” in Proc. of the 1st IEEE Int. Workshop on Cellular Neural Networks and their Applications, pp. 151–159, 1990.

[20] W. H. Press, S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, Numerical Recipes in C. [Online] http://www.library.cornell.edu/nr/bookcpdf.html, 1992.

[21] T. Myint-U and L. Debnath, Partial Differential Equations for Scientists and Enginiers. Elsevier Science Publishing Co., Inc., 1987.

[22] A. Kiss and P. Szolgay, “Elementary CNN algorithms and an experimental sys-tem for typical tactile actions,” in Proc. of the 16th European Conference on Circuit Theory and Design, 2003.

[23] S. Timoshenko and J. N. Goodier,Theory of Elasticity. McGraw-Hill, 1951.

[24] “Celoxica Ltd. homepage.” [Online] http://www.celoxica.com, 2005.

[25] L. Kantha and S. Piacsek, Ocean Models. [Online]

http://csep1.phy.ornl.gov/CSEP/OM/OM.html, 2004.

[26] R. Robertson, L. Padman, and G. D. Egbert, “Tides in the weddell sea,”[Online]

http://www.esr.org/antarctic/barotropic.html, 1998.

[27] R. H. Stewart, Introduction To Physical Oceanography. [Online]

http://oceanworld.tamu.edu/resources/ocng textbook/contents.html, 2003.

[28] J. A. Kahle, M. N. Day, H. P. Hofstee, C. R. Johns, T. R. Maeurer, and D. Shippy,

“Introduction to the Cell multiprocessor,”IBM Journal of Research and Develop-ment [Online] http://www.research.ibm.com/journal/rd/494/kahle.html, vol. 49, pp. 589–604, JULY/SEPTEMBER 2005.

Detailed area requirement diagramms of Chapter 3

141

5x5

5x5, Speed optimized multipliers

0

7x7, Speed optimized multipliers

0

5x5, Area optimized multipliers

0

7x7, Area optimized multipliers

0

Figure A.1: Area requirements of the arithmetic unit in case of different template sizes and multiplier implemenations

3x3, 1clk/cell

Figure A.2: Area requirements of the DA arithmetic unit in case of different template sizes and computing cycle length

5x5, 3clk/cell

Figure A.2: Area requirements of the DA arithmetic unit in case of different template sizes and computing cycle length (continued)

3x3, 1clk/cell

Figure A.3: Ratio of the AT product of the DA arithmetic unit and the conventional arithmetic unit in case of different template sizes and computing cycle length

5x5, 3clk/cell

Figure A.3: Ratio of the AT product of the DA arithmetic unit and the conven-tional arithmetic unit in case of different template sizes and computing cycle length (continued)

Detailed computing performance diagramms of Section 3.5

Virtex

0 1 2 3 4 5 6 7 8

0 8 16 24 32 40 48 56 64

Input Width (bit)

Delay (ns)

2 4 6 8 10 12 14 16 18 24 32 48 64

Virtex-E

0 1 2 3 4 5 6 7 8

0 8 16 24 32 40 48 56 64

Input Width (bit)

Delay (ns)

2 4 6 8 10 12 14 16 18 24 32 48 64

Virtex-II

0 1 2 3 4 5 6 7 8 9

0 8 16 24 32 40 48 56 64

Input Width (bit)

Delay (ns)

2 4 6 8 10 12 14 16 18 24 32 48 64

Figure B.1: Delay of the multiplier with different input precision 147

3x3

Performance (million cell iteration/s)

2 4 6 8 10 12 14 16 18 24 32 48 64

Performance (million cell iteration/s)

2 4 6 8 10 12 14 16 18 24 32 48 64

Performance (million cell iteration/s)

2 4 6 8 10 12 14 16 18 24 32 48 64

Performance (million cell iteration/s)

2 4 6 8 10 12 14 16 18 24 32 48 64

Performance (million cell iteration/s)

2 4 6 8 10 12 14 16 18 24 32 48 64

Performance (million cell iteration/s)

2 4 6 8 10 12 14 16 18 24 32 48 64

Figure B.2: Performance of the arithmetic unit on the Virtex-II Pro FPGA

Distributed arithmetic

Performance (million cell iteration/s)

4 6 8 10 12 14 16 18 24 32

Figure B.2: Performance of the arithmetic unit on the Virtex-II Pro FPGA (contin-ued)

Figure B.3: Speedup of one Falcon processor compared to a Pentium IV 3.0GHz processor

5x5 dedicated multipliers

Figure B.3: Speedup of one Falcon processor compared to a Pentium IV 3.0GHz processor (continued)

3x3

Figure B.4: Number of realizable Falcon processor cores on the XC2VP125 FPGA

3x3 distributed arithmetic

Figure B.4: Number of realizable Falcon processor cores on the XC2VP125 FPGA (continued)

Figure B.5: Speedup of an array of Falcon processors implemented on the XC2VP125 FPGA compared to a Pentium IV 3.0GHz processor

7x7

Figure B.5: Speedup of an array of Falcon processors implemented on the XC2VP125 FPGA compared to a Pentium IV 3.0GHz processor (continued)

7x7 distributed arithmetic

100 1000 10000

0 8 16 24 32 40 48 56 64

State width (bit)

Speedup

4 6 8 10 12 14 16 18 24 32

Figure B.5: Speedup of an array of Falcon processors implemented on the XC2VP125 FPGA compared to a Pentium IV 3.0GHz processor (continued)

Detailed results of Chapter 4

155

C.1 Simple mechanical system

Figure C.1: Error of the forward Euler and the 2nd order Runge-Kutta method using different state precision

Figure C.2: Error of the forward Euler and the 2nd order Runge-Kutta method using different timestep values

C.2 The Wave equation

Euler

1.0E-05 1.0E-04 1.0E-03 1.0E-02 1.0E-01

17 33 65 129 257 513 1025

Number of elements

Error

FP 64 8 bit 12 bit 16 bit 20 bit 24 bit 28 bit 32 bit 36 bit 40 bit 44 bit 48 bit 52 bit 56 bit

RK2

1.0E-05 1.0E-04 1.0E-03 1.0E-02 1.0E-01

17 33 65 129 257 513 1025

Number of elements

Error

FP 64 8 bit 12 bit 16 bit 20 bit 24 bit 28 bit 32 bit 36 bit 40 bit 44 bit 48 bit 52 bit 56 bit

RK4

RK4